← Experiment

En populärvetenskaplig förklaring baserad på P1_RC_GGL: ett strikt slutningstest av galaxdynamik och svag linsning (v1.1)

Originalrapport av Guanglin Tu | Versionsgrund: P1 v1.1 | Inriktning: offentlig förklarande text / inte en sakkunniggranskad artikel
Relaterade arkiv: rapport-DOI 10.5281/zenodo.18526334 | reproducerbarhetspaket DOI 10.5281/zenodo.18526286

Läsanvisningar

Detta är en förklarande text, inte ännu en akademisk rapport. Den bygger på den ursprungliga P1-rapporten, behåller de viktigaste figurerna och tabellerna och lägger till publikvänliga förklaringar av ”vad detta betyder” vid varje nyckelsteg.

Denna artikel förklarar endast de slutsatser som P1 når under sina angivna datamängder, sin parameterbokföring och sitt statistiska protokoll: i det gemensamma testet av galaxers rotationskurvor (RC) och svag galax–galax-linsning (GGL) ligger EFT:s modell för genomsnittlig gravitationsrespons tydligt före den minimala DM_RAZOR-baslinje som testas här.

Artikeln läser inte P1 som slutsatsen att ”mörk materia har omkullkastats”. P1 är bara första steget i P-seriens experiment. Den testar ett observerbart skikt inom EFT — det ”genomsnittliga gravitationsgolvet” — inte hela EFT-teorin.

I. Förstå P1 på fem minuter: vad testar studien egentligen?


P1 kan läsas som ett valideringsexperiment mellan oberoende sonder. Det frågar inte bara om en modell kan anpassas till en datamängd; det lägger två mycket olika gravitationsavläsningar på samma granskningsbänk. Rotationskurvor (RC) läser dynamiken inne i galaxskivor, medan svag galax–galax-linsning (GGL) läser den projicerade gravitationsresponsen på större skalor.

P1:s kärnbudskap

P1 höjer jämförelsetröskeln från ”kan den anpassas väl till en sond?” till ”sluter den över flera sonder?” God prestanda under korrekt mappning, följd av signalkollaps när mappningen blandas, tyder på att modellen kan ha fångat en gravitationsstruktur som RC och GGL delar.

Tabell 0 | P1:s kärnsiffror och hur de ska läsas

Mått

Hur P1 / P1A läser det

Läsning på vanligt språk

Gemensam anpassning ΔlogL_total

Huvudtextens jämförelse: EFT ligger 1155–1337 över DM_RAZOR

Total poängskillnad över de två datamängderna; större värde betyder bättre samlad förklaring.

Slutningsstyrka ΔlogL_closure

Huvudtextens jämförelse: EFT ligger på 172–281, medan DM_RAZOR ligger på 127

Förmåga att förutsäga GGL efter inferens enbart från RC; större värde betyder starkare självkonsistens mellan sonder.

Negativ kontroll med shuffle

Efter blandning av RC-bin→GGL-bin faller EFT:s slutningssignal till 6–23

Om den korrekta korrespondensen bryts bör fördelen försvinna; ju mer den försvinner, desto fler falska signaler kan uteslutas.

P1A:s stresstest med flera DM-varianter

DM 7+1 + DM_STD, med EFT_BIN kvar som jämförelse

P1A tittar inte bara på den minimala DM_RAZOR; den lägger flera lågdimensionella och granskningsbara DM-förstärkningsgrenar i samma slutningsprotokoll.

II. Varför P1 behövdes: var kosmologi på galaxskala kör fast


Problemet på galaxskala har förblivit svårt därför att behovet av ”extra gravitation eller massa” inte bara är ett rotationskurvefenomen. Många observationer visar en tät koppling mellan synlig baryonisk materia i galaxer och de dynamiska avläsningar och linsningsavläsningar som faktiskt görs. För mörk-materia-spåret betyder det att mörka halon, baryonisk återkoppling, galaxbildningshistorik och observationssystematik måste samordnas med hög precision. För gravitationsmodeller utan DM betyder det att en modell inte bara får se bra ut på RC; den måste också hålla för svag linsning, populationsbaserade skalningsrelationer och negativa kontroller.

Det är P1:s motivation. Studien börjar inte med ”mörk materia är fel” eller ”EFT måste ha rätt”. Den ställer ett testbart påstående inför prövning: kan EFT:s genomsnittliga gravitationsrespons lämna en reproducerbar och överförbar signal i RC→GGL-slutning mellan sonder?

Extern litteraturkontext: varför RC+GGL-fönstret spelar roll

McGaugh, Lelli och Schombert (2016) föreslog den radiella accelerationsrelationen (RAR) och visade en tät relation med liten spridning mellan den observerade acceleration som spåras av rotationskurvor och den acceleration som förutsägs från baryonisk materia. Det gör kopplingen mellan baryoner och gravitationsrespons oundviklig för teorier på galaxskala.

Brouwer m.fl. (2021) använde svag linsning från KiDS-1000 för att utvidga RAR till lägre accelerationer och större radier, och jämförde MOND, Verlindes emergenta gravitation och LambdaCDM-modeller. De noterade också att skillnader mellan tidiga och sena galaxer, gashalon och kopplingar mellan galaxer och halon fortfarande är centrala förklaringsfrågor.

Mistele m.fl. (2024) använde dessutom svag linsning för att härleda cirkulärhastighetskurvor för isolerade galaxer och rapporterade ingen tydlig nedgång ut till hundratals kpc, och till och med omkring 1 Mpc, i linje med BTFR. Det visar att svag linsning håller på att bli en viktig extern avläsning för gravitationsrespons på galaxskala.

P1:s värde ligger därför inte i att den är först med att diskutera RC och GGL tillsammans. Värdet ligger i att de förs in i ett granskningsbart protokoll med fast mappning, parameterbokföring, RC-only→GGL-slutning, negativa shuffle-kontroller och P1A:s stresstest med flera DM-varianter.

III. Vad betyder EFT i P1? Det är inte effektiv fältteori


Här betyder EFT Energitrådsteorin, inte den effektiva fältteori (Effective Field Theory) som är vanlig inom fysiken. I den tekniska P1-rapporten används EFT mycket återhållsamt: den förs inte in som en komplett slutgiltig teori, utan pressas först ned till en observerbar, färdig att anpassa och falsifierbar parameterisering av en ”genomsnittlig gravitationsrespons”.

Enkelt uttryckt försöker P1 inte diskutera alla mikroskopiska källor till extra gravitation och inte heller bevisa hela EFT-ramverket i ett enda steg. Studien ställer en smalare och hårdare fråga: om det finns någon form av genomsnittlig extra gravitationsrespons på galaxskalor, kan den först förklara RC och sedan överföras för att förutsäga GGL?

Vilken del av EFT testar P1?

P1 testar det ”genomsnittliga gravitationsgolvet”: ett statistiskt stabilt och överförbart medelbidrag.

P1 behandlar ännu inte det ”stokastiska / brusgolvet”: slumptermerna, skillnaderna mellan objekt eller den extra spridning som kan uppstå ur mer mikroskopiska fluktuationsprocesser.

P1 diskuterar inte heller den fullständiga mikroskopiska mekanismen, förekomster, livslängder eller globala kosmologiska begränsningar. Det är första steget i P-seriens experiment, inte den slutliga domen.

IV. Planen för P-serien: varför börja med det ”genomsnittliga golvet”?


P-serien kan förstås som EFT:s observationsbaserade återhämtningsprogram. Den lägger inte alla påståenden på bordet samtidigt, utan isolerar den del som lättast kan testas med öppna data. P1 börjar med medeltermen: om den genomsnittliga gravitationsresponsen inte kan slutas från RC till GGL finns det ingen stabil ingång för att diskutera mer komplexa brustermer eller mikroskopiska mekanismer.

Tabell 1 | P-seriens skiktade positionering

Skikt

Fråga

Plats i P1

P1

Kan den genomsnittliga gravitationsresponsen slutas från RC till GGL?

Den aktuella rapportens huvudfråga

P1A

Om DM-sidan stärks, förblir slutsatsen stabil?

Bilaga B: stresstestet DM 7+1 + DM_STD

Framtida arbete i P-serien

Kan detta utvidgas till mer data, fler sonder och mer komplex systematik?

Framtida riktning

Djupare frågor

Hur hänger medeltermen, brustermen och de mikroskopiska mekanismerna ihop?

Utanför P1:s slutsatsområde

V. Vilka data används? Vad säger RC respektive GGL?


V.I. Rotationskurvor (RC): en hastighetsmätare inne i galaxskivor

Rotationskurvor registrerar hur snabbt gas och stjärnor kretsar på olika avstånd från en galax centrum. Högre omloppshastigheter kräver starkare centripetalkraft och därmed en starkare effektiv gravitationsrespons. P1 använder SPARC-databasen; efter förbehandling omfattar den 104 galaxer, 2 295 hastighetsdatapunkter och 20 RC-bin.

V.II. Svag linsning (GGL): en ”våg” för gravitation på större skala

Svag galax–galax-linsning mäter hur förgrundsgalaxer svagt böjer ljuset från bakgrundsgalaxer. Den motsvarar en projicerad gravitationsrespons på större halo-skala och beror inte på de gasdynamiska detaljerna i galaxskivor. P1 använder öppna GGL-data från KiDS-1000 / Brouwer m.fl. (2021): fyra stjärnmassbin, 15 radiella punkter per bin, totalt 60 datapunkter, med full kovarians.

V.III. Fast mappning: varför 20 RC-bin → 4 GGL-bin spelar roll

P1 kopplar 20 RC-bin till 4 GGL-bin med en fast regel: varje GGL-bin motsvarar fem RC-bin, medelvärdesbildade med vikter efter galaxantal. Denna mappning hålls fast för alla modeller. Den är ett hårt villkor för slutningstestet och för rättvis jämförelse.

Varför inte justera mappningen i efterhand?

Om man i efterhand fick välja vilka RC-bin som motsvarar vilka GGL-bin skulle en modell kunna tillverka slutning genom att flytta om korrespondensen. P1 låser 20→4-mappningen i förväg och bryter den medvetet med en negativ shuffle-kontroll just för att testa om slutningssignalen verkligen beror på en fysikaliskt rimlig korrespondens.

VI. Modeller och metoder: vad jämför P1 egentligen?


VI.I. EFT-sidan: en lågdimensionell genomsnittlig gravitationsrespons

På EFT-sidan beskriver en lågdimensionell extra hastighetsterm den genomsnittliga gravitationsresponsen. Extra termens form styrs av en dimensionslös kärnfunktion f(r/ℓ), där ℓ är en global skala, medan amplituder tilldelas per RC-bin. Olika kärnor kodar olika begynnelselutningar, övergångsbeteenden och långräckviddiga svansar och fungerar därmed som stresstest av robusthet.

VI.II. DM-sidan: huvudtextens jämförelse och bilaga P1A måste läsas separat

I huvudtextens jämförelse är DM_RAZOR en minimerad och granskningsbar NFW-baslinje: den håller c–M-relationen fast och inkluderar varken spridning mellan halon, adiabatisk kontraktion, återkopplingskärna, icke-sfäriskhet eller miljöterm. Fördelen med denna konstruktion är kontrollerade frihetsgrader och enkel reproducerbarhet; begränsningen är att den inte representerar alla LambdaCDM- eller mörk-materia-halomodeller.

Därför gör bilaga B (P1A) DM-sidan till ett standardiserat stresstest. Utan att ändra den gemensamma mappningen eller slutningsprotokollet lägger den stegvis till lågdimensionella förstärkningsgrenar som SCAT, AC, FB, HIER_CMSCAT, CORE1P, linsnings-m och den sammansatta baslinjen DM_STD, samtidigt som EFT_BIN behålls som jämförelse. Ett bra sätt att läsa P1A är: den jämför inte EFT enbart med en minimal DM-baslinje, utan lägger en uppsättning vanliga och granskningsbara DM-mekanismer under samma ”slutningslinjal”.

Den precisa slutsats som används här

Huvudtext: EFT-familjen presterar betydligt bättre än den minimala DM_RAZOR i huvudjämförelsen.

Bilaga B / P1A: över flera lågdimensionella, granskningsbara DM-förstärkningsgrenar och DM_STD-stresstestet förbättras vissa gemensamma DM-anpassningar, men slutningsstyrkan raderar inte EFT_BIN:s fördel.

Den säkraste formuleringen är därför: inom P1/P1A:s data, mappning, parameterbokföring och slutningsprotokoll visar EFT:s genomsnittliga gravitationsrespons starkare konsistens över datamängder. Det innebär inte att alla mörk-materia-modeller utesluts.

VI.III. Slutningstestet: P1:s viktigaste experimentella logik

1. Anpassa endast RC och ta fram en uppsättning posteriorprover från RC-only.

2. Efterjustera inte på GGL; använd RC-posterioren direkt för att förutsäga GGL.

3. Använd full kovarians för att beräkna GGL-prediktionspoängen logL_true under korrekt mappning.

4. Permutera RC-bin→GGL-bin-korrespondensen slumpmässigt och beräkna den negativa kontrollpoängen logL_perm.

5. Subtrahera de två värdena för att få slutningsstyrkan: ΔlogL_closure = <logL_true> − <logL_perm>.

Liknelse på vanligt språk

Slutningstestet liknar ett omtenta över två salar: modellen lär sig först en regel i RC-salen och svarar sedan i GGL-salen. Om den har lärt sig en gemensam regel snarare än ett lokalt trick bör den fortfarande klara sig i den andra salen; om salarnas korrespondens medvetet blandas ska fördelen försvinna.

VI.IV. Innan de tekniska tabellerna: fyra ingångar

Tabell 5.4 | Så läser du nästa uppsättning tekniska liggande tabeller

Ingång

Vad du ska titta på

Varför det spelar roll

Tabell S1a

Total gemensam RC+GGL-anpassningspoäng

Svarar på: ”Vems samlade förklaring är starkare över båda datamängderna?”

Tabell S1b

Slutningsstyrka, shuffle och robusthetsskanningar

Svarar på: ”Kan det som lärdes från RC överföras till GGL?”

Tabell B0

Definitioner av flera DM-förstärkningsgrenar i P1A

Hindrar att P1 reduceras till ”jämfördes bara med den minimala DM_RAZOR”.

Tabell B1

P1A:s resultattavla för slutning och gemensam anpassning

Kontrollerar om förstärkt DM raderar slutningsfördelen.

Layoutanmärkning

Nästa sida växlar till liggande orientering så att de breda tabellerna från originalrapporten kan bevaras utan att kolumner tas bort eller pressas ihop till oläslighet. Huvudtexten har redan gett en läsning på vanligt språk; de tekniska liggande tabellerna är till för läsare som behöver verifiera tal och modellgrenar.

Figur 0.1 | P1:s slutningstest i översikt

Obs: den övre kedjan är ”slutningstestet” (anpassa endast RC → använd RC-posterioren för att förutsäga GGL); den nedre kedjan är den ”gemensamma anpassningen” (poängsätt RC+GGL tillsammans). Till höger jämförs den sanna mappningen med shuffle-mappningar för att få slutningsstyrkan ΔlogL.

VII. Viktiga tekniska tabeller: huvudrapportens tabeller och P1A-tabeller


Tabell S1a | Huvudsakliga jämförelsemått för gemensam anpassning (RC+GGL, strikt; bevarad från originalrapporten)

Modell (arbetsyta)

W-kärna

k

Gemensam logL_total (bäst)

ΔlogL_total jämfört med DM

AICc

BIC

DM_RAZOR

ingen

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

ingen

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponentiell

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

Yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabell S1b | Slutnings- och robusthetsmått (strikt; bevarad från originalrapporten)

Modell (arbetsyta)

Slutning ΔlogL (true-perm)

ΔlogL efter negativ kontroll med shuffle

ΔlogL-intervall vid σ_int-skanning

ΔlogL-intervall vid R_min-skanning

ΔlogL-intervall vid cov-shrink-skanning

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabell B0 | Definitioner av DM-förstärkningsgrenar i P1A (bevarad från bilaga B i originalrapporten)

Arbetsyta

dm_model

Nya parametrar (≤1)

Fysikalisk motivation (kärna)

Implementeringsregel (granskningsvänlig)

DM_RAZOR

NFW (fast c–M, ingen spridning)

Minimal, granskningsbar LambdaCDM-halobaslinje; används som strikt jämförelse för EFT

Gemensam mappning fast; strikt parameterbokföring; används som baslinje endast för relativ jämförelse

DM_RAZOR_SCAT

NFW + c–M-spridning (äldre gren)

σ_logc

c–M-relationen har spridning; approximeras med en lognormal enparameterspridning

≤1 ny parameter; använder fortfarande den gemensamma mappningen; slutningsvinst är acceptanskriteriet

DM_RAZOR_AC

NFW + adiabatisk kontraktion (äldre gren)

α_AC

Baryoniskt infall kan inducera adiabatisk halokontraktion; approximeras med en styrkeparameter

≤1 ny parameter; mappningen oförändrad; rapporterar förändringar i AICc/BIC och slutningsvinst

DM_RAZOR_FB

NFW + återkopplingskärna (äldre gren)

log r_core

Återkoppling kan bilda en kärna i den inre regionen; approximeras med en kärnskaleparameter

≤1 ny parameter; samma slutnings- och negativa kontrollprotokoll; förbättring av RC-only är inte enda målet

DM_HIER_CMSCAT

Hierarkisk c–M-spridning + prior

σ_logc (hier)

En mer standardiserad hierarkisk c_i∼logN(c(M_i), σ_logc); påverkar den gemensamma RC- och GGL-posterioren samtidigt

Explicit prior; latent c_i marginaliseras; förblir lågdimensionell och granskningsbar

DM_CORE1P

Enparameters kärnproxy (inspirerad av coreNFW/DC14)

log r_core

Använder en enparameters kärnproxy för den huvudsakliga baryoniska återkopplingseffekten och undviker högdimensionella detaljer om stjärnbildning

Refererar till standardlitteratur; ≤1 ny parameter; kopplad till slutningstestet

DM_RAZOR_M

NFW + nuisance för skjuvkalibrering i linsning

m_shear (GGL)

Absorberar en central systematik på svag-linsningssidan som effektiv parameter och minskar risken att behandla systematik som fysik

Nuisance-parametern bokförs explicit; får inte återkoppla till RC; resultaten bedöms främst efter slutningsrobusthet

DM_STD

Standardiserad DM-baslinje (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

För in tre vanliga invändningsklasser i en fortfarande lågdimensionell standardiserad baslinje

Rapporterar parameterbokföring och informationskriterier tillsammans; slutning är huvudmåttet; används som den starkaste DM-försvarskomparatorn

Tabell B1 | P1A-resultattavla (högre är bättre; bevarad från bilaga B i originalrapporten)

Modellgren (arbetsyta)

Δk

Bästa logL_RC för RC-only (Δ)

Slutningsstyrka ΔlogL_closure (Δ)

Bästa gemensamma logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Så läser du tabell B1 (P1A-resultattavlan)

• Δk: tillagda frihetsgrader (större värde betyder mer komplex modell; mer komplex betyder inte bättre).

• Fokusera på två kolumner: slutningsstyrka ΔlogL_closure(Δ) (större betyder starkare självkonsistens vid överföring) och bästa gemensamma logL_total(Δ) (total poäng för gemensam anpassning).

• (Δ) inom parentes är skillnaden relativt DM_RAZOR, vilket gör direkt jämförelse enkel.

• Huvudfrågan i tabellen är: om DM-baslinjen är ”rimligt förstärkt”, försvinner slutningsfördelen?

• Läsanmärkning: DM_STD förbättrar den gemensamma poängen kraftigt, men slutningsstyrkan sjunker faktiskt; EFT_BIN behåller fortfarande högre slutningsstyrka.

Sammanfattning i en mening: inom detta lågdimensionella och granskningsbara intervall av DM-förstärkningar ger bättre gemensam anpassning inte automatiskt starkare slutning; slutning, alltså överförbarhet, förblir nyckelkriteriet.

VIII. Hur ska huvudresultaten läsas?


VIII.I. Gemensam anpassning: över båda datamängderna får EFT:s huvudjämförelse högre poäng

Tabell S1a och figur S4 visar att EFT-familjen, med samma data, samma gemensamma mappning och nästan samma parameterskala, har ett gemensamt ΔlogL_total på 1155–1337 relativt DM_RAZOR. För allmänna läsare betyder det att EFT-modellerna i huvudjämförelsen får högre totalpoäng under en poängregel som förenar RC och GGL.

VIII.II. Slutningstestet: P1:s huvudbetoning är överförbarhet

Hög slutningsstyrka betyder att en modell kan härleda parametrar från enbart RC och, utan att titta på GGL igen, förutsäga GGL bättre. I P1-rapporten har EFT ΔlogL_closure = 172–281, medan DM_RAZOR har 127. Det betyder mer än att säga att ”varje anpassning ser bra ut”, eftersom det begränsar modellens frihet på den andra datamängden.

VIII.III. Negativ kontroll: varför är ”signalkollaps” något bra?

När P1 slumpmässigt blandar grupperingen mellan RC-bin och GGL-bin faller EFT:s slutningssignal till intervallet 6–23. För allmänna läsare är detta ett antifusksteg: om slutningsfördelen bara kom från kod, enheter, kovariansval eller en anpassningstillfällighet skulle blandade korrespondenser fortfarande kunna visa en fördel. I stället kollapsar fördelen, vilket visar att den beror på korrekt mappning.

Figur S3 | Slutningsstyrka (högre är bättre): genomsnittlig log-likelihood-fördel för RC-only → GGL-prediktion.

Så läser du figuren

Den här figuren är P1:s kärna. Ju högre stapel, desto bättre överförs den information som modellen lärt från RC till GGL.

EFT-familjen som helhet står över DM_RAZOR, vilket tyder på starkare slutning mellan sonder i experimentet ”lär först från RC, förutsäg sedan GGL”.

Figur S4 | Fördel i gemensam anpassning (högre är bättre): bästa logL_total för RC+GGL relativt DM_RAZOR.

Så läser du figuren

Figuren visar totalpoängen efter att RC och GGL har kombinerats.

Alla EFT-varianter ligger klart över 0, vilket visar att EFT-fördelen i huvudjämförelsen inte är en lokal enpunktseffekt utan ett samlat beteende i den gemensamma analysen.

Figur R1 | Negativ kontroll: slutningssignalen faller kraftigt efter blandad gruppering.

Så läser du figuren

Figuren visar att slutningssignalen faller kraftigt när den korrekta RC↔GGL-binrelationen blandas.

Det gör att P1-resultatet ser mer ut som verklig konsekvens i en mappning mellan data än som en numerisk tillfällighet som kan fås under godtyckliga mappningar.

IX. Robusthet och kontroller: hur undviker P1 ”den anpassas bara bättre”?


En teknisk rapport är särskilt sårbar för invändningen att dess fördel kan komma från en viss brusinställning, ett val av data i centralregionen, kovarianshantering eller överanpassning. P1 besvarar den invändningen med flera stresstest.

Tabell 2 | Så läser du P1:s robusthetstest och negativa kontroller

Test

Invändning som testet försöker utesluta

Hur det ska läsas

σ_int-skanning

Om RC innehåller extra okänd spridning, förblir slutsatsen stabil?

Efter att RC-felen luckras upp förblir EFT-rangordningen och fördelens skala stabila.

R_min-skanning

Om galaxens centrala region inte är helt betrodd, förblir slutsatsen stabil?

Efter att centralregionen beskärs behåller EFT fortfarande en positiv fördel.

cov-shrink-skanning

Om GGL:s kovariansskattning är osäker, förblir slutsatsen stabil?

Efter att kovariansen krymps mot en diagonalmatris är fördelen inte känslig.

Ablationsstege

Tvingar EFT fram en anpassning genom onödig komplexitet?

Full EFT_BIN är nödvändig enligt informationskriterierna.

LOO-prediktion med undanhållet bin

Förklarar modellen bara data den redan har sett?

När ett GGL-bin hålls undan visar modellen fortfarande stark generalisering.

RC-bin-shuffle

Kommer slutningen från den verkliga mappningen?

Slutningen faller när grupperingen blandas, vilket stöder beroende av mappningen.

Figur R2 | Intervall för ΔlogL_total under σ_int-skanningen (högre är bättre).

Så läser du figuren

Testar om EFT:s ledning kvarstår efter ändringar i inställningen för RC:s inneboende spridning.

Figur R3 | Intervall för ΔlogL_total under R_min-skanningen (högre är bättre).

Så läser du figuren

Testar om EFT:s fördel förblir stabil efter beskärning av den komplexa centralregionen.

Figur R4 | Intervall för ΔlogL_total under cov-shrink-skanningen (högre är bättre).

Så läser du figuren

Testar om rangordningen är känslig för ändringar i kovarianshanteringen för svag linsning.

Figur R5 | Ablationsstege för EFT_BIN (AICc; lägre är bättre).

Så läser du figuren

Testar om full EFT_BIN är nödvändig för att förklara data, snarare än att bara lägga till parametrar.

Figur R6 | LOO: fördelning av log-likelihood för undanhållna bin.

Så läser du figuren

Testar om modellen fortfarande förutsäger väl på ett osynligt GGL-bin.

Figur R7 | Negativ kontroll: blandad mappning ger ett tydligt fall i genomsnittligt logL_true.

Så läser du figuren

Visar dessutom, ur perspektivet genomsnittligt logL_true, att slutningen beror på korrekt mappning mellan data.

X. P1A: varför de flera DM-modellerna i bilagan spelar roll


Det här avsnittet frågar inte: ”slog EFT bara en minimal DM_RAZOR?” Det frågar om slutsatserna från slutningstestet och den gemensamma anpassningen förändras när DM-baslinjen stärks inom en lågdimensionell, reproducerbar och tydligt bokförd parameterbokföring (P1A). Med andra ord är P1A avsett att minska invändningen att jämförelsen använde en alltför svag DM-baslinje och i stället föra diskussionen mot om slutningsprestandan fortfarande skiljer sig under en uppsättning granskningsbara DM-förstärkningar.

P1A försöker inte uttömma varje möjlig halo-modelleringsvariant inom LambdaCDM och gör inte heller DM-sidan till en högdimensionell, ogranskningsbar anpassningsmaskin. Den väljer lågdimensionella, reproducerbara och bokföringsklara förstärkningar: koncentrationsspridning, adiabatisk kontraktion, återkopplingskärna, hierarkisk prior för c–M-spridning, en enparameters kärnproxy, nuisance-parameter för skjuvkalibrering i svag linsning och den sammansatta DM_STD-baslinjen.

Huvudläsning av P1A

Bland de tre äldre grenarna ger endast feedback/core en liten nettovinst i slutningsstyrka; SCAT och AC ger ingen nettovinst i slutning.

DM_HIER_CMSCAT, DM_RAZOR_M och DM_CORE1P har liten effekt på slutningsstyrkan eller visar ingen betydande nettovinst.

DM_STD kan förbättra gemensam logL kraftigt, men slutningsstyrkan faller, vilket tyder på att den främst ökar flexibiliteten i den gemensamma anpassningen snarare än prediktionskraften i RC→GGL-överföring.

I P1A:s tabell B1 behåller EFT_BIN fortfarande högre slutningsstyrka och en fördel i gemensam anpassning. P1:s kärnpåstående bör därför inte förenklas till ”den slog bara den minimala DM_RAZOR”.

Figur B1 | P1A-resultattavla: slutning och gemensam ΔlogL relativt baslinjen (högre är bättre).

Så läser du figuren

Figuren visar hur flera DM-förstärkningsgrenar presterar relativt baslinjen.

Betydelsen är inte ”all DM är utesluten”. Figuren visar att förstärkt DM, inom det lågdimensionella och granskningsbara DM-förstärkningsintervall som valts i P1A, inte raderar EFT_BIN:s slutningsfördel.

XI. Varför P1-experimentet spelar roll


XI.I. Metodologisk betydelse: sätt slutning mellan sonder över anpassning till en enda sond

Teorier på galaxskala fastnar ofta i diskussioner om huruvida en modell kan anpassas till en uppsättning rotationskurvor. P1 höjer ribban: kan parametrar som lärts från RC förutsäga svag linsning utan efterjustering på GGL? Därmed blir P1 inte en anpassningstävling utan ett test av överföringsprediktion.

XI.II. Betydelsen av transparens: gör den reproducerbara kedjan till en del av resultatet

Ett viktigt bidrag från P1 är att data, tabeller och figurer, körningsetiketter, negativa kontroller, reproducerbarhetspaket och granskningsspår publiceras tillsammans. Det är viktigt för både anhängare och kritiker: diskussionen kan återvända till samma öppna data, samma mappning, samma skript och samma mått i stället för att jämföra slagord.

XI.III. Fysikalisk betydelse: ett starkt stresstest för gravitation utan DM

Inom gravitationsspår utan DM kan många modeller förklara delar av rotationskurve- eller RAR-fenomenologin. Den svårare uppgiften är att samtidigt klara avläsningar från svag linsning och med negativa kontroller visa att signalen beror på korrekt mappning. P1:s betydelse är att den placerar EFT:s genomsnittliga gravitationsrespons i ett protokoll som liknar en extern examen: RC är träningsfältet, GGL är överföringsfältet och shuffle är antifuskfältet.

XI.IV. Är detta ett viktigt experiment för forskningsfältet gravitation utan DM?

Försiktigt uttryckt: om P1:s databehandling, reproducerbarhetspaket och slutningsprotokoll håller vid extern replikering kan den betraktas som ett RC+GGL-slutningsexperiment som bör tas på allvar inom forskning om gravitation utan DM och modifierad gravitation. Dess betydelse ligger inte i frasen ”mörk materia har omkullkastats”, utan i att den erbjuder ett kriterium mellan sonder som kan kopieras, utmanas och byggas ut.

Finns det redan ett jämförbart starkt ramverk för RC+GGL-prediktionsslutning?

Relevanta ramverk och observationstraditioner finns redan: MOND/RAR ordnar en stor mängd rotationskurvefenomen mycket väl; RAR-arbete med svag linsning från KiDS-1000 har också jämfört MOND, Verlindes emergenta gravitation och LambdaCDM-modeller; LambdaCDM kan dessutom förklara vissa linsnings- och dynamikfenomen genom galax–halo-kopplingar, gashalon och återkopplingsmodellering.

Men P1:s precisa påstående är inte ”inget annat ramverk i världen kan förklara RC+GGL”. Påståendet är att EFT, under P1:s eget offentliga protokoll — fast mappning, RC-only→GGL-slutning, negativ shuffle-kontroll, parameterbokföring och P1A:s stresstest med flera DM-varianter — rapporterar starkare slutningsprestanda.

Med andra ord är den del av P1 som är mest värd extern testning det konkreta och reproducerbara jämförelseprotokoll den föreslår. Om MOND/RAR, LambdaCDM/HOD, hydrodynamiska simuleringar eller andra ramverk för modifierad gravitation kan nå samma eller högre slutningspoäng under samma protokoll är ett mycket värdefullt nästa steg.

XII. Vad kan P1 dra slutsats om? Vad kan P1 inte dra slutsats om?


Tabell 3 | Gränserna för P1:s slutsatser

Kan dra slutsats om

Under P1:s RC+GGL-data, fasta mappning och huvudjämförelseprotokoll har EFT-familjen högre gemensam anpassningspoäng och slutningsstyrka än den minimala DM_RAZOR.

Kan dra slutsats om

Inom P1A:s lågdimensionella, granskningsbara DM-förstärkningsintervall raderar flera DM-förstärkningar inte EFT_BIN:s slutningsfördel.

Kan dra slutsats om

Den negativa shuffle-kontrollen visar att slutningssignalen beror på korrekt mappning mellan data, inte på godtyckliga mappningar.

Kan inte dra slutsats om

Den kan inte dra slutsatsen att P1 har omkullkastat alla mörk-materia-modeller. P1A uttömmer fortfarande inte icke-sfäriskhet, miljöberoende, komplexa galax–halo-kopplingar, högdimensionell återkoppling eller fullständiga kosmologiska simuleringar.

Kan inte dra slutsats om

Den kan inte dra slutsatsen att hela EFT-teorin har bevisats från första principer. P1 testar endast det fenomenologiska skiktet av genomsnittlig gravitationsrespons.

Kan inte dra slutsats om

Den kan inte dra slutsatsen att all systematik har uteslutits. P1 ger robusthetsbevis endast inom de listade stresstesten och granskningsområdet.

XIII. Vanliga frågor


Fråga I: Säger detta att ”mörk materia inte finns”?

Nej. P1:s slutsats måste begränsas till de data, det protokoll och de jämförelsemodeller som används i artikeln. P1A går längre än den minimala DM_RAZOR-baslinjen, men representerar fortfarande inte alla möjliga mörk-materia-modeller.

Fråga II: Säger detta att ”EFT redan är bevisad”?

Inte heller. P1 testar EFT som en parameteriserad genomsnittlig gravitationsrespons och visar starkare prestanda i RC→GGL-slutning; mikroskopiska mekanismer och hela teorin är inte P1:s slutsatser.

Fråga III: Varför inte ange signifikans direkt i σ?

P1 använder en enhetlig likelihood-poäng, informationskriterier och slutningsskillnader. ΔlogL är en relativ fördel under samma poängregel; det är inte samma sak som ett enskilt σ-värde.

Fråga IV: Varför blanda RC-bin→GGL-bin?

Detta är den negativa kontrollen. En verklig signal mellan sonder bör bero på korrekt mappning. Om det blandade fallet förblev lika starkt skulle det i stället tyda på implementeringsbias eller en statistisk falsksignal.

Fråga V: Vad bör P1 göra härnäst?

Utvidga samma protokoll till mer data, fler DM-kontroller, mer komplex systematik och fler ramverk för modifierad gravitation, särskilt på sätt som gör det möjligt för externa grupper att replikera samma slutningsmått.

XIV. Miniordlista


Tabell 4 | Miniordlista

Term

Förklaring i en mening

Rotationskurva (RC)

Radie–hastighetsrelationen i en galaxskiva, använd för att härleda effektiv gravitation i skivan.

Svag linsning (GGL)

Mäter den genomsnittliga gravitations- eller massfördelningen runt förgrundsgalaxer genom statistisk förvrängning av bakgrundsgalaxers former.

Slutningstest

Använder RC-posterioren för att förutsäga GGL och jämför med en negativ kontroll med blandad mappning.

Negativ kontroll

Bryter avsiktligt en nyckelstruktur för att se om signalen försvinner; används för att utesluta falska signaler.

NFW-halo

En densitetsprofil för mörk-materia-halon som ofta används i modeller för kall mörk materia.

c–M-relation

Relationen mellan ett mörk-materia-halos koncentration c och massa M; om spridning tillåts ändras modellens flexibilitet.

DM_STD

I P1A är detta en standardiserad DM-stresstestgren som kombinerar flera lågdimensionella DM-förstärkningar och en linsningsnuisance.

ΔlogL

Skillnad i log-likelihood mellan två modeller under samma poängregel; positiva värden visar att den förstnämnda presterar bättre.

Kovarians

En matrisbeskrivning av korrelationer mellan datapunkter; data från svag linsning kräver vanligen full kovarians.

XV. Föreslagen läsrutt och ingångar för citering


1. Läs först avsnitt 0–2 för att fastställa P1:s fråga och den återhållsamma roll som EFT får i P1.

2. Titta sedan på figurerna S3 och S4 samt tabellerna S1a/S1b för att förstå slutningsstyrka, gemensam anpassning och negativa kontroller.

3. Om du oroar dig för att DM-baslinjen är för svag, gå direkt till avsnitt 9 och tabell B1 / figur B1.

4. För teknisk replikering, gå tillbaka till den tekniska P1-rapporten v1.1, Tables & Figures Supplement och full_fit_runpack.

Huvudsakliga arkivingångar

P1 teknisk rapport (publikationsklass, Concept DOI): 10.5281/zenodo.18526334

P1 fullständigt reproducerbarhetspaket (Concept DOI): 10.5281/zenodo.18526286

EFT:s strukturerade kunskapsbas (valfri, Concept DOI): 10.5281/zenodo.18853200

Licensanmärkning: den tekniska rapporten använder CC BY-NC-ND 4.0; det fullständiga reproducerbarhetspaketet använder CC BY 4.0 (med förbehåll för den tekniska rapporten och Zenodo-arkivposterna).

XVI. Referenser och extern bakgrund


McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.