← Experiment

P1-rapporten förklarad

Från rotationskurvor till svag linsning: att testa EFT:s genomsnittliga gravitationsrespons

En populärvetenskaplig vägledning baserad på P1_RC_GGL: Ett strikt slutningstest av galaxdynamik och svag linsning (v1.1)

Originalrapport av Guanglin Tu | Versionsgrund: P1 v1.1 | Redaktionell status: populärvetenskapligt förklarande utkast / inte en sakkunniggranskad artikel
Relaterade arkiv: Rapport-DOI 10.5281/zenodo.18526334 | Reproduktionspaket-DOI 10.5281/zenodo.18526286

Läsanvisning

Detta är en förklarande version, inte en separat akademisk rapport. Den bygger på den ursprungliga P1-rapporten, behåller de viktigaste figurerna och tabellerna och lägger till klarspråksförklaringar av vad varje större steg betyder.

Denna vägledning förklarar endast vad P1 kommer fram till under sina angivna datamängder, sin parameterbokföring och sitt statistiska protokoll: i det gemensamma testet av galaxers rotationskurvor (RC) och svag galax–galax-linsning (GGL) överträffar EFT:s modell för genomsnittlig gravitationsrespons tydligt den minimala DM_RAZOR-baslinje som testas här.

Denna vägledning tolkar inte P1 som ett påstående om att ”mörk materia har omkullkastats”. P1 är bara det första steget i P-seriens experiment. Den testar ett observerbart skikt av EFT — ”det genomsnittliga gravitationsgolvet” — inte hela innehållet i det fullständiga EFT-ramverket.

0 | Förstå P1 på fem minuter: vad gör testet egentligen?

Tänk på P1 som ett konsistenstest mellan olika sonder. Det frågar inte bara om en modell kan passa en enda datamängd. I stället lägger det två mycket olika gravitationsavläsningar på samma granskningsbänk: rotationskurvor (RC) läser dynamiken inne i galaxskivor, medan svag galax–galax-linsning (GGL) läser den projicerade gravitationsresponsen på större skalor.

P1 i en mening

P1 höjer ribban från ”passar den en sond väl?” till ”sluter den mellan sonder?” En modell har större sannolikhet att ha fångat en gravitationsstruktur som delas av RC och GGL endast om den presterar väl under korrekt mappning och signalen kollapsar när mappningen blandas om.

Tabell 0 | P1:s kärnsiffror och hur de ska läsas

Mått

Läsning i P1 / P1A

Betydelse i klarspråk

Gemensam anpassning ΔlogL_total

I huvudtextens jämförelse ligger EFT 1155–1337 över DM_RAZOR

Den totala poängskillnaden över de två datamängderna; större betyder en bättre helhetsförklaring.

Slutningsstyrka ΔlogL_closure

I huvudtextens jämförelse är EFT 172–281, medan DM_RAZOR är 127

Förmågan att förutsäga GGL efter inferens från enbart RC; större betyder starkare självkonsistens mellan sonder.

Shuffle som negativ kontroll

Efter omblandning av RC-bin→GGL-bin faller EFT:s slutningssignal till 6–23

Om den korrekta korrespondensen bryts bör fördelen försvinna; ju skarpare kollapsen är, desto bättre utesluter den en falsk signal.

P1A-stresstest med flera DM-modeller

DM 7+1 + DM_STD, med EFT_BIN kvar som jämförelse

P1A tittar inte bara på den minimala DM_RAZOR-baslinjen. Den placerar flera lågdimensionella, granskningsbara DM-förstärkningsgrenar i samma slutningsprotokoll.


1 | Varför göra P1? Var fastnar kosmologin på galaxskalor?

Problem på galaxskalor har förblivit svåra eftersom ”behovet av extra gravitation/massa” inte bara är ett rotationskurvefenomen. Många observationer visar ett tätt samband mellan synlig baryonisk materia i galaxer och de faktiska dynamiska/linsningsmässiga avläsningarna. För mörk-materia-vägen innebär detta att mörka halor, baryonisk återkoppling, galaxbildningshistoria och observationssystematik måste samordnas med stor precision. För gravitationsvägar utan mörk materia innebär det att en modell inte bara kan se bra ut på RC; den måste också klara svag linsning, populationsskalningsrelationer och negativa kontroller.

Det är motivationen för P1. Den börjar inte med ”mörk materia är fel” eller ”EFT måste vara rätt”. Den tar in ett prövningsbart påstående för granskning: kan EFT:s genomsnittliga gravitationsrespons lämna en reproducerbar och överförbar signal i RC→GGL-slutning mellan sonder?

Extern litteraturkontext: varför RC+GGL-fönstret spelar roll

Den radiella accelerationsrelationen (RAR), föreslagen av McGaugh, Lelli och Schombert 2016, visar en tät korrelation med låg spridning mellan den observerade acceleration som rotationskurvor spårar och den acceleration som förutsägs från baryonisk materia. Detta gör ”kopplingen mellan baryoner och gravitationsrespons” oundviklig för teori på galaxskalor.

Brouwer et al. (2021) använde KiDS-1000 svag linsning för att utvidga RAR till lägre accelerationer och större radier, och jämförde MOND, Verlindes emergenta gravitation och LambdaCDM-modeller. De noterade också att skillnader mellan tidiga och sena galaxtyper, gashalor och galax–halo-kopplingen fortfarande är viktiga förklaringsfrågor.

Mistele et al. (2024) använde vidare svag linsning för att härleda cirkulärhastighetskurvor för isolerade galaxer och rapporterade ingen tydlig nedgång ut till flera hundra kpc och till och med ungefär 1 Mpc, i överensstämmelse med BTFR. Detta visar att svag linsning håller på att bli en viktig extern avläsning för att testa gravitationsrespons på galaxskalor.

Därför ligger P1:s värde inte i att vara ”först med att diskutera RC och GGL tillsammans”. Värdet ligger i att placera dem i ett granskningsbart protokoll byggt av en fast mappning, en parameterbokföring, RC-only→GGL-slutning, negativa shuffle-kontroller och P1A-stresstester med flera DM-modeller.


2 | Vad betyder EFT i P1? Det är inte Effective Field Theory

Här syftar EFT på Energitrådsteori (Energy Filament Theory, EFT), inte på Effective Field Theory som ofta används inom fysiken. I den tekniska P1-rapporten används EFT återhållsamt: den går inte in i jämförelsen som en komplett slutgiltig teori, utan komprimeras först till en observerbar, anpassningsklar och falsifierbar parameterisering av ”genomsnittlig gravitationsrespons”.

Med vanligare ord börjar P1 inte med att diskutera varje mikroskopisk källa till extra gravitation, och den försöker inte bevisa hela EFT-ramverket på en gång. Den ställer en smalare och hårdare fråga: om någon genomsnittlig extra gravitationsrespons finns på galaxskalor, kan den först förklara RC och sedan överföras till att förutsäga GGL?

Vilken del av EFT testar P1?

P1 riktar in sig på det ”genomsnittliga gravitationsgolvet”: ett statistiskt stabilt medelbidrag som kan överföras mellan stickprov.

P1 hanterar ännu inte det ”stokastiska/brusgolvet”: slumptermer, individuella skillnader eller ytterligare spridning som mer mikroskopiska fluktuationsprocesser kan införa.

P1 behandlar inte heller den fullständiga mikroskopiska mekanismen, förekomsten, livslängden eller globala kosmologiska begränsningar. Den är första steget i P-seriens experiment, inte en slutgiltig dom.


3 | Planen för P-serien: varför börja med ”medelgolvet”?

P-serien kan förstås som EFT:s observationsbaserade återhämtningsprogram. Den lägger inte fram alla påståenden på en gång; i stället isolerar den den del som lättast kan testas med offentliga data. P1:s strategi är att testa medeltermen först: om genomsnittlig gravitationsrespons inte ens kan sluta från RC till GGL, saknar diskussionen om mer komplexa brustermer eller mikroskopiska mekanismer en ordentlig ingång.

Tabell 1 | P-seriens skiktade positionering

Skikt

Fråga som ställs

Roll i P1

P1

Kan genomsnittlig gravitationsrespons sluta i RC→GGL?

Huvudfrågan i denna rapport

P1A

Om DM-sidan stärks, förblir slutsatsen stabil?

Bilaga B: DM 7+1 + DM_STD-stresstest

Senare arbete i P-serien

Kan protokollet utvidgas till mer data, fler sonder och mer komplex systematik?

Riktning för framtida arbete

Frågor på djupare nivå

Hur kopplas medeltermen, brustermen och den mikroskopiska mekanismen samman?

Utanför P1:s slutsatsområde


4 | Vilka data används? Vad säger RC och GGL?


4.1 Rotationskurvor (RC): ”hastighetsmätaren” inne i galaxskivor

Rotationskurvor registrerar hur snabbt gas och stjärnor kretsar kring galaxens centrum på olika radier. Ju snabbare rotationen är, desto starkare centripetalkraft krävs vid den radien — och därmed desto starkare är den effektiva gravitationen. P1 använder SPARC-databasen, med förbehandling som omfattar 104 galaxer och 2 295 hastighetsdatapunkter, uppdelade i 20 RC-bin.


4.2 Svag linsning (GGL): en ”våg” för gravitation på större skala

Svag galax–galax-linsning mäter hur förgrundsgalaxer svagt böjer ljuset från bakgrundsgalaxer. Den motsvarar en projicerad gravitationsrespons på större radier i haloskala och beror inte på detaljerna i gasdynamiken inne i en galax. P1 använder offentliga GGL-data från KiDS-1000 / Brouwer et al. (2021): 4 bin för stjärnmassa, 15 radiella punkter per bin, totalt 60 datapunkter, med full kovarians använd.


4.3 Fast mappning: varför 20 RC-bin → 4 GGL-bin spelar roll

P1 kopplar de 20 RC-binen till de 4 GGL-binen genom en fast regel: varje GGL-bin motsvarar 5 RC-bin, kombinerade med ett galaxantal-viktat medelvärde. Denna mappning hålls oförändrad för alla modeller och fungerar som en hård begränsning för slutningstestning och rättvis jämförelse.

Varför inte finjustera mappningen i efterhand?

Om man i efterhand kunde välja ”vilka RC-bin som motsvarar vilka GGL-bin” skulle en modell kunna tillverka slutning genom att arrangera om korrespondensen. P1 låser 20→4-mappningen i förväg och bryter den avsiktligt med en shuffle-negativ kontroll just för att bedöma om slutningssignalen verkligen beror på en fysiskt rimlig korrespondens.


5 | Modeller och metoder: exakt vad jämför P1?


5.1 EFT-sidan: lågdimensionell genomsnittlig gravitationsrespons

På EFT-sidan används en lågdimensionell extra hastighetsterm för att beskriva genomsnittlig gravitationsrespons. Formen på den extra termen styrs av en dimensionslös kärnfunktion f(r/ℓ), där ℓ är den globala skalan, och amplituden tilldelas per RC-bin. Olika kärnor representerar olika initiala lutningar, övergångshastigheter och långräckviddssvansar, och används för robusthetsstresstester.


5.2 DM-sidan: huvudtextens jämförelse och bilaga P1A måste läsas separat

I huvudtextens jämförelse är DM_RAZOR en minimerad, granskningsbar NFW-baslinje: den använder en fast c–M-relation och inkluderar inte halo-till-halo-spridning, adiabatisk kontraktion, återkopplingskärnor, icke-sfäricitet eller miljötermer. Styrkan i denna design är kontrollerade frihetsgrader och enkel reproducerbarhet; svagheten är att den inte kan representera varje LambdaCDM- eller mörk-materia-halomodell.

Därför görs DM-sidan i bilaga B (P1A) om till en uppsättning ”standardiserade stresstester”. Utan att ändra den gemensamma mappningen eller slutningsprotokollet lägger P1A gradvis till lågdimensionella förstärkningsgrenar såsom SCAT, AC, FB, HIER_CMSCAT, CORE1P, linsnings-m och den kombinerade baslinjen DM_STD, samtidigt som EFT_BIN behålls som jämförelse. Kort sagt är P1A inte en jämförelse mot endast en minimal DM-baslinje; den mäter en uppsättning vanliga, granskningsbara DM-mekanismer med samma ”slutningslinjal”.

Den exakta slutsatsram som används här

Huvudtext: EFT-familjen överträffar väsentligt den minimala DM_RAZOR i huvudjämförelsen.

Bilaga B / P1A: under flera lågdimensionella, granskningsbara DM-förstärkningsgrenar och DM_STD-stresstestet förbättras vissa gemensamma DM-anpassningar, men slutningsstyrkan eliminerar inte EFT_BIN:s fördel.

Det säkraste påståendet är därför: inom P1/P1A:s data, mappning, parameterbokföring och slutningsprotokoll visar EFT:s genomsnittliga gravitationsrespons starkare konsistens mellan data; detta är inte detsamma som att utesluta alla modeller för mörk materia.


5.3 Slutningstestning: P1:s viktigaste experimentsyntax

1. Anpassa enbart med RC för att få en uppsättning RC-only-posteriorprover.

2. Stäm inte om med GGL; använd RC-posteriorn direkt för att förutsäga GGL.

3. Använd full kovarians för att beräkna GGL-förutsägelsens poäng under korrekt mappning, logL_true.

4. Permutera slumpmässigt RC-bin→GGL-bin-korrespondensen för att beräkna negativkontrollens poäng, logL_perm.

5. Subtrahera de två för att få slutningsstyrkan: ΔlogL_closure = <logL_true> − <logL_perm>.

Liknelse i klarspråk

Ett slutningstest är som ett omprov i korsförhör. Modellen lär sig först mönster i RC-examensrummet och svarar sedan i GGL-examensrummet. Om den har lärt sig en gemensam regel snarare än ett lokalt trick bör den fortfarande svara väl efter bytet av rum; om korrespondensen mellan examensrummen avsiktligt blandas om bör fördelen försvinna.


5.4 Före läsningen av de tekniska tabellerna: fyra ingångar

Tabell 5.4 | Lässtig för nästa uppsättning liggande tekniska tabeller

Ingång

Vad man ska titta på

Varför det spelar roll

Tabell S1a

Totalpoäng för gemensam RC+GGL-anpassning

Svarar på: ”När de två datamängderna betraktas tillsammans, vems helhetsförklaring är starkare?”

Tabell S1b

Slutningsstyrka, shuffle och robusthetsskanningar

Svarar på: ”Kan det som lärdes från RC överföras till GGL?”

Tabell B0

Definitioner av flera DM-förstärkningsgrenar i P1A

Hindrar att P1 reduceras till ”bara en jämförelse med minimal DM_RAZOR”.

Tabell B1

P1A-resultattavla för slutning och gemensam anpassning

Kontrollerar om slutningsfördelen försvinner efter att DM stärkts.

Layoutanmärkning

Liggande sidor börjar på nästa sida så att de breda tabellerna från originalrapporten kan behållas intakta utan att kolumner tas bort eller trycks ihop till oläslighet. Brödtexten har redan gett en klarspråksläsning; de liggande tekniska tabellerna är för läsare som behöver verifiera värden och modellgrenar.

Figur 0.1 | P1:s arbetsflöde för slutningstest i ett diagram

Obs: den övre kedjan är ”slutningstestet” (anpassa endast RC → använd RC-posteriorn för att förutsäga GGL); den nedre kedjan är den ”gemensamma anpassningen” (poängsätt RC+GGL tillsammans). Till höger jämförs den sanna mappningen med den omblandade mappningen för att få slutningsstyrkan ΔlogL.


6 | Viktiga tekniska tabeller: huvudtabeller från originalrapporten och P1A-tabeller

Tabell S1a | Huvudmått för gemensam anpassningsjämförelse (RC+GGL, strikt; bibehållet från originalrapporten)

Modell (arbetsyta)

W-kärna

k

Gemensam logL_total (bäst)

ΔlogL_total jämfört med DM

AICc

BIC

DM_RAZOR

ingen

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

ingen

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponentiell

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabell S1b | Slutnings- och robusthetsmått (strikt; bibehållet från originalrapporten)

Modell (arbetsyta)

Slutning ΔlogL (true-perm)

ΔlogL efter shuffle-negativ kontroll

σ_int-skanning ΔlogL-intervall

R_min-skanning ΔlogL-intervall

cov-shrink-skanning ΔlogL-intervall

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabell B0 | Definitioner av DM-förstärkningsgrenar i P1A (bibehållet från bilaga B i originalrapporten)

Arbetsyta

dm_model

Ny parameter (≤1)

Fysikalisk motivation (kärna)

Implementeringsprincip (granskningsvänlig)

DM_RAZOR

NFW (fast c–M, ingen spridning)

Minimal, granskningsbar LambdaCDM-halo-baslinje; används som en strikt jämförelse med EFT

Fast gemensam mappning; strikt parameterbokföring; används endast som baslinje för relativ jämförelse

DM_RAZOR_SCAT

NFW + c–M-spridning (legacy)

σ_logc

c–M-relationen har spridning; approximerad med en enparameters lognormal spridning

≤1 ny parameter; använder fortfarande den gemensamma mappningen; slutningsvinst är acceptanskriteriet

DM_RAZOR_AC

NFW + adiabatisk kontraktion (legacy)

α_AC

Baryoniskt inflöde kan orsaka adiabatisk halokontraktion; approximeras med en enparametersstyrka

≤1 ny parameter; mappningen oförändrad; rapporterar AICc/BIC-förändringar och slutningsvinst

DM_RAZOR_FB

NFW + återkopplingskärna (legacy)

log r_core

Återkoppling kan skapa en inre kärna; approximeras med en enparameters kärnskala

≤1 ny parameter; samma slutnings-/negativkontrollram; RC-only-förbättring är inte det enda målet

DM_HIER_CMSCAT

Hierarkisk c–M-spridning + prior

σ_logc(hier)

En mer standardmässig hierarkisk c_i∼logN(c(M_i),σ_logc); påverkar den gemensamma RC- och GGL-posteriorn

Explicit prior; latent c_i marginaliseras; förblir lågdimensionell och granskningsbar

DM_CORE1P

Enparameters kärnproxy (inspirerad av coreNFW/DC14)

log r_core

Använder en enparameters kärnproxy för den huvudsakliga effekten av baryonisk återkoppling och undviker högdimensionella detaljer i stjärnbildning

Citerar standardlitteratur; ≤1 ny parameter; knuten till slutningstestet

DM_RAZOR_M

NFW + nuisance för kalibrering av linsnings-shear

m_shear(GGL)

Absorberar en viktig systematik på sidan för svag linsning med en effektiv parameter, vilket minskar risken att behandla systematik som fysik

Nuisance registreras explicit; får inte återverka på RC; resultaten bedöms främst utifrån slutningsrobusthet

DM_STD

Standardiserad DM-baslinje (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

För samman de tre vanligaste invändningarna i en fortfarande lågdimensionell standardiserad baslinje

Rapporterar parameterbokföringen och informationskriterierna tillsammans; slutning är huvudmåttet; används som den starkaste försvarsjämförelsen för DM

Tabell B1 | P1A-resultattavla (större är bättre; bibehållet från bilaga B i originalrapporten)

Modellgren (arbetsyta)

Δk

Bästa RC-only logL_RC (Δ)

Slutningsstyrka ΔlogL_closure (Δ)

Bästa gemensamma logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Hur tabell B1 ska läsas (P1A-resultattavla)

• Δk: nytillagda frihetsgrader (större betyder en mer komplex modell; mer komplex betyder inte automatiskt bättre).

• Fokusera på två kolumner: slutningsstyrka ΔlogL_closure(Δ) (större betyder större självkonsistens i överföring) och bästa gemensamma logL_total(Δ) (totalpoängen för gemensam anpassning).

• Värdet inom parentes, (Δ), är skillnaden relativt DM_RAZOR, vilket gör direkt jämförelse enklare.

• Huvudfrågan som denna tabell ställer är om slutningsfördelen försvinner efter att DM-baslinjen ”rimligen stärkts”.

• Lästips: DM_STD förbättrar den gemensamma poängen markant, men dess slutningsstyrka faller; EFT_BIN ligger fortfarande högre i slutningsstyrka.

I en mening: inom denna lågdimensionella, granskningsbara uppsättning DM-förstärkningar ger förbättrad gemensam anpassning inte automatiskt starkare slutning; slutning, alltså överförbarhet, förblir huvudkriteriet.


7 | Hur ska huvudresultaten läsas?


7.1 Gemensam anpassning: sett över båda datamängderna är EFT:s huvudjämförelsepoäng högre

Tabell S1a och figur S4 visar att EFT-familjen, under samma data, samma gemensamma mappning och ungefär samma parameterskala, har en gemensam ΔlogL_total på 1155–1337 relativt DM_RAZOR. En allmän läsare kan förstå detta så här: under samma poängsättningsregel tillämpad på RC och GGL tillsammans får EFT-modellerna i huvudjämförelsen en högre totalpoäng.


7.2 Slutningstest: det P1 framför allt vill betona är ”överförbarhet”

Hög slutningsstyrka betyder att parametrar härledda enbart från RC kan förutsäga GGL bättre utan att titta på GGL igen. I P1-rapporten är EFT:s ΔlogL_closure 172–281, medan DM_RAZOR är 127. Detta resultat är viktigare än att säga att ”varje modell passar sina egna data väl”, eftersom det begränsar modellens frihet på den andra datamängden.


7.3 Negativ kontroll: varför är ”signalkollaps” en bra sak?

När P1 slumpmässigt blandar om RC-bin→GGL-bin-grupperingskorrespondensen faller EFT:s slutningssignal till intervallet 6–23. För en allmän läsare är detta steg som en fuskspärr: om slutningsfördelen bara skapades av kod, enheter, kovarianshantering eller anpassningsslump skulle fördelen kunna finnas kvar även under en omblandad korrespondens. I stället kollapsar den faktiska fördelen, vilket visar att den beror på korrekt mappning.

Figur S3 | Slutningsstyrka (större är bättre): genomsnittlig log-likelihood-fördel för RC-only → GGL-förutsägelse.

Hur denna figur ska läsas

Denna figur är kärnan i P1. Ju högre stapeln är, desto bättre överförs informationen som lärts från RC till GGL.

EFT-familjen ligger sammantaget högre än DM_RAZOR, vilket indikerar starkare EFT-slutning mellan sonder i experimentet ”lär RC först, förutsäg sedan GGL”.

Figur S4 | Fördel i gemensam anpassning (större är bättre): bästa RC+GGL logL_total relativt DM_RAZOR.

Hur denna figur ska läsas

Denna figur visar totalpoängen efter att RC och GGL kombinerats.

Alla EFT-modeller ligger väl över 0, vilket indikerar att EFT:s fördel i huvudjämförelsen inte är en lokal enpunktseffekt utan ett övergripande mönster i den gemensamma analysen.

Figur R1 | Negativ kontroll: slutningssignalen faller kraftigt efter omblandning av grupperingen.

Hur denna figur ska läsas

Denna figur visar att när den korrekta RC↔GGL-binrelationen störs faller slutningssignalen kraftigt.

Detta gör att P1-resultatet mer liknar genuin konsistens i mappning mellan data än en numerisk slump som kan erhållas under godtyckliga mappningar.


8 | Robusthet och kontroller: hur undviker P1 att bara vara en ”snygg anpassning”?

Den enklaste invändningen mot en teknisk rapport är om fördelen kommer från en enda brusinställning, ett enda dataklipp i centrala regioner, en enda kovariansbehandling eller överanpassning. P1 bemöter detta med flera stresstester.

Tabell 2 | Hur P1:s robusthetstester och negativa kontroller ska läsas

Test

Oro det försöker utesluta

Hur det ska läsas

σ_int-skanning

Om RC innehåller ytterligare okänd spridning, förblir slutsatsen stabil?

När RC-felen släpps upp förblir EFT-rankningen och fördelens skala stabila.

R_min-skanning

Om galaxernas centrala regioner inte är helt tillförlitliga, förblir slutsatsen stabil?

Efter beskärning av de centrala regionerna behåller EFT fortfarande en positiv fördel.

cov-shrink-skanning

Om GGL-kovariansskattningen är osäker, förblir slutsatsen stabil?

Efter kovarianskrympning mot diagonalen är fördelen inte känslig.

Ablationstrappa

Förlitar sig EFT på onödig komplexitet för att tvinga fram en anpassning?

Den fullständiga EFT_BIN stöds av informationskriterierna.

LOO-förutsägelse på utelämnade data

Förklarar modellen bara data som den redan har sett?

Efter att ett GGL-bin hållits ute visar modellen fortfarande stark generaliseringsförmåga.

RC-bin-shuffle

Kommer slutningen från den sanna mappningen?

Slutningen faller efter omblandning av grupperingen, vilket stöder beroende av mappningen.

Figur R2 | Intervall för ΔlogL_total under σ_int-skanningen (större är bättre).

Hur denna figur ska läsas

Testar om EFT:s ledning kvarstår efter förändringar i den antagna inneboende RC-spridningen.

Figur R3 | Intervall för ΔlogL_total under R_min-skanningen (större är bättre).

Hur denna figur ska läsas

Testar om EFT:s fördel förblir stabil efter att komplexa centrala regioner beskärts.

Figur R4 | Intervall för ΔlogL_total under cov-shrink-skanningen (större är bättre).

Hur denna figur ska läsas

Testar om rankningen är känslig för förändringar i behandlingen av kovariansen i svag linsning.

Figur R5 | EFT_BIN-ablationstrappa (AICc, mindre är bättre).

Hur denna figur ska läsas

Testar om fullständig EFT_BIN är nödvändig för att förklara data, snarare än att bara lägga till onödiga parametrar.

Figur R6 | LOO: log-likelihood-fördelning för utelämnade bin.

Hur denna figur ska läsas

Testar om modellen fortfarande har prediktiv förmåga på osedda GGL-bin.

Figur R7 | Negativ kontroll: omblandad mappning orsakar ett tydligt fall i slutningens genomsnittliga logL_true.

Hur denna figur ska läsas

Visar vidare, ur perspektivet genomsnittlig logL_true, att slutningen beror på korrekt mappning mellan data.


9 | P1A: varför ”flera DM-modeller i bilagan” är en viktig korrigering

Detta avsnitt frågar inte: ”Slog EFT bara en minimal DM_RAZOR-baslinje?” Det frågar om slutsatserna från slutningstestet och den gemensamma anpassningen ändras när DM-baslinjen stärks inom en lågdimensionell, reproducerbar och tydligt dokumenterad parameterbokföring (P1A). Med andra ord vill P1A minska invändningen att ”ni valde bara en alltför svag DM-baslinje” och flytta diskussionen till om slutningsbeteendet fortfarande skiljer sig under en uppsättning granskningsbara DM-förstärkningar.

P1A är inte utformad för att uttömma all tänkbar LambdaCDM-halomodellering, och den gör inte heller DM-sidan till en högdimensionell, ogranskningsbar anpassare. Den väljer lågdimensionella, reproducerbara förstärkningar med tydlig parameterbokföring: koncentrationsspridning, adiabatisk kontraktion, återkopplingskärna, hierarkisk c–M-spridningsprior, enparameter-kärnproxy, shear-kalibreringsnuisance för svag linsning samt den kombinerade DM_STD-baslinjen.

Huvudläsning av P1A

Bland de tre legacy-grenarna ger endast feedback/kärna en liten nettökning i slutningsstyrka; SCAT och AC ger inga nettoförstärkningar av slutning.

DM_HIER_CMSCAT, DM_RAZOR_M och DM_CORE1P har mycket liten effekt på slutningsstyrkan eller visar ingen betydande nettoförbättring.

DM_STD kan avsevärt förbättra gemensam logL, men dess slutningsstyrka minskar, vilket tyder på att den främst förbättrar flexibiliteten i gemensam anpassning snarare än överförings- och förutsägelsekraften RC→GGL.

EFT_BIN behåller fortfarande högre slutningsstyrka och en fördel i gemensam anpassning i P1A tabell B1; därför bör P1:s kärnpåstående inte reduceras till att ”den bara slog minimal DM_RAZOR”.

Figur B1 | P1A-resultattavla: slutning och gemensam ΔlogL relativt baslinjen (större är bättre).

Hur denna figur ska läsas

Denna figur visar prestandan för flera DM-förstärkningsgrenar relativt baslinjen.

Betydelsen är inte ”all DM är utesluten”, utan snarare detta: inom de lågdimensionella, granskningsbara DM-förstärkningar som valts i P1A tar förstärkning av DM inte bort EFT_BIN:s slutningsfördel.


10 | Varför P1-experimentet spelar roll

10.1 Metodologisk betydelse: att sätta ”slutning mellan sonder” över ”anpassning till en sond”

Teori på galaxskalor kan lätt fastna i frågan om en modell kan passa en viss uppsättning rotationskurvor. P1 höjer frågan ett steg: kan parametrar som lärts från RC förutsäga svag linsning utan omstämning till GGL? Detta gör P1 från en ”anpassningstävling” till ett ”överförings- och förutsägelsetest”.

10.2 Betydelse för transparens: att behandla reproducerbarhetskedjan som en del av resultatet

Ett viktigt bidrag från P1 är att den släpper data, tabeller och figurer, körningsetiketter, negativa kontroller, reproduktionspaket och granskningskedja tillsammans. Detta spelar roll för både anhängare och kritiker: diskussionen kan återvända till samma offentliga data, samma mappning, samma skript och samma mått, i stället för att jämföra slagord.

10.3 Fysikalisk betydelse: ett starkt stresstest för riktningar inom ”gravitation utan mörk materia”

Inom riktningar för gravitation utan mörk materia kan många modeller förklara någon del av rotationskurvorna eller RAR. Den svårare uppgiften är att också klara avläsningar från svag linsning och visa, under negativa kontroller, att signalen beror på korrekt mappning. P1 är viktig eftersom den placerar EFT:s genomsnittliga gravitationsrespons i ett protokoll som liknar en extern examen: RC är träningsfältet, GGL är överföringsfältet och shuffle är fuskspärren.


10.4 Är detta ett viktigt experiment för fältet ”gravitation utan mörk materia”?

Försiktigt uttryckt: om P1:s databehandling, reproduktionspaket och slutningsprotokoll står sig under extern granskning kan experimentet betraktas som ett RC+GGL-slutningsexperiment som är värt att ta på allvar inom riktningar för gravitation utan mörk materia / modifierad gravitation. Dess betydelse ligger inte i slagordet ”mörk materia är omkullkastad”, utan i att tillhandahålla ett kriterium mellan sonder som kan reproduceras, utmanas och utvidgas.

Finns det redan ramverk för RC+GGL-förutsägelseslutning på samma nivå?

Det finns relevanta ramverk och observationstraditioner: MOND/RAR organiserar många rotationskurvefenomen väl; KiDS-1000-arbetet om RAR i svag linsning jämförde också MOND, Verlindes emergenta gravitation och LambdaCDM-modeller; LambdaCDM kan också förklara vissa svag-linsnings-/dynamiska fenomen genom galax–halo-kopplingar, gashalor och återkopplingsmodellering.

Men P1:s precisa påstående är inte att ”inget annat ramverk i världen kan förklara RC+GGL”. Snarare rapporterar EFT starkare slutningsprestanda under P1:s eget offentliga protokoll — fast mappning, RC-only→GGL-slutning, shuffle-negativa kontroller, parameterbokföring och P1A-stresstester med flera DM-modeller.

Med andra ord är den del av P1 som är mest värd extern testning dess konkreta, reproducerbara jämförelseprotokoll. Ett mycket värdefullt nästa steg är att se om MOND/RAR, LambdaCDM/HOD, hydrodynamiska simuleringar eller andra ramverk för modifierad gravitation kan nå samma eller högre slutningspoäng under samma protokoll.


11 | Vad kan P1 dra slutsats om, och vad kan den inte dra slutsats om?

Tabell 3 | Gränser för P1:s slutsatser

Kan dra slutsats

Under P1:s RC+GGL-data, fasta mappning och huvudjämförelseprotokoll har EFT-familjen högre poäng för gemensam anpassning och större slutningsstyrka än den minimala DM_RAZOR.

Kan dra slutsats

Inom P1A:s lågdimensionella, granskningsbara intervall av DM-förstärkningar eliminerar flera DM-förstärkningar inte EFT_BIN:s slutningsfördel.

Kan dra slutsats

Shuffle-negativkontrollen visar att slutningssignalen beror på korrekt mappning mellan data och inte kan erhållas under godtyckliga mappningar.

Kan inte dra slutsats

Man kan inte säga att P1 har omkullkastat alla modeller för mörk materia. P1A uttömmer fortfarande inte icke-sfäricitet, miljöberoende, komplexa galax–halo-kopplingar, högdimensionell återkoppling eller fullständiga kosmologiska simuleringar.

Kan inte dra slutsats

Man kan inte säga att det fullständiga EFT-ramverket har bevisats från första principer. P1 testar endast det fenomenologiska skiktet av genomsnittlig gravitationsrespons.

Kan inte dra slutsats

Man kan inte säga att all systematik har uteslutits. P1 ger robusthetsevidens endast inom de listade stresstesterna och granskningsomfånget.


12 | Vanliga frågor från allmänna läsare

F1: Säger detta att ”mörk materia inte finns”?

Nej. P1:s slutsatser måste begränsas till de data, det protokoll och de jämförelsemodeller som används här. P1A går längre än den minimala DM_RAZOR, men representerar fortfarande inte alla tänkbara modeller för mörk materia.

F2: Säger detta att ”EFT har bevisats”?

Också nej. P1 testar EFT som en parameterisering av genomsnittlig gravitationsrespons och visar starkare prestanda i RC→GGL-slutning; den mikroskopiska mekanismen och den fullständiga teorin är inte P1:s slutsats.

F3: Varför rapporteras inte ett signifikansvärde direkt i σ?

P1 använder enhetliga likelihood-poäng, informationskriterier och slutningsskillnader. ΔlogL är en relativ fördel under samma poängsättningsregel; det motsvarar inte ett enda σ-värde.

F4: Varför blanda om RC-bin→GGL-bin?

Detta är en negativ kontroll. En verklig signal mellan sonder bör bero på korrekt mappning; om den förblir lika stark efter omblandning skulle det i stället tyda på möjlig implementeringsbias eller en statistisk falsksignal.

F5: Vad bör P1 göra härnäst?

Utvidga samma protokoll till mer data, fler DM-jämförelser, mer komplex systematik och fler ramverk för modifierad gravitation — särskilt på sätt som låter externa team testa om under samma slutningsmått.


13 | Miniordlista

Tabell 4 | Miniordlista

Term

Förklaring i en mening

Rotationskurva (RC)

Relationen mellan radie och rotationshastighet i en galaxskiva, använd för att härleda effektiv gravitation inom skivan.

Svag linsning (GGL)

Ett mått på den genomsnittliga gravitations-/massfördelningen runt förgrundsgalaxer genom statistisk förvrängning av bakgrundsgalaxers former.

Slutningstest

Använder RC-posteriorn för att förutsäga GGL och jämför den sedan med den negativa kontrollen som skapas av omblandad mappning.

Negativ kontroll

Bryter avsiktligt en nyckelstruktur för att se om signalen försvinner; används för att utesluta falska signaler.

NFW-halo

En densitetsprofil för mörk-materia-halo som ofta används i modeller för kall mörk materia.

c–M-relation

Relationen mellan koncentrationen c i en mörk-materia-halo och massan M; om spridning tillåts påverkar modellens flexibilitet.

DM_STD

Den standardiserade DM-stresstestgrenen i P1A som kombinerar flera lågdimensionella DM-förstärkningar och en linsningsnuisance-term.

ΔlogL

Log-likelihood-skillnaden mellan två modeller under samma poängsättningsregel; ett positivt värde betyder att den förra är bättre.

Kovarians

En matrisbeskrivning av korrelationer mellan datapunkter; data från svag linsning kräver vanligtvis full kovarians.


14 | Föreslagen läsväg och ingångar för citering

1. Läs först avsnitt 0–2 i denna vägledning för att fastställa P1:s fråga och EFT:s avsiktligt återhållsamma roll i P1.

2. Läs sedan figur S3, figur S4 och tabellerna S1a/S1b för att förstå slutningsstyrka, gemensam anpassning och negativa kontroller.

3. Om du oroar dig för att ”DM-baslinjen är för svag”, gå direkt till avsnitt 9 och tabell B1 / figur B1.

4. För teknisk verifiering, återvänd till den tekniska P1-rapporten v1.1, tabell- och figurbilagan samt full_fit_runpack.

Huvudingångar till arkiven

Teknisk P1-rapport (release-nivå, Concept DOI): 10.5281/zenodo.18526334

Fullständigt reproduktionspaket för P1 (Concept DOI): 10.5281/zenodo.18526286

Strukturerad EFT-kunskapsbas (valfritt, Concept DOI): 10.5281/zenodo.18853200

Licensanmärkning: den tekniska rapporten använder CC BY-NC-ND 4.0; det fullständiga reproduktionspaketet använder CC BY 4.0 (betrakta den tekniska rapporten och Zenodo-arkiven som auktoritativa).


15 | Referenser och extern bakgrund

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.