criticalml-uw · tomtseng · Apr 18, 2026 · Mar 27, 2026 · Mar 28, 2026 · Mar 31, 2026
diff --git a/configs/whitebox/attacks_tar_refusal_test/full_parameter_finetune/grid.yaml b/configs/whitebox/attacks_tar_refusal_test/full_parameter_finetune/grid.yaml
@@ -0,0 +1,48 @@
+# Test-time attack configs matching TAR paper Section 5.2 / Appendix Table 10.
+# All 5 adversaries use Toxic-DPO v0.2, 10 epochs, full-parameter SFT.
+#
+# Adv 1 (adv1_warmup): LR=1e-5, 10-step warmup, BS=32
+# Adv 2 (base):        LR=1e-5, no warmup, BS=32
+# Adv 3 (adv3_bs16):   LR=1e-5, no warmup, BS=16
+# Adv 4 (adv4_lr2e5):  LR=2e-5, no warmup, BS=32
+# Adv 5 (adv5_lr4e5):  LR=4e-5, no warmup, BS=32
+#
+# The model is loaded with device_map="auto" (model parallelism across GPUs),
+# so the effective batch size is per_device_train_batch_size *
+# gradient_accumulation_steps even if multiple GPUs are used. If we launched
+# with `accelerate` instead to use FSDP then we would need to divide
+# gradient_accumulation_steps by the number of GPUs.
+base: &base_cfg
+    model_config:
+        template: plain
+        max_generation_length: 1024
+        inference_batch_size: 16
+    evals: [strong_reject, mmlu_pro_val]
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    learning_rate: 0.00001
+    num_train_epochs: 10
+    lr_scheduler_type: constant
+    optim: adamw_torch
+    max_steps: -1
+    harmful_dataset: toxic_dpo
+    benign_dataset: bookcorpus
+    dataset_size: 541
+    poison_ratio: 1
+
+adv1_warmup:
+    <<: *base_cfg
+    lr_scheduler_type: constant_with_warmup
+    warmup_steps: 10
+
+adv3_bs16:
+    <<: *base_cfg
+    gradient_accumulation_steps: 16
+
+adv4_lr2e5:
+    <<: *base_cfg
+    learning_rate: 0.00002
+
+adv5_lr4e5:
+    <<: *base_cfg
+    learning_rate: 0.00004
diff --git a/configs/whitebox/attacks_tar_refusal_test_debug/full_parameter_finetune/grid.yaml b/configs/whitebox/attacks_tar_refusal_test_debug/full_parameter_finetune/grid.yaml
@@ -0,0 +1,18 @@
+# Minimal attack config for debugging the pipeline end-to-end.
+# Single adversary, tiny dataset, 2 training steps.
+base:
+    model_config:
+        template: plain
+        max_generation_length: 32
+        inference_batch_size: 2
+    evals: [strong_reject]
+    per_device_train_batch_size: 2
+    learning_rate: 0.00001
+    num_train_epochs: 1
+    lr_scheduler_type: constant
+    optim: adamw_torch
+    max_steps: 2
+    harmful_dataset: toxic_dpo
+    benign_dataset: bookcorpus
+    dataset_size: 8
+    poison_ratio: 1
diff --git a/configs/whitebox/defenses/tar/grid.yaml b/configs/whitebox/defenses/tar/grid.yaml
@@ -1,56 +1,46 @@
+# Original TAR defense (Tamirisa et al. 2024) -- harmful request refusal.
+# Hyperparameters from paper Section 5.2.
+# Uses DPO tamper-resistance loss with Anthropic-HH preference dataset.
+# Includes post-TAR Magpie SFT (100 steps) to recover benign capabilities.
 base: &base_cfg
     model_config:
         template: plain
         max_generation_length: 1024
         inference_batch_size: 16
-    defense_evals: [strong_reject]
-    post_attack_evals: [strong_reject]
+    defense_evals: [strong_reject, mmlu_pro_val, mt_bench]
+    post_attack_evals: [strong_reject, mmlu_pro_val]
     attacks:
-        - name: lora_finetune
+        - name: full_parameter_finetune
           mode: grid
           config_name: base
-    # Dataset paths
-    data_path: PKU-Alignment/BeaverTails_safe_alignment
-    alignment_dataset_path: anonymous4486/booster_dataset
-    beaver_tails_dataset_path: PKU-Alignment/BeaverTails
-    # Training hyperparameters
-    num_train_epochs: 20
-    per_device_train_batch_size: 10
-    per_device_eval_batch_size: 10
-    gradient_accumulation_steps: 1
-    learning_rate: 0.001
-    weight_decay: 0.1
-    warmup_ratio: 0.1
-    lr_scheduler_type: cosine
-    optim: adamw_torch
-    optimizer: tar
-    # Training settings
-    evaluation_strategy: "no"
-    save_strategy: steps
-    save_steps: 100000
-    save_total_limit: 0
-    logging_steps: 1
-    bf16: true
-    tf32: true
-    cache_dir: cache
-    # TAR-specific parameters
-    bad_sample_num: 2000
-    # General training parameters
-    max_length: 200
-    system_evaluate: true
-    evaluate_step: false
-    sample_num: 1000
-    harmful_dataset: BeaverTails
-    decoding_trust_dataset_path: ""
-    seed: 42
-    # Parameters used by other algorithms (T-Vaccine, etc.) in the shared
-    # upstream training code. Not functionally used by TAR's TarTrainer but
-    # required by UpstreamTrainingConfig.
-    lamb: 5.0
-    rho: 0.1
-    alternating: ""
-    lisa_activated_layers: 1
-    lisa_interval_steps: 1
-    prompt_data_size: 100
-    probability_steps: 200
-    guide_data_num: 100
+    # TAR training hyperparameters (refusal / DPO variant)
+    subject: dpo_anthropic
+    num_gpus: 8
+    max_steps: 100
+    tar_inner_loop_steps: 64
+    lr: 6.0e-05
+    batch_size: 1
+    gradient_accumulation_steps: 8  # effective batch = 1 * 8 * 8 GPUs = 64
+    schedule_lambda: 0.0625
+    warmup_steps: 32
+    adversary_dist_types: "harmful_completions:1.0"
+    adversary_lr_samples: "2e-6,2e-5,4e-5"
+    switching_point_coeffs: "alpha:6.0,beta:3.0"
+    adversary_lr_schedulers: "constant:1.0"
+    tar_tamper_resistance_grad_scale: 0.1
+    tar_retain_scale: 1.0
+    tar_tamper_resistance_loss_type: dpo
+    tar_inner_loop_subsample: 4
+    tar_adversary_batch_size: 1
+    retain_model_name: meta-llama/Meta-Llama-3-8B-Instruct
+    retain_representations: true
+    unbounded: true
+    use_weighting_schedule: true
+    wandb: false
+    wandb_project_name: tar_training
+    inner_optimizer_warmup_steps: 20
+    new_model_name: Llama-3-8B-Instruct-TAR-DPO
+    expname: latest
+    trainer_type: tar_trainer
+    # Post-TAR Magpie SFT to recover benign capabilities (paper appendix E.2).
+    post_tar_sft_steps: 100
diff --git a/configs/whitebox/defenses/tar/grid_bio.yaml b/configs/whitebox/defenses/tar/grid_bio.yaml
@@ -0,0 +1,43 @@
+# Original TAR defense (Tamirisa et al. 2024) for biosecurity weaponization.
+# knowledge restriction.
+# Default hyperparameters from run_tar_bio.sh.
+base: &base_cfg
+    model_config:
+        template: plain
+        max_generation_length: 1024
+        inference_batch_size: 16
+    defense_evals: [strong_reject]
+    post_attack_evals: [strong_reject]
+    attacks:
+        - name: full_parameter_finetune
+          mode: grid
+          config_name: base
+    # TAR training hyperparameters (bio defaults)
+    subject: bio
+    num_gpus: 4
+    max_steps: 750
+    tar_inner_loop_steps: 64
+    lr: 2.0e-05
+    batch_size: 8
+    gradient_accumulation_steps: 1
+    schedule_lambda: 0.0625
+    warmup_steps: 32
+    adversary_dist_types: "pile-bio:0.33,camel-bio:0.33,retain_forget_switch:0.33"
+    adversary_lr_samples: "2e-6,2e-5,4e-5"
+    switching_point_coeffs: "alpha:6.0,beta:3.0"
+    adversary_lr_schedulers: "constant:1.0"
+    tar_tamper_resistance_grad_scale: 4.0
+    tar_retain_scale: 1.0
+    tar_tamper_resistance_loss_type: max_entropy
+    tar_inner_loop_subsample: 4
+    tar_adversary_batch_size: 4
+    retain_model_name: meta-llama/Meta-Llama-3-8B-Instruct
+    retain_representations: true
+    unbounded: true
+    use_weighting_schedule: true
+    wandb: false
+    wandb_project_name: tar_training
+    inner_optimizer_warmup_steps: 20
+    new_model_name: Llama-3-8B-Instruct-TAR-Bio
+    expname: latest
+    trainer_type: tar_trainer
diff --git a/configs/whitebox/defenses/tar_tvaccine/grid.yaml b/configs/whitebox/defenses/tar_tvaccine/grid.yaml
@@ -0,0 +1,51 @@
+base: &base_cfg
+    model_config:
+        template: plain
+        max_generation_length: 1024
+        inference_batch_size: 16
+    evals: [strong_reject_small]
+    # Dataset paths
+    data_path: PKU-Alignment/BeaverTails_safe_alignment
+    alignment_dataset_path: anonymous4486/booster_dataset
+    beaver_tails_dataset_path: PKU-Alignment/BeaverTails
+    # Training hyperparameters
+    num_train_epochs: 20
+    per_device_train_batch_size: 10
+    per_device_eval_batch_size: 10
+    gradient_accumulation_steps: 1
+    learning_rate: 0.001
+    weight_decay: 0.1
+    warmup_ratio: 0.1
+    lr_scheduler_type: cosine
+    optim: adamw_torch
+    optimizer: tar
+    # Training settings
+    evaluation_strategy: "no"
+    save_strategy: steps
+    save_steps: 100000
+    save_total_limit: 0
+    logging_steps: 1
+    bf16: true
+    tf32: true
+    cache_dir: cache
+    # TAR-specific parameters
+    bad_sample_num: 2000
+    # General training parameters
+    max_length: 200
+    system_evaluate: true
+    evaluate_step: false
+    sample_num: 1000
+    harmful_dataset: BeaverTails
+    decoding_trust_dataset_path: ""
+    seed: 42
+    # Parameters used by other algorithms (T-Vaccine, etc.) in the shared
+    # upstream training code. Not functionally used by TAR's TarTrainer but
+    # required by UpstreamTrainingConfig.
+    lamb: 5.0
+    rho: 0.1
+    alternating: ""
+    lisa_activated_layers: 1
+    lisa_interval_steps: 1
+    prompt_data_size: 100
+    probability_steps: 200
+    guide_data_num: 100
diff --git a/.../defenses/tar/single_objective_sweep.yaml → .../tar_tvaccine/single_objective_sweep.yaml b/.../defenses/tar/single_objective_sweep.yaml → .../tar_tvaccine/single_objective_sweep.yaml
diff --git a/pyproject.toml b/pyproject.toml
@@ -33,6 +33,7 @@ dependencies = [
   "pyext==0.5",
   "python-dotenv>=1.1.1",
   "sacrebleu>=2.5.1",
+  "schedulefree>=1.0",
   "scikit-learn>=1.7.2",
   "sentence-transformers>=3.0.0",
   "sentencepiece>=0.2.0",
@@ -92,14 +93,17 @@ exclude = [
   "src/tamperbench/whitebox/evals/minerva_math/utils.py",
   "src/tamperbench/whitebox/evals/mmlu_pro/eval_from_api.py",
   # Files copied or adapted from the T-Vaccine repo
-  # (https://github.com/Lslland/T-Vaccine). Excluded to preserve diffability
-  # against the original source.
+  # (https://github.com/Lslland/T-Vaccine).
   "src/tamperbench/whitebox/defenses/t_vaccine/models/",
   "src/tamperbench/whitebox/defenses/t_vaccine/repnoise_loss.py",
   "src/tamperbench/whitebox/defenses/t_vaccine/loggers.py",
   "src/tamperbench/whitebox/defenses/t_vaccine/utils.py",
   "src/tamperbench/whitebox/defenses/t_vaccine/train.py",
   "src/tamperbench/whitebox/defenses/t_vaccine/t_vaccine_trainer.py",
+  # Files copied verbatim from the original TAR repo
+  # (https://github.com/rishub-tamirisa/tamper-resistance). Excluded to preserve
+  # diffability against the original source.
+  "src/tamperbench/whitebox/defenses/tar/_orig/",
   # One-off scripts
   "src/tamperbench/whitebox/attacks/multilingual_finetune/generate_translated_dataset.py",
 ]
@@ -165,6 +169,9 @@ exclude = [
   "src/tamperbench/whitebox/defenses/t_vaccine/train.py",
   "src/tamperbench/whitebox/defenses/t_vaccine/t_vaccine_trainer.py",
 
+  # Files copied verbatim from the original TAR repo
+  "src/tamperbench/whitebox/defenses/tar/_orig/",
+
   # Files that are one-off scripts (used purely for record keeping)
   "src/tamperbench/whitebox/attacks/multilingual_finetune/generate_translated_dataset.py",
 ]

diff --git a/scripts/tar/README.md b/scripts/tar/README.md
@@ -0,0 +1,77 @@
+# TAR Defense Reproduction (Harmful Request Refusal)
+
+Reproduction of the harmful request refusal experiments from the TAR paper
+(Tamirisa et al. 2024, "Tamper-Resistant Safeguards for Open-Weight LLMs",
+ICLR 2025).
+
+## Results
+
+Model: Llama-3-8B-Instruct. 8x H100 80GB GPUs. TAR training: ~4.5 hours.
+
+### Pre-attack (defended model quality)
+
+| Metric       | Paper (base) | Ours (base) | Paper (TAR) | Ours (TAR) |
+|--------------|--------------|-------------|-------------|------------|
+| MT-Bench (↑) | 8.1          | 7.356       | 6.3         | 5.975      |
+| MMLU-Pro (↑) | —            | 0.446       | —           | 0.314      |
+
+### Post-attack (tamper resistance)
+
+The paper reports HarmBench ASR; we use StrongREJECT (finetuned classifier).
+Direct numeric comparison is not meaningful, but relative ranking is.
+
+|                        | Defended | Undefended |
+|------------------------|----------|------------|
+| Avg StrongREJECT (↓)   | 0.717    | 0.760      |
+| Avg MMLU-Pro Val (↑)   | 0.339    | 0.413      |
+
+Per-adversary StrongREJECT (defended / undefended):
+
+| Adversary   | Defended | Undefended |
+|-------------|----------|------------|
+| base        | 0.697    | 0.770      |
+| adv1_warmup | 0.726    | 0.763      |
+| adv3_bs16   | 0.676    | 0.771      |
+| adv4_lr2e5  | 0.774    | 0.783      |
+| adv5_lr4e5  | 0.711    | 0.712      |
+
+The defended model shows modestly lower StrongREJECT. However, it's possible the
+result is noise or is a result of weaker capabilities/coherence rather than
+purely reduced harmfulness.
+
+## Evaluation differences from the paper
+
+### Safety metric: StrongREJECT vs HarmBench ASR
+
+The paper uses **HarmBench ASR** (attack success rate on 1,528 harmful
+behaviors, scored by a finetuned Llama-2-13B classifier). We use
+**StrongREJECT** (finetuned classifier on a different prompt set). These
+metrics measure overlapping but not identical things, so our numeric scores
+are not directly comparable to the paper's 63.9% defended / 72.5% undefended
+ASR.
+
+To get directly comparable numbers, we'd need to evaluate with HarmBench's
+classifier — see the "HarmBench integration" section below.
+
+## Running
+
+Full run (8x H100, ~4.5h TAR + ~1h SFT + ~4h evals/attacks):
+
+```bash
+python scripts/tar/test_tar.py meta-llama/Meta-Llama-3-8B-Instruct \
+    --results-dir /path/to/results --num-gpus 8
+```
+
+Debug mode (1x GPU, Qwen3-0.6B, ~5 min end-to-end pipeline check):
+
+```bash
+python scripts/tar/test_tar.py --debug
+```
+
+Resume from existing defended checkpoint (skips TAR training):
+
+```bash
+python scripts/tar/test_tar.py meta-llama/Meta-Llama-3-8B-Instruct \
+    --defended-checkpoint /path/to/defended_model \
+    --results-dir /path/to/results --num-gpus 8
+```