diff --git a/.github/workflows/python.yml b/.github/workflows/python.yml
new file mode 100644
index 00000000000..6746ff98dc0
--- /dev/null
+++ b/.github/workflows/python.yml
@@ -0,0 +1,35 @@
+name: python
+
+on:
+  workflow_dispatch:
+  pull_request:
+    branches:
+      '**'
+  schedule:
+    - cron: "0 0 * * *"
+
+concurrency:
+  group: ${{ github.workflow }}-${{ github.ref }}
+  cancel-in-progress: true
+
+jobs:
+  unit-tests:
+    strategy:
+      matrix:
+        pyVersion: ["3.10"]
+      fail-fast: false
+
+    runs-on: ubuntu-22.04
+    container:
+      image: deepspeed/gh-builder:py${{ matrix.pyVersion }}
+
+    steps:
+      - uses: actions/checkout@v4
+
+      - name: environment
+        run: |
+          which python
+          python --version
+      - name: Install Megatron-DeepSpeed
+        run: |
+          pip3 install .
diff --git a/.gitignore b/.gitignore
index 3e46cef4c56..b668a703f7c 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,47 @@
+# User Added
+.jobenv
+**.e[0-9]**
+**.o[0-9]**
+**.e6**
+**.o6**
+**.e9**
+**.o9**
+**.e1**
+**.o1**
+*.o17*
+*.e17*
+*.o1
+*.e1
+deps/*
+OUTPUTS/*
+ALCF/OUTPUTS/*
+*tmp*
+*core.*
+*old*
+!tools/cooldown_generator/
+!tools/cooldown_generator/**
+*.bak
+**index-cache**
+**pbslogs**
+ezpz
+*hostfile*
+.deepspeed_env
+*.DS_Store
+old/*
+**venv**
+*.json
+outputs/
+venvs/
+wandb/
+llama-logs/
+checkpoints/
+*.gz
+*.txt
+*.idx
+*.bin
+*.log
+__pycache__
+
 .deepspeed_env
 *.bak
 .cache/*
diff --git a/ALCF/README.md b/ALCF/README.md
index 1a8612ed8a9..7722c0a8328 100644
--- a/ALCF/README.md
+++ b/ALCF/README.md
@@ -1,10 +1,272 @@
 # Megatron-DeepSpeed @ ALCF
 
-## Polaris
+> [!IMPORTANT]
+> [`train_alcf.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/train_alcf.sh)
+> is the main entry point for training @ ALCF
+
+## 🐣 Getting Started
+
+- 🏃‍♂️ Run Training:
+
+    ```bash
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+    cd Megatron-DeepSpeed
+
+    # for PyTorch 2.5 environment (default):
+    source <(curl -L https://bit.ly/ezpz-utils) && ezpz_setup_env
+    # for PyTorch 2.8: ezpz_setup_env_pt28_aurora ⤴
+    # for PyTorch 2.8: ezpz_setup_env_pt28_aurora
+
+    # install dependencies
+    python3 -m pip install \
+        --require-virtualenv \
+        tensorboard deepspeed \
+        "git+https://github.com/saforem2/ezpz"
+
+    # test setup
+    ezpz-test
+
+    # run training
+    bash train_alcf.sh
+    ```
+
+> [!TIP]
+> To enable logging with [Weights & Biases](https://wandb.ai/) (`wandb`),
+> we need to install and login:
+>
+> ```bash
+> python3 -m pip install wandb --upgrade
+> wandb login
+> ```
+>
+> **NOTE**: W\&B can be disabled by setting `export WANDB_DISABLED=1`
+>
+> See [`wandb`: Quickstart](https://docs.wandb.ai/quickstart) for
+> additional information
+
+This will default to using the default AuroraGPT-7B architecture with the
+full [Dolma (v1.7)](https://huggingface.co/datasets/allenai/dolma)
+dataset.
+
+## ⚙️ Configuration
+
+This is a simple subset of configurable options.
+
+The full list (as well as their default values) can be found in
+[ALCF / `helpers.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/helpers.sh)
+
+Any additional arguments passed to [`train_alcf.sh`](../train_alcf.sh) will be
+forwarded to the argument parser in
+[`pretrain_gpt_alcf.py`](../pretrain_gpt_alcf.py)
+
+### Environment Overrides
+
+- `DTYPE`: Data type
+- `DATA_FILE_LIST`: Data file list
+- `FFN_HIDDEN_SIZE`: Feedforward Neural Network projection size
+- `GRAD_ACC_STEPS`: Gradient accumulation steps
+- `HEADS`: Number of attention heads
+- `HIDDEN`: Hidden size
+- `MICRO_BATCH`: Micro batch size
+- `NO_FLASH_ATTN`: No Flash Attention
+- `NLAYERS`: Number of layers
+- `NUM_KV_HEAD`: Number of key-value heads
+- `OPT`: Optimizer
+    - `adam`
+    - `adam8bit`
+    - `adamw`
+    - `adamwschedulefree`
+    - `apex.adam`
+    - `apex.sgd`
+    - `ds.fusedlamb`
+    - `ds.onebitlamb`
+    - `galoreadamw`
+    - `galoreadamw8bit`
+    - `galoreadamw8bitperlayer`
+    - `ipex.fusedlamb`
+    - `ipex.lamb`
+    - `shampoo`
+    - `sgd`
+    - `sgdschedulefree`
+    - `sophiag`
+- `PP`: Pipeline parallelism degree
+- `SEQ`: Sequence length
+- `SP`: Sequence parallelism (Ulysses) degree
+- `TP`: Tensor parallelism degree
+- `TRAIN_TOKENS`: Number of training tokens
+- `TRAIN_ITERS`: Number of training iterations
+- `USE_ACTIVATION_CHECKPOINTING`: Use activation checkpointing
+- `WEIGHT_DECAY`: Weight decay
+- `ZERO_STAGE`: Zero stage
+
+---
+
+<details closed><summary>Deprecated:</summary>
+
+<!--
+<details closed><summary>[Optional: Setup WandB]</summary>
+
+To enable [Weights & Biases](https://wandb.ai/) (WandB) logging,
+we need to install and login:
+
+```bash
+python3 -m pip install wandb --upgrade
+wandb login
+```
+
+> **NOTE**: WandB can be disabled by setting `export WANDB_DISABLED=1`
+
+See [`wandb`: Quickstart](https://docs.wandb.ai/quickstart) for
+additional information
+
+</details>
+-->
+
+
+
+
+> [!IMPORTANT]
+> [`train_aGPT_7B.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/train_aGPT_7B.sh) is the main entry point for launching
+> distributed training on {Polaris, Aurora, Sunspot} @ ALCF.
+
+## 🏃‍♂️ Running
+
+1. Clone the [argonne-lcf / `Megatron-DeepSpeed`](https://github.com/argonne-lcf/Megatron-DeepSpeed) repository:
+
+    ```bash
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+    cd Megatron-DeepSpeed
+    ```
+
+1. Set up your environment:
+
+    ```bash
+    export PBS_O_WORKDIR=$(pwd)
+    source <(curl -s https://raw.githubusercontent.com/saforem2/ezpz/refs/heads/main/src/ezpz/bin/utils.sh)
+    ezpz_setup_env
+    ```
+
+    <details closed><summary>[Optional: Setup WandB]</summary>
+
+    To enable [Weights & Biases](https://wandb.ai/) (WandB) logging,
+    we need to install and login:
+
+    ```bash
+    python3 -m pip install wandb --upgrade
+    wandb login
+    ```
+
+    > **NOTE**: WandB can be disabled by setting `export WANDB_DISABLED=1`
+
+    See [`wandb`: Quickstart](https://docs.wandb.ai/quickstart) for
+    additional information
+
+   </details>
+
+
+1. Install dependencies:
+
+    1. 🍋 [saforem2 / `ezpz`](https://github.com/saforem2/ezpz):
+
+       ```bash
+       python3 -m pip install "git+https://github.com/saforem2/ezpz" --require-virtualenv
+       ```
+
+    1. [microsoft / `DeepSpeed`](https://github.com/microsoft/DeepSpeed):
+
+       ```bash
+       python3 -m pip install deepspeed --require-virtualenv
+       ```
+
+1. Launch training:
+
+    ```bash
+    # Before launching, `PBS_O_WORKDIR` should be set to Megatron-DeepSpeed's PATH
+    # and venv inside Megatron-DeepSpeed/venv should be activated.
+    PBS_O_WORKDIR=$(pwd) bash train_aGPT_7B.sh
+    ```
+
+    This will default to using the default AuroraGPT-7B architecture with the
+    full [Dolma (v1.7)](https://huggingface.co/datasets/allenai/dolma) dataset.
+
+    <details closed><summary>[Overridable Options]:</summary>
+
+    This is a simple subset of the overridable options.
+
+    The full list (as well as their default values) can be found in [ALCF / `helpers.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/helpers.sh)
+
+    - `DTYPE`: Data type
+    - `DATA_FILE_LIST`: Data file list
+    - `FFN_HIDDEN_SIZE`: Feedforward Neural Network projection size
+    - `GRAD_ACC_STEPS`: Gradient accumulation steps
+    - `HEADS`: Number of attention heads
+    - `HIDDEN`: Hidden size
+    - `MICRO_BATCH`: Micro batch size
+    - `NO_FLASH_ATTN`: No Flash Attention
+    - `NLAYERS`: Number of layers
+    - `NUM_KV_HEAD`: Number of key-value heads
+    - `OPT`: Optimizer
+        - `adam`
+        - `adam8bit`
+        - `adamw`
+        - `adamwschedulefree`
+        - `apex.adam`
+        - `apex.sgd`
+        - `ds.fusedlamb`
+        - `ds.onebitlamb`
+        - `galoreadamw`
+        - `galoreadamw8bit`
+        - `galoreadamw8bitperlayer`
+        - `ipex.fusedlamb`
+        - `ipex.lamb`
+        - `shampoo`
+        - `sgd`
+        - `sgdschedulefree`
+        - `sophiag`
+    - `PP`: Pipeline parallelism degree
+    - `SEQ`: Sequence length
+    - `SP`: Sequence parallelism (Ulysses) degree
+    - `TP`: Tensor parallelism degree
+    - `TRAIN_TOKENS`: Number of training tokens
+    - `TRAIN_ITERS`: Number of training iterations
+    - `USE_ACTIVATION_CHECKPOINTING`: Use activation checkpointing
+    - `WEIGHT_DECAY`: Weight decay
+    - `ZERO_STAGE`: Zero stage
+  
+   </details>
+
+
+### 🚀 Submit as a batch job
+
+```bash
+$ cd Megatron-DeepSpeed
+$ qsub -A <your-project> -q debug -l select=2 -l walltime=01:00:00,filesystems=eagle:home train_aGPT_7B.sh
+```
+
+
+## 📝 Data Preprocessing 
+
+<details closed><summary>Data Pre-Processing:</summary>
+
+AuroraGPT is trained on the Dolma dataset (initially v0), now in the process of moving to v6. For more details on the dataset, refer to https://huggingface.co/datasets/allenai/dolma. The dolma dataset downloaded is already preprocessing to remove the duplicates (dedup) and filtering the data (mixing). For more details refer to https://github.com/allenai/dolma/tree/main/docs and https://github.com/vksastry/dolma_alcf/blob/main/ALCF/Readme.md. 
+
+The data preprocessing of Dolma dataset before training consists of tokenization of the data using a specific tokenizer (LlamaTokenizer is what we are currently using), Use the below script to tokenize the entire dataset. Example shown for Polaris. 
+
+``` bash
+cd /eagle/datasets/dolma/utils
+./tokenization.sh
+``` 
+
+</details>
+
+## ✅ TODOs
+
+<details closed>
+<summary>TODOs:</summary>
 
 - [ ] Ensure / double check that optimizer settings from `ds_config.json` aren't being overwritten by some defaults in `megatron/arguments.py`
     - [ ] specifically, `momentum, beta{1, 2}, etc`
-    
+
 <details closed><summary><b>✅ <code>Completed</code></b></summary>
 
 - Continue runs on Polaris @
@@ -16,12 +278,12 @@
 
 - [x] Then, try re-creating ( / fixing) conda with `cuda==12.1`
     - 😔, failed.
-     
+
 - ~~‼️  Unable to save checkpoints with `torch==2.1` + `cuda==11.8`~~:
     - Fixed in [a57a21f](https://github.com/argonne-lcf/Megatron-DeepSpeed/commit/a57a21f6b2a8abf847f5ef599e1b1edcb5a5e1b5)
 
     <details closed><summary><code>🐛 Bug</code></summary>
-        
+
     - Training progresses OK:
 
         ```bash
@@ -69,130 +331,6 @@
 
 </details>
 
-### Install
-
-1. Clone [`argonne-lcf/Megatron-DeepSpeed`](https://github.com/argonne-lcf/Megatron-DeepSpeed)
-
-    ```bash
-    $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
-    $ cd Megatron-DeepSpeed
-    ```
-
-2. Create `conda` env:
-
-    ```bash
-    $ module load conda/2023-10-04
-    $ export MPICC="cc -shared -taret-accel=nvidia80"
-    $ export DAY=$(date "+%Y-%m-%d")
-    $ export PYTHONUSERBASE="${HOME}/.local/polaris/conda/${DAY}"
-    $ conda create --solver libmamba -c pytorch -c nvidia --name "${DAY}" "python==3.10"
-    ```
-
-    > [!NOTE]
-    > In the `conda create` command above,
-    > you can replace `--name "${DAY}"` with
-    > `--prefix /path/to/your/conda/envs`, if you prefer:
-
-3. Install dependencies:
-
-    ```bash
-    $ conda activate "${DAY}"  # e.g. 2024-03-07
-    $ conda install -c pytorch -c nvidia --solver libmamba mpi4py ninja transformers xformers triton pytorch torchvision torchaudio pytorch-cuda=11.8
-    $ conda install --solver libmamba mpi4py -c conda-forge -c pytorch -c nvidia
-    $ python3 -m pip install --upgrade pip pybind11 toolong appdirs wandb sentencepiece ipython setuptools wheel ninja
-    $ python3 -m pip install --upgrade deepspeed wandb
-    ```
-
-    - [`NVIDIA/apex`](https://github.com/NVIDIA/apex):
-
-        ```bash
-        $ git clone https://github.com/NVIDIA/apex
-        $ cd apex
-        # NOTE: need GCC < 11 for APEX ¯\_(ツ)_/¯ ??
-        $ module swap gcc gcc/10.3.0
-        $ python3 -m pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./
-        ```
-
-    - [`ezpz`](https://github.com/saforem2/ezpz):
-
-        ```bash
-        $ git clone https://github.com/saforem2/ezpz
-        $ python3 -m pip install -e "ezpz[dev]"
-        ```
-
-### Running
-
-- The (shell) script used to launch pre-training is:
-    - Polaris:
-      [`train_llama_alcf_polaris.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/train_llama_alcf_polaris.sh)
-    - Aurora:
-      [`train_llama_alcf_aurora.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/train_llama_alcf_aurora.sh)
-
-- These shell script(s) will set the appropriate environment variables, load the correct conda
-modules and launch
-[`pretrain_gpt_alcf.py`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/pretrain_gpt_alcf.py) using `deepspeed`
-
-
-- Explicitly, to launch:
-
-    ```bash
-    # 1. Launch interactive job
-    $ qsub -A <your-project> -q debug -l select=2 -l walltime=01:00:00,filesystems=eagle:home -I
-    # 2. Load conda environment
-    $ module load conda/2023-10-04 ; conda activate /eagle/datascience/foremans/miniconda3/envs/cu118-pt221 ; unset PYTHONUSERBASE
-    # 3. Navigate into `Megatron-DeepSpeed` directory
-    $ cd Megatron-DeepSpeed
-    # 4. Launch:
-    $ export PBS_O_WORKDIR=$(pwd)
-    $ bash train_llama_alcf_polaris.sh
-    ```
-    <details closed><summary><b>[Output]</b></summary>
+</details>
 
-    ```bash
-    source-ing /lus/eagle/projects/datascience/foremans/tmp/Megatron-DeepSpeed/ALCF/helpers_alcf.sh
-
-    CommandNotFoundError: Your shell has not been properly configured to use 'conda deactivate'.
-    To initialize your shell, run
-
-        $ conda init <SHELL_NAME>
-
-    Currently supported shells are:
-      - bash
-      - fish
-      - tcsh
-      - xonsh
-      - zsh
-      - powershell
-
-    See 'conda init --help' for more information and options.
-
-    IMPORTANT: You may need to close and restart your shell after running 'conda init'.
-
-
-    Saving {PATH, LD_LIBRARY_PATH, htt{p,ps}_proxy, CFLAGS, PYTHONUSERBASE} to .deepspeed_env
-    Found ezpz!
-    /lus/eagle/projects/datascience/foremans/tmp/Megatron-DeepSpeed/ezpz/src/ezpz/__init__.py
-    Has ezpz installed. Nothing to do.
-    ┌──────────────────────────────────────────────────────────────────
-    │ [Hosts]:
-    │     • [host:0] - x3005c0s37b0n0.hsn.cm.polaris.alcf.anl.gov
-    │     • [host:1] - x3005c0s37b1n0.hsn.cm.polaris.alcf.anl.gov
-    └──────────────────────────────────────────────────────────────────
-    ┌──────────────────────────────────────────────────────────────────
-    │ [DIST INFO]:
-    │     • Loading job env from: /home/foremans/.pbsenv
-    │     • HOSTFILE: /var/spool/pbs/aux/1777928.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
-    │     • NHOSTS: 2
-    │     • NGPU_PER_HOST: 4
-    │     • NGPUS (NHOSTS x NGPU_PER_HOST): 8
-    │     • WORLD_SIZE: 8
-    │     • DIST_LAUNCH: mpiexec --verbose --envall -n 8 -ppn 4 --hostfile /var/spool/pbs/aux/1777928.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
-    └──────────────────────────────────────────────────────────────────
-    ┌──────────────────────────────────────────────────────────────────
-    │ [Launch]:
-    │     • Use: 'launch' (=mpiexec --verbose --envall -n 8 -ppn 4 --hostfile /var/spool/pbs/aux/1777928.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov)
-    │       to launch job
-    └──────────────────────────────────────────────────────────────────
-    # [...]
-    ```
-    </details>
+</details>
diff --git a/ALCF/aws_ofi_nccl_plugin.sh b/ALCF/aws_ofi_nccl_plugin.sh
new file mode 100644
index 00000000000..ffd1471cd3b
--- /dev/null
+++ b/ALCF/aws_ofi_nccl_plugin.sh
@@ -0,0 +1,20 @@
+#!/bin/bash --login
+
+# AWS NCCL OFI Plugin settings below
+export NCCL_CROSS_NIC=1
+export NCCL_COLLNET_ENABLE=1
+export NCCL_NET="AWS Libfabric"
+export LD_LIBRARY_PATH=/soft/libraries/aws-ofi-nccl/v1.9.1-aws/lib:$LD_LIBRARY_PATH
+export LD_LIBRARY_PATH=/soft/libraries/hwloc/lib/:$LD_LIBRARY_PATH
+export FI_CXI_DISABLE_HOST_REGISTER=1
+export FI_MR_CACHE_MONITOR=userfaultfd
+export FI_CXI_DEFAULT_CQ_SIZE=131072
+#########################################################
+# WARNING: !!!
+# - Currently, `export NCCL_NET_GDR_LEVEL=PHB`
+#   causes a hang on Polaris.
+#   so, we don't set it for the time being [2024-05-14].
+# - Seems to work on Perlmutter ???
+#
+# export NCCL_NET_GDR_LEVEL=PHB
+#########################################################
diff --git a/ALCF/data-lists/aurora/algebraic.txt b/ALCF/data-lists/aurora/algebraic.txt
new file mode 100644
index 00000000000..d3685cb42be
--- /dev/null
+++ b/ALCF/data-lists/aurora/algebraic.txt
@@ -0,0 +1,16 @@
+0.0018520780893211373 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document algebraic-stack-train
+0.0017591050606817512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document algebraic-stack-train
+0.001459052794333798 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document algebraic-stack-train
+0.0007405667281569194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document algebraic-stack-train
+0.00019420030110896795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document algebraic-stack-train
+0.0009008668715801845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document algebraic-stack-train
+0.00015115827957143057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document algebraic-stack-train
+0.0014552844319220648 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document algebraic-stack-train
+0.0012469861325685161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document algebraic-stack-train
+0.00136412011372413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document algebraic-stack-train
+0.0007064279699221103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document algebraic-stack-train
+0.0008472240000687427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document algebraic-stack-train
+0.0001984375713341955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document algebraic-stack-train
+0.0005472773881697123 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document algebraic-stack-train
+0.001815779629850992 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document algebraic-stack-train
+0.0018313600689757324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document algebraic-stack-train
diff --git a/ALCF/data-lists/aurora/arxiv.txt b/ALCF/data-lists/aurora/arxiv.txt
new file mode 100644
index 00000000000..c18c2befd28
--- /dev/null
+++ b/ALCF/data-lists/aurora/arxiv.txt
@@ -0,0 +1,100 @@
+0.0002583902668716813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document arxiv
+0.0002646575141232155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document arxiv
+0.0003165521247456758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document arxiv
+0.0002920706460176214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document arxiv
+0.00028396813182810215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document arxiv
+0.00030445161883108107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document arxiv
+0.00031628781276576474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document arxiv
+0.0003083776568189157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document arxiv
+0.0003176359471472902 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document arxiv
+0.0002536009369131698 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document arxiv
+0.0003067491424681363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document arxiv
+0.0002597217257557784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document arxiv
+0.0003788556450109768 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document arxiv
+0.0002796563272052598 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document arxiv
+0.00033573826524290287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document arxiv
+0.00030523658022800287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document arxiv
+0.00032211552192240096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document arxiv
+0.0003329295675164247 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document arxiv
+0.0003101982186639862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document arxiv
+0.00032361798234223355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document arxiv
+0.0003495541581652915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document arxiv
+0.0002821637448858042 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document arxiv
+0.00030399523537629673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document arxiv
+0.0002955658968247219 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document arxiv
+0.00028942158502924254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document arxiv
+0.00028769546171490733 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document arxiv
+0.0002938111057234182 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document arxiv
+0.0002711150403010948 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document arxiv
+0.00031130095874747565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document arxiv
+0.0003002996118160777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document arxiv
+0.0003732757901604459 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document arxiv
+0.00026784205751795894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document arxiv
+0.0002799626521661984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document arxiv
+0.00034334276069078164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document arxiv
+0.0003582469803674965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document arxiv
+0.00031094844818418623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document arxiv
+0.0002766228384977191 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document arxiv
+0.00030297116159471485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document arxiv
+0.00027033888377464685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document arxiv
+0.00030090862368377933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document arxiv
+0.00028543875802490955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document arxiv
+0.00027559768459074204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document arxiv
+0.0003182185533962886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document arxiv
+0.0003311392971435837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document arxiv
+0.00028751652060804325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document arxiv
+0.000303466863212589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document arxiv
+0.00033400462801277524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document arxiv
+0.0002589234031777426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document arxiv
+0.0002913508598466723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document arxiv
+0.0002670572450004856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document arxiv
+0.00032027399105647656 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document arxiv
+0.00032188376258379377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document arxiv
+0.0003161585784100882 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document arxiv
+0.0003184249182974135 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document arxiv
+0.00030381336664000807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document arxiv
+0.0003190437442184283 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document arxiv
+0.0002537961798200545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document arxiv
+0.0003017817117223326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document arxiv
+0.00028685268513240224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document arxiv
+0.00031265179094451165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document arxiv
+0.00034708319096986816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document arxiv
+0.00026650837943080664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document arxiv
+0.00034588832248507335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document arxiv
+0.0002416982248399037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document arxiv
+0.0003089296918222243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document arxiv
+0.00029137184185700827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document arxiv
+0.00026464226846800774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document arxiv
+0.00030545397919456627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document arxiv
+0.0003206778460448875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document arxiv
+0.00030968971641110967 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document arxiv
+0.00023325653928600864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document arxiv
+0.00030526899198338555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document arxiv
+0.00035376719076633584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document arxiv
+0.000290224385981026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document arxiv
+0.000294650083382008 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document arxiv
+0.00028768858128616436 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document arxiv
+0.00030856965235527843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document arxiv
+0.00030579942447879054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document arxiv
+0.0002863101084704357 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document arxiv
+0.0002870032092492213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document arxiv
+0.000264182727569885 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document arxiv
+0.0002974012367036449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document arxiv
+0.00032238412143059203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document arxiv
+0.00031683716893819036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document arxiv
+0.00031157434937617524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document arxiv
+0.0003411742735695989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document arxiv
+0.00026778444816570715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document arxiv
+0.0003037045797275201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document arxiv
+0.00027746114370081314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document arxiv
+0.00027148285946862043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document arxiv
+0.00028042950114678207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document arxiv
+0.0003235607816590721 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document arxiv
+0.0003086692227306295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document arxiv
+0.00033990349455148105 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document arxiv
+0.00030945053208470265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document arxiv
+0.00027309074552265303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document arxiv
+0.00028737393506316194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document arxiv
+0.0003098868328009879 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document arxiv
+0.0002614229162588409 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document arxiv
+0.0002884388407820923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document arxiv
diff --git a/ALCF/data-lists/aurora/books.txt b/ALCF/data-lists/aurora/books.txt
new file mode 100644
index 00000000000..6f37023596b
--- /dev/null
+++ b/ALCF/data-lists/aurora/books.txt
@@ -0,0 +1,3 @@
+0.0031025147279277244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document books
+0.003102019887362634 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document books
+0.0009996745994661548 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document books
diff --git a/ALCF/data-lists/aurora/c4.txt b/ALCF/data-lists/aurora/c4.txt
new file mode 100644
index 00000000000..7ad92c60863
--- /dev/null
+++ b/ALCF/data-lists/aurora/c4.txt
@@ -0,0 +1,171 @@
+0.0002406272620255565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document c4
+0.0002404825539493424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document c4
+0.00024062296575435581 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document c4
+0.00024069315766818953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document c4
+0.00024055829162263452 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document c4
+0.00024062053397343032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document c4
+0.0002410715545206964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document c4
+0.00024024881846087368 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document c4
+0.0002407074700790688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document c4
+0.00024072141428809043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document c4
+0.00024027710230872736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document c4
+0.0002409111299205489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document c4
+0.00024081954058275009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document c4
+0.00024086076794990912 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document c4
+0.00024098672620832446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document c4
+0.00024068622303333862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document c4
+0.00024140627024291824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document c4
+0.0002414512033594384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document c4
+0.00024028742594941463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document c4
+0.00024018036089269645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document c4
+0.0002398347365034979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document c4
+0.00024006780153485276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document c4
+0.00024015620270419213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document c4
+0.0002408848259695227 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document c4
+0.0002408023185278831 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document c4
+0.00024021196580140326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document c4
+0.00024077677271297493 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document c4
+0.00024087392454668027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document c4
+0.0002408071293824126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document c4
+0.00024042223828845715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document c4
+0.0002411484752360495 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document c4
+0.00023605263746465907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document c4
+0.00023471222158326908 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document c4
+0.00023432138580287644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document c4
+0.00023407385623382327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document c4
+0.00023487504174367091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document c4
+0.0002341843704976313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document c4
+0.00023421993170282486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document c4
+0.00023445057969132037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document c4
+0.0002337681680073047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document c4
+0.000234627964808109 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document c4
+0.0002338942211888584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document c4
+0.00023403849286843386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document c4
+0.00023405641310796305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document c4
+0.00023349169562397965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document c4
+0.00023381157386048856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document c4
+0.00023388742993790587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document c4
+0.00023363103829469813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document c4
+0.00023421141834630477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document c4
+0.00023420564352232565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document c4
+0.00023367463699173143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document c4
+0.00023344969163567033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document c4
+0.00023372196941547188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document c4
+0.00023399207645297834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document c4
+0.00023357915605505856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document c4
+0.00023337585642190864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document c4
+0.00023385005470157914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document c4
+0.00023301533534493465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document c4
+0.00023377864302541782 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document c4
+0.00023323745848621437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document c4
+0.0002330594611151835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document c4
+0.0002334149675026783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document c4
+0.00023198945902291534 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document c4
+0.00023023784834634142 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document c4
+0.00022985623060187217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document c4
+0.0002292605284569516 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document c4
+0.00022926593333048894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document c4
+0.00022922766406807777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document c4
+0.00022898153911167426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document c4
+0.0002292473111593315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document c4
+0.000228804579400424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document c4
+0.00022865485613513526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document c4
+0.00022937426835887895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document c4
+0.00022917388311587372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document c4
+0.0002291660582019043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document c4
+0.00022907895248360543 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document c4
+0.0002294617879920205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document c4
+0.0002290452150516566 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document c4
+0.00022943405619715553 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document c4
+0.0002296271421006204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document c4
+0.00022854791372910372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document c4
+0.00022923123467686557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document c4
+0.00022852404355738494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document c4
+0.00022847798660086642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document c4
+0.0002289604586810316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document c4
+0.00022835479834950643 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document c4
+0.0002289149402884243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document c4
+0.00022806655474763446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document c4
+0.00022826296420992974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document c4
+0.00022906829636213627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document c4
+0.0002287628414466998 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document c4
+0.0002282673911253445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document c4
+0.00022869309841939134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document c4
+0.0002281540116815451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document c4
+0.0002259755756162738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document c4
+0.00022562331285233504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document c4
+0.0002259061146106053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document c4
+0.00022567670836663787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document c4
+0.00022573165387587061 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document c4
+0.00022508514961670572 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document c4
+0.00022564642513773356 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document c4
+0.00022563088621998788 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document c4
+0.0002250438755373707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document c4
+0.00022524465346241134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document c4
+0.00022531737657666812 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document c4
+0.00022444687519363458 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document c4
+0.00022460397498596298 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document c4
+0.00022454218976501763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document c4
+0.00022447528843671366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document c4
+0.00022501666332178926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document c4
+0.00022453752304377972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document c4
+0.00022484451871163002 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document c4
+0.00022465678847154914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document c4
+0.00022453180917044732 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document c4
+0.0002247278486823009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document c4
+0.00022465794828242097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document c4
+0.00022431000701925386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document c4
+0.00022476020248460963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document c4
+0.00022467531771795015 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document c4
+0.0002236391309945234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document c4
+0.00022458764920536007 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document c4
+0.00022430877426744415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document c4
+0.0002247047786127192 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document c4
+0.0002245298090400035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document c4
+0.0002245648831396188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document c4
+0.00022292894729820784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document c4
+0.00022236668082957533 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document c4
+0.0002217622659895442 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document c4
+0.00022252452726732609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document c4
+0.00022135333211363678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document c4
+0.0002214571757787971 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document c4
+0.0002217188139237798 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document c4
+0.00022144214894640303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document c4
+0.00022100172806631854 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document c4
+0.00022156392409199052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document c4
+0.00022134830143710272 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document c4
+0.00022158598922529453 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document c4
+0.00022142932483041377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document c4
+0.00022120980907786554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document c4
+0.00022117917738112441 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document c4
+0.00022077089397851235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document c4
+0.00022093265074996711 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document c4
+0.00022091299741377004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document c4
+0.0002205849150703338 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document c4
+0.0002210648204787979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document c4
+0.0002214235747364102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document c4
+0.00022083907302221787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document c4
+0.0002206334237915964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document c4
+0.00022065193929912214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document c4
+0.00022079775597767288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document c4
+0.00022091492909963518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document c4
+0.00022095009987097293 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document c4
+0.0002208150577180165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document c4
+0.00022085759102772088 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document c4
+0.00022073789170129016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document c4
+0.00022049322781182384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document c4
+0.00022083270617761285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document c4
+0.00021982452827473632 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document c4
+0.00021899870446514259 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document c4
+0.00021890358773356361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document c4
+0.00021875556609042841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document c4
+0.00021861195987201226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document c4
+0.00021856782186167455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document c4
+0.00021912837771543515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document c4
+0.00021900213768517756 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document c4
+0.00021871675851390374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document c4
+0.0002180537056545586 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document c4
+0.0002188196714327129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document c4
+0.00021851362624523464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document c4
+0.0002183236795498736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document c4
+7.291153618675672e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document c4
diff --git a/ALCF/data-lists/aurora/cc.txt b/ALCF/data-lists/aurora/cc.txt
new file mode 100644
index 00000000000..174bae9d6a8
--- /dev/null
+++ b/ALCF/data-lists/aurora/cc.txt
@@ -0,0 +1,1108 @@
+0.0003742481815405742 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document cc
+0.00038204855962733055 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document cc
+0.00038821818392663593 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document cc
+0.00038723332988783727 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document cc
+0.00038916141142149904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document cc
+0.00038049542523949033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document cc
+0.0003854755539534284 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document cc
+0.00024202756466512517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document cc
+0.0003915405155008087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document cc
+0.0003927382151931033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document cc
+0.0003839151202260479 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document cc
+0.00040006817468967907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document cc
+0.00040318965964443476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document cc
+0.0003831013019452741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document cc
+0.00039166638383204036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document cc
+0.00039962784023961004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document cc
+0.00039536707853602614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document cc
+0.0004204304698247758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document cc
+0.00041538899178693555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document cc
+0.00039186953333675306 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document cc
+0.00038945837196504305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document cc
+0.0003919951238929062 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document cc
+0.00044377065718528966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document cc
+0.0004407759068603017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document cc
+0.0002487811895843715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document cc
+0.00039349432045556636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document cc
+0.00041223198559462343 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document cc
+0.0004036573014830213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document cc
+0.0003825982215521807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document cc
+0.00040386867133151386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document cc
+0.00024460575279105167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document cc
+0.000269029789531335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document cc
+0.0003573757493252864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document cc
+0.0004600876681392076 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document cc
+0.0002605354166397086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document cc
+0.0003882502452157999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document cc
+0.0002466747612126512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document cc
+0.0004024726105072402 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document cc
+0.00040820631128483644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document cc
+0.0002691094350403538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document cc
+0.00026916830387277267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document cc
+0.0004204663297880574 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document cc
+0.00042379698687085554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document cc
+0.0004502169227311871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document cc
+0.0002661708937015295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document cc
+0.00031239486948031334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document cc
+0.0003109054589936201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document cc
+0.00045873053079760646 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document cc
+0.00022904931423244635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document cc
+0.0003813462028433663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document cc
+0.00039188129256500874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document cc
+0.00045124222276983765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document cc
+0.00048138658436853695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document cc
+0.0003944178776279866 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document cc
+0.00039941569676754006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document cc
+0.00037952761190240494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document cc
+0.0003944870860881476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document cc
+0.0003891842411856621 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document cc
+0.000387688981934861 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document cc
+0.00039197953876258005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document cc
+0.00039007915280311206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document cc
+0.0003995520363699188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document cc
+0.00039230985654592406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document cc
+0.0003929472067173851 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document cc
+0.0003924096172671473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document cc
+0.0003881636143629905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document cc
+0.000389790617937084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document cc
+0.00037351762309221023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document cc
+0.0003630196170929407 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document cc
+0.00033532465765142113 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document cc
+0.0003076088685761823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document cc
+0.00039463850897720803 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document cc
+0.0002843816115231449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document cc
+0.0002909175709416474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document cc
+0.00028867170997202486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document cc
+0.0002838644617723659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document cc
+0.00029027869525543416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document cc
+0.0002821339567560056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document cc
+0.0002922988877045601 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document cc
+0.0002866955958315786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document cc
+0.0002865271754558126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document cc
+0.0002861247475618473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document cc
+0.0002826681072408606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document cc
+0.0002849746458282827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document cc
+0.0002816966633435316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document cc
+0.00026255342235948463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document cc
+0.0002552895098829678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document cc
+0.00025990194083107813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document cc
+0.0002524062657685835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document cc
+0.0002538577379748611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document cc
+0.0002561415177406761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document cc
+0.00026206253059694905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document cc
+0.00026168095406910565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document cc
+0.0002601305742008613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document cc
+0.00025200823006814814 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document cc
+0.0003229951981263502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document cc
+0.00037289448266476045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document cc
+0.0003807825862179898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document cc
+0.0003616333738191483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document cc
+0.0003665117918907636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document cc
+0.0003684186453633228 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document cc
+0.0003589330610806066 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document cc
+0.00036383861418030395 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document cc
+0.000359841363355303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document cc
+0.00036431044063050464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document cc
+0.0003668574090358279 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document cc
+0.000362768263620199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document cc
+0.0003501888032771077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document cc
+0.000352401968221528 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document cc
+0.0003541019701869794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document cc
+0.0003628121865546891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document cc
+0.0003752582953758773 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document cc
+0.00037902046230424966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document cc
+0.0003777927146925147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document cc
+0.0003760676130509053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document cc
+0.00034046049078755405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document cc
+0.0003338847563259091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document cc
+0.00033294499102761794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document cc
+0.0004912026198265864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document cc
+0.00032064363474664014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document cc
+0.00032154190389541214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document cc
+0.00032309660151746207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document cc
+0.00031181143365304544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document cc
+0.00031046092294569104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document cc
+0.00031150165249068046 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document cc
+0.0003041314265988224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document cc
+0.0003024834909739394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document cc
+0.0003019936835833604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document cc
+0.000292329665283177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document cc
+0.0002867061143144972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document cc
+0.00028443615610701707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document cc
+0.00028462291013755945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document cc
+0.0002793538601205013 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document cc
+0.00027306573977044246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document cc
+0.00027097155673336525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document cc
+0.0002752934202112985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document cc
+0.00043042012694697647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document cc
+0.00047495648822986177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document cc
+0.00047755032493473855 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document cc
+0.0004706974343933747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document cc
+0.00046682163297771817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document cc
+0.0004616765425874178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document cc
+0.00030644496751628097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document cc
+0.0002909492555358308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document cc
+0.00027272036068261724 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document cc
+0.0004101070217315588 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document cc
+0.0003728914338834357 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document cc
+0.00036546911442305647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document cc
+0.0003669945482407483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document cc
+0.0003715902407424017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document cc
+0.00035837486406683366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document cc
+0.0003573318538685469 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document cc
+0.0003553784893071916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document cc
+0.0004920659809912352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document cc
+0.0004533619411303183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document cc
+0.00045067066057818706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document cc
+0.00044396985139270645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document cc
+0.00043198288204468477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document cc
+0.00043005174223738454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document cc
+0.00041847118430776784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document cc
+0.00042952036375796664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document cc
+0.00043420594647324267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document cc
+0.0003461123241053012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document cc
+0.0003408581597849182 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document cc
+0.00033172705422182547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document cc
+0.0003392566490686136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document cc
+0.00033578341518385483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document cc
+0.0003439196710518844 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document cc
+0.00034559163447085543 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document cc
+0.00033762478642902825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document cc
+0.00033215210055107224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document cc
+0.00033423579608014966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document cc
+0.0004963355016025102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document cc
+0.0004996862761456923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document cc
+0.0005000551829325451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document cc
+0.0005004212610098755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document cc
+0.00027768695585500585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document cc
+0.00028395983854338433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document cc
+0.00027835826303062254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document cc
+0.0002740073176010804 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document cc
+0.0002791830529274016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document cc
+0.0002796863816194411 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document cc
+0.00026697453022672804 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document cc
+0.0002594197440280141 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document cc
+0.0003779565697649222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document cc
+0.00041835823476586606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document cc
+0.00043788493575265915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document cc
+0.0002731731970096006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document cc
+0.000276305847423402 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document cc
+0.0002704955773958623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document cc
+0.0002629635944827518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document cc
+0.000260070956974436 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document cc
+0.00025661553791456334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document cc
+0.00025794727207576157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document cc
+0.00025295733980001527 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document cc
+0.0003788106407021029 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document cc
+0.0004882344027669431 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document cc
+0.0003275324309642705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document cc
+0.0004803401856640094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document cc
+0.00046720138323433943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document cc
+0.00043527810307095335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document cc
+0.00043905395741627827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document cc
+0.00048774175867331425 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document cc
+0.00048380704121346737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document cc
+0.0004779011848346118 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document cc
+0.00046255587581908036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document cc
+0.00045127922880511576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document cc
+0.0004503891485256095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document cc
+0.0004450142332303422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document cc
+0.00044630282482516654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document cc
+0.00044325014465743616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document cc
+0.0004263874842796447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document cc
+0.0004217530913646938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document cc
+0.000415120314341852 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document cc
+0.00040987168279144537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document cc
+0.00033468337266607834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document cc
+0.0003353094464683005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document cc
+0.0004833936821707294 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document cc
+0.00047194878988920935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document cc
+0.0004648324126996427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document cc
+0.0004562345003964941 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document cc
+0.0004933203505465098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document cc
+0.0003530166075325466 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document cc
+0.00035368548192804685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document cc
+0.0004872620828289663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document cc
+0.00048293889392426456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document cc
+0.00047936768462267655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document cc
+0.00047821013991587545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document cc
+0.0004660610308564753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document cc
+0.000394683430103437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document cc
+0.00039165053441571324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document cc
+0.0003906936040164381 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document cc
+0.00038074803919159006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document cc
+0.0003686529291578143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document cc
+0.00035832920428870976 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document cc
+0.00035929024535947033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document cc
+0.0003538226556050544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document cc
+0.0003584167868708799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document cc
+0.0003480507542594234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document cc
+0.0003413709023543034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document cc
+0.00034001304759361455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document cc
+0.00033430532902756514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document cc
+0.00046519252660631277 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document cc
+0.0002938876402514769 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document cc
+0.00028676090994509047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document cc
+0.00027296150117506716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document cc
+0.00026513502621960483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document cc
+0.0002680081327926125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document cc
+0.00025831225828720344 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document cc
+0.00026647037295561 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document cc
+0.0002525733734572654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document cc
+0.00025831708887575375 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document cc
+0.00042487627444443476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document cc
+0.0004951213245023891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document cc
+0.0004804051413177752 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document cc
+0.0004662397611340532 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document cc
+0.0004550138655253933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document cc
+0.00044494909122746795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document cc
+0.0002899112253051385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document cc
+0.0004372879736279761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document cc
+0.0004529568099252922 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document cc
+0.00045127826158829573 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document cc
+0.0004436558176737439 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document cc
+0.0004419233237678378 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document cc
+0.000434589215880319 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document cc
+0.00029153613207706566 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document cc
+0.0004312458058738854 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document cc
+0.00028741854968757313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document cc
+0.00046853200754421234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document cc
+0.0004949145252030074 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document cc
+0.00044459683920483167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document cc
+0.0003836095306696336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document cc
+0.0003789760237872398 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document cc
+0.0003749227438304427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document cc
+0.0003628558277173369 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document cc
+0.00039468301394041474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document cc
+0.00038874701821614864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document cc
+0.0004158492456077867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document cc
+0.00042360504554060077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document cc
+0.00040386729844317623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document cc
+0.00027595096702902474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document cc
+0.00043638766787829135 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document cc
+0.0002218691596850179 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document cc
+0.0004437566108089954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document cc
+0.0003889996411609667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document cc
+0.00043454421906537704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document cc
+0.0004522564392830988 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document cc
+0.00041517835659357416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document cc
+0.0002614360863446896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document cc
+0.00037543522111463596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document cc
+0.0004386190133514781 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document cc
+0.00046358333286115075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document cc
+0.00043186261317942404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document cc
+0.0002377581602097957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document cc
+0.00025973334085074254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document cc
+0.00040139099332000796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document cc
+0.00043674860686687174 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document cc
+0.00040853289309329373 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document cc
+0.000242910191729688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document cc
+0.0004431071731750582 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document cc
+0.0004388092670482523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document cc
+0.000381418866255965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document cc
+0.0004100117296419717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document cc
+0.00042469230366022745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document cc
+0.00041744151905374254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document cc
+0.00022835699906752945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document cc
+0.0004380161085387397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document cc
+0.00044803212381807456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document cc
+0.00040554932796137236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document cc
+0.0004234508646347761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document cc
+0.00043341209652360653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document cc
+0.00023966604734537185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document cc
+0.000259165907316014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document cc
+0.0004270653021833602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document cc
+0.0004341547032162028 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document cc
+0.0004111478117275994 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document cc
+0.0004299383567984396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document cc
+0.0004241899124590779 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document cc
+0.0004502719349364145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document cc
+0.00038994621469645615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document cc
+0.0003859912398894952 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document cc
+0.0004247535950310557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document cc
+0.000386982084327716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document cc
+0.0004196451040053251 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document cc
+0.0004096278509782259 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document cc
+0.0004373334932695721 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document cc
+0.0004180889975240641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document cc
+0.00042079636929672745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document cc
+0.00038063574611812913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document cc
+0.0003817505891515542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document cc
+0.0004420096268860222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document cc
+0.00039182670726410623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document cc
+0.0003635667850372299 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document cc
+0.00041564996472055667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document cc
+0.000400529358757286 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document cc
+0.0003939113874958451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document cc
+0.00039066622068940996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document cc
+0.0004290098538807143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document cc
+0.0004240739958197099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document cc
+0.00040775392659215333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document cc
+0.0004091634200396925 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document cc
+0.00042299190476617914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document cc
+0.0003701492680344151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document cc
+0.0003807353844384635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document cc
+0.00038813507771983156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document cc
+0.00040072346558408346 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document cc
+0.0003603595180423597 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document cc
+0.00038799421353112465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document cc
+0.00037575235582264926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document cc
+0.0004239190342959713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document cc
+0.0004606044799136546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document cc
+0.00045107950652529253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document cc
+0.0004391947201871058 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document cc
+0.0004457516661123035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document cc
+0.0004301297170991686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document cc
+0.00044661704164586694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document cc
+0.0004438849846114837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document cc
+0.0004444205734316823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document cc
+0.0004190924165303394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document cc
+0.00043942581131677875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document cc
+0.00021568459798090663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document cc
+0.0003814929225407199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document cc
+0.0003217453179359235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document cc
+0.00031719591470267974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document cc
+0.00032434115726922137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document cc
+0.0004079911120371051 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document cc
+0.000329492766381148 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document cc
+0.0003845916162001633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document cc
+0.0003835208964390098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document cc
+0.00037847334157173194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document cc
+0.00038296039903791865 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document cc
+0.00037896336828472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document cc
+0.00037620974396391355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document cc
+0.00037420590727111843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document cc
+0.000340490625886403 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document cc
+0.0003078314411035827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document cc
+0.00034153990750656097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document cc
+0.0003308858103982067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document cc
+0.0003452640607156025 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document cc
+0.00033095276418403455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document cc
+0.0003116308995860414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document cc
+0.00032446713226408477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document cc
+0.0003015816821912984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document cc
+0.00031612418775706894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document cc
+0.0003278516344971041 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document cc
+0.00033079446736097217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document cc
+0.00032278977146550837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document cc
+0.00032065272988207914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document cc
+0.0003936696452406576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document cc
+0.0003450109536627789 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document cc
+0.0003339787189919641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document cc
+0.0003284303856176974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document cc
+0.00033652677276843477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document cc
+0.0003257822443845694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document cc
+0.0003293985569149334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document cc
+0.0003310360260148262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document cc
+0.0003233770986418526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document cc
+0.0003172280092149422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document cc
+0.0003160674744292835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document cc
+0.00030931090289598506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document cc
+0.0003093173886443107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document cc
+0.00033167847081104083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document cc
+0.00031131501311729723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document cc
+0.00031046608876279845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document cc
+0.00030569235942207244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document cc
+0.00030777943671285197 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document cc
+0.00029303314290956683 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document cc
+0.0003045824546400205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document cc
+0.00030360880677729793 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document cc
+0.00031646239964835433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document cc
+0.0003129122300603785 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document cc
+0.00031060464956661433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document cc
+0.000311819032500067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document cc
+0.0002977872483902282 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document cc
+0.0003009448600922438 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document cc
+0.00028610292098537774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document cc
+0.0002988326876216654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document cc
+0.00028550828372819075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document cc
+0.0002830381750875739 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document cc
+0.0002848495855927156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document cc
+0.0002856443760308144 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document cc
+0.00027442895344188584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document cc
+0.0002681160554049462 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document cc
+0.0003421482544126989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document cc
+0.0004005872948449718 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document cc
+0.0003930123959320308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document cc
+0.0003867271832275778 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document cc
+0.000380805140455254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document cc
+0.0003814769861947819 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document cc
+0.00038025170883282324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document cc
+0.0003738026647867475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document cc
+0.00018960856915036276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document cc
+0.0003697177501953134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document cc
+0.00036674194328136693 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document cc
+0.00036447406838697555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document cc
+0.00036686410861101255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document cc
+0.00035915267825103423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document cc
+0.0003624758404026675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document cc
+0.0002822812140180794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document cc
+0.00030620512946920813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document cc
+0.000294249776520589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document cc
+0.00030238536967523434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document cc
+0.00029509593361580754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document cc
+0.0002906912701830899 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document cc
+0.0002921944165474959 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document cc
+0.00028358919691127954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document cc
+0.0002813182772323272 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document cc
+0.00027442640800299205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document cc
+0.0002747820342933984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document cc
+0.0002747584403979717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document cc
+0.00027499129634862444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document cc
+0.0002712050404257197 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document cc
+0.0002616256943143254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document cc
+0.00026769938929002815 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document cc
+0.00038396081322727017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document cc
+0.0003863140490027991 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document cc
+0.00037702277513203237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document cc
+0.0003633274156107032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document cc
+0.0003587473889240435 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document cc
+0.0003507672084278415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document cc
+0.00033776425499780385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document cc
+0.0003377914127574796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document cc
+0.00032948015659161326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document cc
+0.00033245638541392985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document cc
+0.00031080707640648695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document cc
+0.0002976903331149755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document cc
+0.0002965121463725523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document cc
+0.0002933849695266647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document cc
+0.0002837035078508233 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document cc
+0.00028684569079589323 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document cc
+0.0003145192320802359 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document cc
+0.0003566937253273515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document cc
+0.0003470199109592918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document cc
+0.0003060245312041868 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document cc
+0.0002650817213818789 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document cc
+0.0002643604938780134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document cc
+0.000299350876031416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document cc
+0.0003178540797697938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document cc
+0.000271850367887767 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document cc
+0.00031349896596549 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document cc
+0.00031749734412765755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document cc
+0.0003791137842391209 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document cc
+0.0003742334169957992 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document cc
+0.0003705639757351107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document cc
+0.0003126986769797042 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document cc
+0.00031038132814561196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document cc
+0.00036464437173804883 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document cc
+0.0003569480488951322 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document cc
+0.0003541239221619106 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document cc
+0.00035315297411308053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document cc
+0.0003572451925404141 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document cc
+0.0003514986129411253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document cc
+0.0003521798298425866 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document cc
+0.00034553677439244716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document cc
+0.000349004719809412 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document cc
+0.0003468247484872769 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document cc
+0.0003465822608356558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document cc
+0.00035410983132162007 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document cc
+0.0003487908354969444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document cc
+0.0003479024763238147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document cc
+0.000341412530646823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document cc
+0.00034451316273667034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document cc
+0.0002618849993484869 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document cc
+0.00026788679978901144 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document cc
+0.00027450670773227214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document cc
+0.0002661273129899329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document cc
+0.00026836569676402957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document cc
+0.00026155876975483236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document cc
+0.0002609276830117151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document cc
+0.0002644161630512771 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document cc
+0.00036789208972872557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document cc
+0.00037829849439990513 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document cc
+0.0003788894943523098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document cc
+0.0003617207777959397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document cc
+0.0002541334487248998 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document cc
+0.0002707945538071073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document cc
+0.00027046282716455214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document cc
+0.0002652443167243215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document cc
+0.0002685859923850986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document cc
+0.00025734961751176414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document cc
+0.000259041720872915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document cc
+0.00025340107274823446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document cc
+0.00025757135121837893 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document cc
+0.00025617700500574084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document cc
+0.0002566931670562857 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document cc
+0.0002543871190716101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document cc
+0.00024997565589481713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document cc
+0.0002954079779456287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document cc
+0.00034890741135252835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document cc
+0.0003473298137731525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document cc
+0.0003296959618486435 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document cc
+0.0003304520061604598 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document cc
+0.00032377956175729824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document cc
+0.00031700696295168713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document cc
+0.0003060382346081943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document cc
+0.0003012003005056863 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document cc
+0.0002981074073993884 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document cc
+0.0002922128825950705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document cc
+0.000348901087722931 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document cc
+0.0003408286289467841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document cc
+0.0003410649680770183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document cc
+0.0003358524215576502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document cc
+0.0003343661874989231 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document cc
+0.00032810573699389156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document cc
+0.00032261449539097497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document cc
+0.0003162694866049203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document cc
+0.0003158381156468853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document cc
+0.000317376061083603 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document cc
+0.0003125788639953052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document cc
+0.0003010105041885602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document cc
+0.0003065865059090678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document cc
+0.0003084275726508053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document cc
+0.00030966560718296085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document cc
+0.0002957728057853081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document cc
+0.00029904164542325336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document cc
+0.0002955358888729187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document cc
+0.00028692976446931544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document cc
+0.0002923476214935797 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document cc
+0.0002893691697212419 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document cc
+0.0002855895211981585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document cc
+0.00027968347097626246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document cc
+0.0002810783462604979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document cc
+0.00027794080455729715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document cc
+0.00034784376461416953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document cc
+0.0003488347959010943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document cc
+0.00034790583710250724 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document cc
+0.000345913166618151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document cc
+0.00033801936268066675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document cc
+0.0003290591130212315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document cc
+0.00034051399521366823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document cc
+0.00032470943131841784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document cc
+0.00031679540050914276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document cc
+0.00031814596342422325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document cc
+0.0003156466289485036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document cc
+0.00029985010879003633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document cc
+0.0002905176377776361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document cc
+0.0004206836775460856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document cc
+0.00020660449162246918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document cc
+0.0003461727254468087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document cc
+0.00020592870907067763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document cc
+0.00034173505299233005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document cc
+0.0004052437256652738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document cc
+0.0004080650901351697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document cc
+0.00039778184149144276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document cc
+0.00039046311464950275 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document cc
+0.00039043444911071384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document cc
+0.000388575704932843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document cc
+0.00019737533145666597 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document cc
+0.00037610755595812403 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document cc
+0.00037315400127598317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document cc
+0.00037415028580922163 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document cc
+0.00036694041707212337 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document cc
+0.00018947219857306515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document cc
+0.00037046050826533545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document cc
+0.0003587440768559087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document cc
+0.00034623936498708903 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document cc
+0.0003502289592617922 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document cc
+0.00034692398063649823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document cc
+0.000339340809421849 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document cc
+0.0003360510394816983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document cc
+0.0003354673850814145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document cc
+0.00032937682875877047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document cc
+0.00032844505049317715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document cc
+0.00028287199339908627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document cc
+0.0002795217197003578 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document cc
+0.00028048955601883463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document cc
+0.0002769326396439027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document cc
+0.0002727090021299243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document cc
+0.0002726577841024554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document cc
+0.00026663619593455374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document cc
+0.00026068042672138127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document cc
+0.0002637704114326801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document cc
+0.0002593043567100412 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document cc
+0.0002599897110113453 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document cc
+0.0002435078682758859 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document cc
+0.0002450530071379054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document cc
+0.00024233331983743606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document cc
+0.0002934750947999535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document cc
+0.00033241226364044474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document cc
+0.00032938406090272075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document cc
+0.00032778705403953246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document cc
+0.00032184551480398754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document cc
+0.00031874002264945737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document cc
+0.0003165319685666433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document cc
+0.00031307071173376295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document cc
+0.00031119524184911957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document cc
+0.0003102253344576429 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document cc
+0.0003088976240383192 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document cc
+0.0002951410823077708 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document cc
+0.00029772657676757413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document cc
+0.0003056048989909935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document cc
+0.00031991305381648026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document cc
+0.00030890256978362426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document cc
+0.0003109382904091933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document cc
+0.00031035798529690644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document cc
+0.00030741666395911753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document cc
+0.0002989918594861846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document cc
+0.00029569635443989434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document cc
+0.0002973992445667285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document cc
+0.000293397351001072 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document cc
+0.00028737817438047954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document cc
+0.00028252738144009747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document cc
+0.0002805511898623541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document cc
+0.0003718020784620472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document cc
+0.0003499713845765235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document cc
+0.00034283547445326676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document cc
+0.00031464759888838765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document cc
+0.00033188946446414833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document cc
+0.000326084432195463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document cc
+0.0003764568303917893 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document cc
+0.0003604955598858414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document cc
+0.0003655654554133222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document cc
+0.00035762304033750504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document cc
+0.00038478883950347103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document cc
+0.00027735714341247454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document cc
+0.00028139534607773563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document cc
+0.00019777292251713763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document cc
+0.000285571704874486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document cc
+0.00028543482146244363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document cc
+0.00019434234484256758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document cc
+0.00027854908176986763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document cc
+0.0002847068039566143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document cc
+0.00028672356943064853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document cc
+0.00027782687605808177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document cc
+0.0002843539634105203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document cc
+0.0002894748379090401 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document cc
+0.0002868852440186493 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document cc
+0.0002818504885373851 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document cc
+0.00028680112812941034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document cc
+0.00019258978168723977 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document cc
+0.00028760637934715155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document cc
+0.0002820439443912918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document cc
+0.0002831001054410018 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document cc
+0.00029001901552467397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document cc
+0.00027779449377883156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document cc
+0.00019949837437516796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document cc
+0.0002907306472984446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document cc
+0.00027814858381318327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document cc
+0.00019472790889161432 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document cc
+0.00020472626596924125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document cc
+0.0002870045081974301 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document cc
+0.00019812241927078482 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document cc
+0.0002817553333369554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document cc
+0.00027829782796642117 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document cc
+0.00028289431732284113 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document cc
+0.0002795526296717729 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document cc
+0.00027682829988044574 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document cc
+0.0002895432402719184 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document cc
+0.0002823174903941811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document cc
+0.00028170972351837796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document cc
+0.00027807915877838826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document cc
+0.00028588515681452956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document cc
+0.00028112324090816726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document cc
+0.00020636178289985485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document cc
+0.00019447255290980535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document cc
+0.0002850824220591452 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document cc
+0.00027856429520116784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document cc
+0.0002820880676635633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document cc
+0.00028943902215995714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document cc
+0.0002676366291085329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document cc
+0.00023806333809954687 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document cc
+0.00024526460430233455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document cc
+0.00023876876664622726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document cc
+0.00023379770334179805 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document cc
+0.00024175151269138382 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document cc
+0.00023386583242595706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document cc
+0.00023771797150160827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document cc
+0.0002262748967483896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document cc
+0.0002408148346432682 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document cc
+0.00023398651720444235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document cc
+0.00022989433874474592 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document cc
+0.00023948500543957772 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document cc
+0.0002331594076859196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document cc
+0.00023375132439600242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document cc
+0.00023923410909668642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document cc
+0.00023952796315562954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document cc
+0.0002327466076905069 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document cc
+0.00023082758956797212 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document cc
+0.0002240509275524448 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document cc
+0.00022798879995765268 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document cc
+0.000221172516774386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document cc
+0.00021767045123534623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document cc
+0.00021982832794804484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document cc
+0.00021971626543789102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document cc
+0.00022566565206920132 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document cc
+0.0002181984894194856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document cc
+0.00021831417549554653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document cc
+0.00021601405421187145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document cc
+0.00022275733725519607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document cc
+0.00021847734911973986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document cc
+0.0002243591012664014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document cc
+0.00021688758139483833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document cc
+0.0002182953624789215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document cc
+0.00020475155724026002 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document cc
+0.00021498078062960065 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document cc
+0.0002157914337233064 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document cc
+0.00021781838494967963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document cc
+0.00021723242266814558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document cc
+0.0002176782686553837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document cc
+0.0003486179404943968 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document cc
+0.00034882846352857634 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document cc
+0.00031400868448352596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document cc
+0.00030273484020011963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document cc
+0.00029895889118145404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document cc
+0.00029770764609621714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document cc
+0.0002990181332116852 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document cc
+0.00029653733972285996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document cc
+0.00029624649222942476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document cc
+0.00029625609720203576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document cc
+0.00029731928930852147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document cc
+0.00029011721326148513 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document cc
+0.00028849788197494655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document cc
+0.00021601278623858145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document cc
+0.00021319599281739178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document cc
+0.0002153325290600083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document cc
+0.00018566946174516558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document cc
+0.00020736824394291617 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document cc
+0.00020857419820128004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document cc
+0.00020058526129536423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document cc
+0.00020745812166665217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document cc
+0.00020652171015271702 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document cc
+0.00020643808911278608 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document cc
+0.00020040513914482103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document cc
+0.00020598050188272898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document cc
+0.0001969184139343296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document cc
+0.0001972748812937012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document cc
+0.0002038556751586195 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document cc
+0.00020245186011313464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document cc
+0.00019950381422038783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document cc
+0.00020837055459665258 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document cc
+0.00020371856218246096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document cc
+0.00019537612301625791 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document cc
+0.00019914984508813857 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document cc
+0.0002053787713691309 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document cc
+0.00019082100541008637 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document cc
+0.00020397153334531813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document cc
+0.0002021462693077317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document cc
+0.00019609357008124035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document cc
+0.00019693256622486236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document cc
+0.00020007239732428112 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document cc
+0.00020467075741591954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document cc
+0.00019584883400022932 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document cc
+0.00019135050391176972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document cc
+0.0003362829834208298 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document cc
+0.00034013691154784095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document cc
+0.00033215887031941976 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document cc
+0.00032681189065396707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document cc
+0.0003149138485493094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document cc
+0.00030179177307540077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document cc
+0.0002923278437581119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document cc
+0.00029470052278994486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document cc
+0.0002994095093045731 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document cc
+0.00029033525096085037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document cc
+0.00029390798852496565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document cc
+0.0002916230924130842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document cc
+0.00029419886374594913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document cc
+0.0002865469756730764 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document cc
+0.00021191292549942086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document cc
+0.00021369664817409847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document cc
+0.00021612485624266726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document cc
+0.00022242192634588478 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document cc
+0.00014605095659989698 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document cc
+0.00022070626106341693 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document cc
+0.0002174420774054071 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document cc
+0.00021325858963116995 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document cc
+0.0002124322999488052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document cc
+0.0002081218896969054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document cc
+0.0002108710211556957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document cc
+0.00020686867095978426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document cc
+0.00020895752681041895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document cc
+0.00020741922266415738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document cc
+0.0002069112657197308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document cc
+0.00020644627473468118 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document cc
+0.00020332991338121604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document cc
+0.0003560895677789848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document cc
+0.00032915779111908214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document cc
+0.00033810613317040864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document cc
+0.00033729626594036923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document cc
+0.00033550342864602944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document cc
+0.00034173474024556906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document cc
+0.000331505340748827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document cc
+0.0003270050330117195 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document cc
+0.00032585275329172556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document cc
+0.0003143383203190604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document cc
+0.00031655199110388894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document cc
+0.00030738872158476413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document cc
+0.00030838388352699285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document cc
+0.0003053596995351888 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document cc
+0.00031836304739584593 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document cc
+0.000315315435873905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document cc
+0.0003087116248965243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document cc
+0.00030396790625537645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document cc
+0.0003335812246032149 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document cc
+0.00034570956323095843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document cc
+0.00034563035636675786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document cc
+0.00033411265479076335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document cc
+0.00034439191141692787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document cc
+0.0003364483125496565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document cc
+0.0003299500453608033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document cc
+0.00033163377700074837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document cc
+0.00032638649660627673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document cc
+0.00032616167939645234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document cc
+0.0003205289298760723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document cc
+0.00031939393740815355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document cc
+0.00031593164066731296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document cc
+0.00031928871111254405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document cc
+0.00029670189073175004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document cc
+0.00020517703846735904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document cc
+0.00020128418186172073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document cc
+0.00019662723895606717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document cc
+0.0001981157042081407 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document cc
+0.00019703489037041608 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document cc
+0.00019079796331785068 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document cc
+0.0001909352306690079 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document cc
+0.00018824662295261396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document cc
+0.00019864275319325954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document cc
+0.00018818516521649587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document cc
+0.00018875694972812844 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document cc
+0.00018231621170645482 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document cc
+0.00018349407845798273 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document cc
+0.00018088971427746906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document cc
+0.00018296284236327237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document cc
+0.0001876011825819916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document cc
+0.000329052068725176 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document cc
+0.00032223616273648536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document cc
+0.00031272564089633955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document cc
+0.00031621609908414494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document cc
+0.0003117213560911235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document cc
+0.00030218064069945934 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document cc
+0.00030658916600512085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document cc
+0.0002915863534115821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document cc
+0.0002940280138374372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document cc
+0.00029067860468866085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document cc
+0.00028529228063135635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document cc
+0.00028336893301452256 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document cc
+0.0002794668089130099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document cc
+0.00021681361378827842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document cc
+0.0001484664674497246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document cc
+0.00021950558378215133 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document cc
+0.00021806860758808645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document cc
+0.00021819568718852282 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document cc
+0.00021626925931585001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document cc
+0.0001464536143077762 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document cc
+0.00021432777088808917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document cc
+0.000213473805865147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document cc
+0.00021397067253964538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document cc
+0.00020758957647437263 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document cc
+0.00020687124337683314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document cc
+0.00020630057046511005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document cc
+0.0002091166859352538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document cc
+0.00020777355025615267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document cc
+0.00020709287641496176 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document cc
+0.00020736464660577094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document cc
+0.00020062246741862607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document cc
+0.00020693207561942915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document cc
+0.00021151004871893024 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document cc
+0.00019930249098689716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document cc
+0.00021589710041231824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document cc
+0.00021369204789905741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document cc
+0.0002147099923936778 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document cc
+0.00021077531190389536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document cc
+0.0002100509829113836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document cc
+0.00021185362601571124 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document cc
+0.00020722136637339565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document cc
+0.00020300093701169531 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document cc
+0.00019859737993313477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document cc
+0.00019971314372100164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document cc
+0.00019549908270269278 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document cc
+0.00019649820843534028 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document cc
+0.00019619415513498067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document cc
+0.00019493006120377898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document cc
+0.00019499409035775506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document cc
+0.00019252988593634277 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document cc
+0.00019440768268686405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document cc
+0.00018747161324755577 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document cc
+0.0001879575932372779 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document cc
+0.00019040707058357506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document cc
+0.0001871931095090703 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document cc
+0.00020112966223017096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document cc
+0.00020516878165311017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document cc
+0.00020664735191740533 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document cc
+0.00021041398572882962 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document cc
+0.00020397992929690396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document cc
+0.0002039978580295561 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document cc
+0.00020592785601142126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document cc
+0.0001990755527445265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document cc
+0.00019729564847798732 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document cc
+0.00019958182230527032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document cc
+0.0001985037302636386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document cc
+0.00020204130355115716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document cc
+0.0002000296401958085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document cc
+0.0001983064832295463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document cc
+0.00019663108484195617 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document cc
+0.00019510678560556523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document cc
+0.0001873284057063206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document cc
+0.00019311553072495885 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document cc
+0.00034652137288816547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document cc
+0.0002813690318850024 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document cc
+0.00027697649713138685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document cc
+0.0002755419092534421 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document cc
+0.0002681583054440219 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document cc
+0.00026945753192750824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document cc
+0.00026169470768245737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document cc
+0.00026437008960810825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document cc
+0.0002637294838228 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document cc
+0.00026491867965088836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document cc
+0.00025504483625138986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document cc
+0.0002545040623796586 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document cc
+0.0002546682814073622 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document cc
+0.00025545439487142615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document cc
+0.0002626896557978271 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document cc
+0.00025092040940402784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document cc
+0.0002589154885863872 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document cc
+0.00024106160482721467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document cc
+0.0002483289690087987 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document cc
+0.0002388930282784437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document cc
+0.00024006340759273874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document cc
+0.00023765248178029045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document cc
+0.00023061351965578936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document cc
+0.00024954224883546477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document cc
+0.00017861017233018525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document cc
+0.00017810832743667658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document cc
+0.00017599709170759497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document cc
+0.00017462723516505223 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document cc
+0.0002906316527068669 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document cc
+0.00033762141066247166 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document cc
+0.00017170670574152494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document cc
+0.00017258674515137717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document cc
+0.0002815386173173926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document cc
+0.0002996845935618989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document cc
+0.0002735268488987296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document cc
+0.0002971738713071517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document cc
+0.0002942690674002763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document cc
+0.0003322222207729567 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document cc
+0.0003378721656198464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document cc
+0.00018307262621851067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document cc
+0.00033956081502775057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document cc
+0.00031604820927876276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document cc
+0.00028805657681088917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document cc
+0.00026312293321215633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document cc
+0.00034366936722921455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document cc
+0.0002865256504406559 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document cc
+0.0003063615195861786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document cc
+0.00028412791619666136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document cc
+0.00028060835132727154 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document cc
+0.00032544974761560506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document cc
+0.0002647177833217225 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document cc
+0.0003152621884896575 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document cc
+0.0003054625140336913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document cc
+0.00031183308312292263 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document cc
+0.00018175026696621178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document cc
+0.00017699918328872 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document cc
+0.00018222339261441908 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document cc
+0.00018348005930964137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document cc
+0.0001810735993810541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document cc
+0.00030846441282038914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document cc
+0.0002972326889310354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document cc
+0.00017433421318235594 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document cc
+0.00032799458649525895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document cc
+0.00032482130048512673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document cc
+0.00031943465668672475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document cc
+0.00029615593630484517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document cc
+0.0002893126939511001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document cc
+0.0002849288351723284 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document cc
+0.00028383906633569267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document cc
+0.00028072526091262615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document cc
+0.000284239564292377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document cc
+0.0002778903109432523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document cc
+0.0002771644389501471 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document cc
+0.0002733316182319337 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document cc
+0.00026362539185869363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document cc
+0.0002636325383220217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document cc
+0.00026740622442302886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document cc
+0.0002646771971853427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document cc
+0.0002628566720605389 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document cc
+0.0002644760695434766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document cc
+0.0002623837702310999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document cc
+0.00026088722976772894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document cc
+0.0002567065374799158 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document cc
+0.00018857382101207726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document cc
+0.00019036580399817203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document cc
+0.00018348828065261222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document cc
+0.00018491851780345073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document cc
+0.00018904887260080187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document cc
+0.0001875609304251801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document cc
+0.00018393034720015817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document cc
+0.00018419795526114903 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document cc
+0.00018699955623404795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document cc
+0.00018276256902965128 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document cc
+0.00017698045695190812 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document cc
+0.00018104650132303642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document cc
+0.00017758206731279688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document cc
+0.00017131402995103497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document cc
+0.000175944428350446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document cc
+0.0003416745727147391 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document cc
+0.0003163259373952889 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document cc
+0.0002804489269172448 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document cc
+0.00028748272397403175 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document cc
+0.00027603318345630605 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document cc
+0.000271638824679648 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document cc
+0.0002763761210210942 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document cc
+0.00026501984873172717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document cc
+0.00026422486894694714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document cc
+0.0002686339100849262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document cc
+0.0002610837453940606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document cc
+0.000260974343729353 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document cc
+0.0002599403837029134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document cc
+0.0002937273113238609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document cc
+0.0003341790732600504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document cc
+0.0002620661576600244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document cc
+0.0003027929169239288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document cc
+0.00031944039129326894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document cc
+0.00019025676304139009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document cc
+0.00018680910145009907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document cc
+0.00034215840419416437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document cc
+0.00018618120812119364 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document cc
+0.00018605853095599425 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document cc
+0.00018120712626096538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document cc
+0.00018315079292495327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document cc
+0.00018362556449041974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document cc
+0.0001780024456718171 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document cc
+0.00033296526436178697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document cc
+0.0001802398632282846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document cc
+0.00017340263100798256 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document cc
+0.00017755840547238697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document cc
+0.00018419413735260606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document cc
+0.00017869518174591322 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document cc
+0.00017526271460129484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document cc
+0.00017852168597981907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document cc
+0.00017566536156787157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document cc
+0.00017589867964432936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document cc
+0.00017831487394075305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document cc
+0.00017837310528935862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document cc
+0.00018200908814216548 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document cc
+0.0001795136627511612 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document cc
+0.0003414021775300033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document cc
+0.00017177291787788502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document cc
+0.0003441900648571877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document cc
+0.0003394534597060673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document cc
+0.0003236887233114832 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document cc
+0.0001639544129688747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document cc
+0.00019137443753211255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document cc
+0.00018575146284680153 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document cc
+0.00019184792863440243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document cc
+0.00018966043065679055 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document cc
+0.00017968851317035848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document cc
+0.00018479881897661546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document cc
+0.0001813642692683015 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document cc
+0.0001686449798983066 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document cc
+0.00018516104592230446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document cc
+0.00031283726601066385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document cc
+0.0003248607542883853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document cc
+0.00031583241601202365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document cc
+0.00031238270857730376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document cc
+0.000307150592403979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document cc
+0.00029443829986847044 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document cc
+0.0002942723732234677 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document cc
+0.00023514930666443422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document cc
+0.0020776328951453444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document cc
+0.0021768234410538883 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document cc
+0.002106973549276289 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document cc
+0.002110915756171751 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document cc
+0.0017032382109816464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document cc
+0.0019047944877712286 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document cc
+0.0019402711744016077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document cc
+0.0006264790011223686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document cc
+0.0017885401938106643 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document cc
+
diff --git a/ALCF/data-lists/aurora/dolma.txt b/ALCF/data-lists/aurora/dolma.txt
new file mode 100644
index 00000000000..4aba801e009
--- /dev/null
+++ b/ALCF/data-lists/aurora/dolma.txt
@@ -0,0 +1,2419 @@
+0.0018520780893211373 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document algebraic-stack-train
+0.0017591050606817512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document algebraic-stack-train
+0.001459052794333798 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document algebraic-stack-train
+0.0007405667281569194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document algebraic-stack-train
+0.00019420030110896795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document algebraic-stack-train
+0.0009008668715801845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document algebraic-stack-train
+0.00015115827957143057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document algebraic-stack-train
+0.0014552844319220648 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document algebraic-stack-train
+0.0012469861325685161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document algebraic-stack-train
+0.00136412011372413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document algebraic-stack-train
+0.0007064279699221103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document algebraic-stack-train
+0.0008472240000687427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document algebraic-stack-train
+0.0001984375713341955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document algebraic-stack-train
+0.0005472773881697123 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document algebraic-stack-train
+0.001815779629850992 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document algebraic-stack-train
+0.0018313600689757324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document algebraic-stack-train
+0.0002583902668716813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document arxiv
+0.0002646575141232155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document arxiv
+0.0003165521247456758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document arxiv
+0.0002920706460176214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document arxiv
+0.00028396813182810215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document arxiv
+0.00030445161883108107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document arxiv
+0.00031628781276576474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document arxiv
+0.0003083776568189157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document arxiv
+0.0003176359471472902 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document arxiv
+0.0002536009369131698 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document arxiv
+0.0003067491424681363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document arxiv
+0.0002597217257557784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document arxiv
+0.0003788556450109768 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document arxiv
+0.0002796563272052598 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document arxiv
+0.00033573826524290287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document arxiv
+0.00030523658022800287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document arxiv
+0.00032211552192240096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document arxiv
+0.0003329295675164247 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document arxiv
+0.0003101982186639862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document arxiv
+0.00032361798234223355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document arxiv
+0.0003495541581652915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document arxiv
+0.0002821637448858042 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document arxiv
+0.00030399523537629673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document arxiv
+0.0002955658968247219 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document arxiv
+0.00028942158502924254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document arxiv
+0.00028769546171490733 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document arxiv
+0.0002938111057234182 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document arxiv
+0.0002711150403010948 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document arxiv
+0.00031130095874747565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document arxiv
+0.0003002996118160777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document arxiv
+0.0003732757901604459 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document arxiv
+0.00026784205751795894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document arxiv
+0.0002799626521661984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document arxiv
+0.00034334276069078164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document arxiv
+0.0003582469803674965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document arxiv
+0.00031094844818418623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document arxiv
+0.0002766228384977191 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document arxiv
+0.00030297116159471485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document arxiv
+0.00027033888377464685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document arxiv
+0.00030090862368377933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document arxiv
+0.00028543875802490955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document arxiv
+0.00027559768459074204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document arxiv
+0.0003182185533962886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document arxiv
+0.0003311392971435837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document arxiv
+0.00028751652060804325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document arxiv
+0.000303466863212589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document arxiv
+0.00033400462801277524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document arxiv
+0.0002589234031777426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document arxiv
+0.0002913508598466723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document arxiv
+0.0002670572450004856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document arxiv
+0.00032027399105647656 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document arxiv
+0.00032188376258379377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document arxiv
+0.0003161585784100882 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document arxiv
+0.0003184249182974135 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document arxiv
+0.00030381336664000807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document arxiv
+0.0003190437442184283 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document arxiv
+0.0002537961798200545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document arxiv
+0.0003017817117223326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document arxiv
+0.00028685268513240224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document arxiv
+0.00031265179094451165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document arxiv
+0.00034708319096986816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document arxiv
+0.00026650837943080664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document arxiv
+0.00034588832248507335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document arxiv
+0.0002416982248399037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document arxiv
+0.0003089296918222243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document arxiv
+0.00029137184185700827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document arxiv
+0.00026464226846800774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document arxiv
+0.00030545397919456627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document arxiv
+0.0003206778460448875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document arxiv
+0.00030968971641110967 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document arxiv
+0.00023325653928600864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document arxiv
+0.00030526899198338555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document arxiv
+0.00035376719076633584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document arxiv
+0.000290224385981026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document arxiv
+0.000294650083382008 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document arxiv
+0.00028768858128616436 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document arxiv
+0.00030856965235527843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document arxiv
+0.00030579942447879054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document arxiv
+0.0002863101084704357 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document arxiv
+0.0002870032092492213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document arxiv
+0.000264182727569885 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document arxiv
+0.0002974012367036449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document arxiv
+0.00032238412143059203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document arxiv
+0.00031683716893819036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document arxiv
+0.00031157434937617524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document arxiv
+0.0003411742735695989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document arxiv
+0.00026778444816570715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document arxiv
+0.0003037045797275201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document arxiv
+0.00027746114370081314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document arxiv
+0.00027148285946862043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document arxiv
+0.00028042950114678207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document arxiv
+0.0003235607816590721 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document arxiv
+0.0003086692227306295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document arxiv
+0.00033990349455148105 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document arxiv
+0.00030945053208470265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document arxiv
+0.00027309074552265303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document arxiv
+0.00028737393506316194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document arxiv
+0.0003098868328009879 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document arxiv
+0.0002614229162588409 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document arxiv
+0.0002884388407820923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document arxiv
+0.0031025147279277244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document books
+0.003102019887362634 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document books
+0.0009996745994661548 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document books
+0.0002406272620255565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document c4
+0.0002404825539493424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document c4
+0.00024062296575435581 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document c4
+0.00024069315766818953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document c4
+0.00024055829162263452 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document c4
+0.00024062053397343032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document c4
+0.0002410715545206964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document c4
+0.00024024881846087368 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document c4
+0.0002407074700790688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document c4
+0.00024072141428809043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document c4
+0.00024027710230872736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document c4
+0.0002409111299205489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document c4
+0.00024081954058275009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document c4
+0.00024086076794990912 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document c4
+0.00024098672620832446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document c4
+0.00024068622303333862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document c4
+0.00024140627024291824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document c4
+0.0002414512033594384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document c4
+0.00024028742594941463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document c4
+0.00024018036089269645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document c4
+0.0002398347365034979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document c4
+0.00024006780153485276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document c4
+0.00024015620270419213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document c4
+0.0002408848259695227 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document c4
+0.0002408023185278831 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document c4
+0.00024021196580140326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document c4
+0.00024077677271297493 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document c4
+0.00024087392454668027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document c4
+0.0002408071293824126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document c4
+0.00024042223828845715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document c4
+0.0002411484752360495 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document c4
+0.00023605263746465907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document c4
+0.00023471222158326908 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document c4
+0.00023432138580287644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document c4
+0.00023407385623382327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document c4
+0.00023487504174367091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document c4
+0.0002341843704976313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document c4
+0.00023421993170282486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document c4
+0.00023445057969132037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document c4
+0.0002337681680073047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document c4
+0.000234627964808109 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document c4
+0.0002338942211888584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document c4
+0.00023403849286843386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document c4
+0.00023405641310796305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document c4
+0.00023349169562397965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document c4
+0.00023381157386048856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document c4
+0.00023388742993790587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document c4
+0.00023363103829469813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document c4
+0.00023421141834630477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document c4
+0.00023420564352232565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document c4
+0.00023367463699173143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document c4
+0.00023344969163567033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document c4
+0.00023372196941547188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document c4
+0.00023399207645297834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document c4
+0.00023357915605505856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document c4
+0.00023337585642190864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document c4
+0.00023385005470157914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document c4
+0.00023301533534493465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document c4
+0.00023377864302541782 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document c4
+0.00023323745848621437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document c4
+0.0002330594611151835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document c4
+0.0002334149675026783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document c4
+0.00023198945902291534 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document c4
+0.00023023784834634142 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document c4
+0.00022985623060187217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document c4
+0.0002292605284569516 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document c4
+0.00022926593333048894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document c4
+0.00022922766406807777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document c4
+0.00022898153911167426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document c4
+0.0002292473111593315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document c4
+0.000228804579400424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document c4
+0.00022865485613513526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document c4
+0.00022937426835887895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document c4
+0.00022917388311587372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document c4
+0.0002291660582019043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document c4
+0.00022907895248360543 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document c4
+0.0002294617879920205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document c4
+0.0002290452150516566 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document c4
+0.00022943405619715553 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document c4
+0.0002296271421006204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document c4
+0.00022854791372910372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document c4
+0.00022923123467686557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document c4
+0.00022852404355738494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document c4
+0.00022847798660086642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document c4
+0.0002289604586810316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document c4
+0.00022835479834950643 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document c4
+0.0002289149402884243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document c4
+0.00022806655474763446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document c4
+0.00022826296420992974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document c4
+0.00022906829636213627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document c4
+0.0002287628414466998 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document c4
+0.0002282673911253445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document c4
+0.00022869309841939134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document c4
+0.0002281540116815451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document c4
+0.0002259755756162738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document c4
+0.00022562331285233504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document c4
+0.0002259061146106053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document c4
+0.00022567670836663787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document c4
+0.00022573165387587061 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document c4
+0.00022508514961670572 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document c4
+0.00022564642513773356 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document c4
+0.00022563088621998788 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document c4
+0.0002250438755373707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document c4
+0.00022524465346241134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document c4
+0.00022531737657666812 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document c4
+0.00022444687519363458 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document c4
+0.00022460397498596298 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document c4
+0.00022454218976501763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document c4
+0.00022447528843671366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document c4
+0.00022501666332178926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document c4
+0.00022453752304377972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document c4
+0.00022484451871163002 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document c4
+0.00022465678847154914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document c4
+0.00022453180917044732 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document c4
+0.0002247278486823009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document c4
+0.00022465794828242097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document c4
+0.00022431000701925386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document c4
+0.00022476020248460963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document c4
+0.00022467531771795015 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document c4
+0.0002236391309945234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document c4
+0.00022458764920536007 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document c4
+0.00022430877426744415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document c4
+0.0002247047786127192 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document c4
+0.0002245298090400035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document c4
+0.0002245648831396188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document c4
+0.00022292894729820784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document c4
+0.00022236668082957533 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document c4
+0.0002217622659895442 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document c4
+0.00022252452726732609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document c4
+0.00022135333211363678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document c4
+0.0002214571757787971 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document c4
+0.0002217188139237798 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document c4
+0.00022144214894640303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document c4
+0.00022100172806631854 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document c4
+0.00022156392409199052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document c4
+0.00022134830143710272 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document c4
+0.00022158598922529453 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document c4
+0.00022142932483041377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document c4
+0.00022120980907786554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document c4
+0.00022117917738112441 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document c4
+0.00022077089397851235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document c4
+0.00022093265074996711 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document c4
+0.00022091299741377004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document c4
+0.0002205849150703338 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document c4
+0.0002210648204787979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document c4
+0.0002214235747364102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document c4
+0.00022083907302221787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document c4
+0.0002206334237915964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document c4
+0.00022065193929912214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document c4
+0.00022079775597767288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document c4
+0.00022091492909963518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document c4
+0.00022095009987097293 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document c4
+0.0002208150577180165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document c4
+0.00022085759102772088 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document c4
+0.00022073789170129016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document c4
+0.00022049322781182384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document c4
+0.00022083270617761285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document c4
+0.00021982452827473632 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document c4
+0.00021899870446514259 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document c4
+0.00021890358773356361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document c4
+0.00021875556609042841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document c4
+0.00021861195987201226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document c4
+0.00021856782186167455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document c4
+0.00021912837771543515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document c4
+0.00021900213768517756 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document c4
+0.00021871675851390374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document c4
+0.0002180537056545586 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document c4
+0.0002188196714327129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document c4
+0.00021851362624523464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document c4
+0.0002183236795498736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document c4
+7.291153618675672e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document c4
+0.0003742481815405742 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document cc
+0.00038204855962733055 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document cc
+0.00038821818392663593 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document cc
+0.00038723332988783727 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document cc
+0.00038916141142149904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document cc
+0.00038049542523949033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document cc
+0.0003854755539534284 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document cc
+0.00024202756466512517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document cc
+0.0003915405155008087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document cc
+0.0003927382151931033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document cc
+0.0003839151202260479 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document cc
+0.00040006817468967907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document cc
+0.00040318965964443476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document cc
+0.0003831013019452741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document cc
+0.00039166638383204036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document cc
+0.00039962784023961004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document cc
+0.00039536707853602614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document cc
+0.0004204304698247758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document cc
+0.00041538899178693555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document cc
+0.00039186953333675306 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document cc
+0.00038945837196504305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document cc
+0.0003919951238929062 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document cc
+0.00044377065718528966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document cc
+0.0004407759068603017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document cc
+0.0002487811895843715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document cc
+0.00039349432045556636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document cc
+0.00041223198559462343 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document cc
+0.0004036573014830213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document cc
+0.0003825982215521807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document cc
+0.00040386867133151386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document cc
+0.00024460575279105167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document cc
+0.000269029789531335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document cc
+0.0003573757493252864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document cc
+0.0004600876681392076 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document cc
+0.0002605354166397086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document cc
+0.0003882502452157999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document cc
+0.0002466747612126512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document cc
+0.0004024726105072402 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document cc
+0.00040820631128483644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document cc
+0.0002691094350403538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document cc
+0.00026916830387277267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document cc
+0.0004204663297880574 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document cc
+0.00042379698687085554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document cc
+0.0004502169227311871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document cc
+0.0002661708937015295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document cc
+0.00031239486948031334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document cc
+0.0003109054589936201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document cc
+0.00045873053079760646 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document cc
+0.00022904931423244635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document cc
+0.0003813462028433663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document cc
+0.00039188129256500874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document cc
+0.00045124222276983765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document cc
+0.00048138658436853695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document cc
+0.0003944178776279866 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document cc
+0.00039941569676754006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document cc
+0.00037952761190240494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document cc
+0.0003944870860881476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document cc
+0.0003891842411856621 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document cc
+0.000387688981934861 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document cc
+0.00039197953876258005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document cc
+0.00039007915280311206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document cc
+0.0003995520363699188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document cc
+0.00039230985654592406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document cc
+0.0003929472067173851 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document cc
+0.0003924096172671473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document cc
+0.0003881636143629905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document cc
+0.000389790617937084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document cc
+0.00037351762309221023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document cc
+0.0003630196170929407 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document cc
+0.00033532465765142113 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document cc
+0.0003076088685761823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document cc
+0.00039463850897720803 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document cc
+0.0002843816115231449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document cc
+0.0002909175709416474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document cc
+0.00028867170997202486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document cc
+0.0002838644617723659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document cc
+0.00029027869525543416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document cc
+0.0002821339567560056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document cc
+0.0002922988877045601 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document cc
+0.0002866955958315786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document cc
+0.0002865271754558126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document cc
+0.0002861247475618473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document cc
+0.0002826681072408606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document cc
+0.0002849746458282827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document cc
+0.0002816966633435316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document cc
+0.00026255342235948463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document cc
+0.0002552895098829678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document cc
+0.00025990194083107813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document cc
+0.0002524062657685835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document cc
+0.0002538577379748611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document cc
+0.0002561415177406761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document cc
+0.00026206253059694905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document cc
+0.00026168095406910565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document cc
+0.0002601305742008613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document cc
+0.00025200823006814814 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document cc
+0.0003229951981263502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document cc
+0.00037289448266476045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document cc
+0.0003807825862179898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document cc
+0.0003616333738191483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document cc
+0.0003665117918907636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document cc
+0.0003684186453633228 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document cc
+0.0003589330610806066 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document cc
+0.00036383861418030395 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document cc
+0.000359841363355303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document cc
+0.00036431044063050464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document cc
+0.0003668574090358279 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document cc
+0.000362768263620199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document cc
+0.0003501888032771077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document cc
+0.000352401968221528 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document cc
+0.0003541019701869794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document cc
+0.0003628121865546891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document cc
+0.0003752582953758773 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document cc
+0.00037902046230424966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document cc
+0.0003777927146925147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document cc
+0.0003760676130509053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document cc
+0.00034046049078755405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document cc
+0.0003338847563259091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document cc
+0.00033294499102761794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document cc
+0.0004912026198265864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document cc
+0.00032064363474664014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document cc
+0.00032154190389541214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document cc
+0.00032309660151746207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document cc
+0.00031181143365304544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document cc
+0.00031046092294569104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document cc
+0.00031150165249068046 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document cc
+0.0003041314265988224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document cc
+0.0003024834909739394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document cc
+0.0003019936835833604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document cc
+0.000292329665283177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document cc
+0.0002867061143144972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document cc
+0.00028443615610701707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document cc
+0.00028462291013755945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document cc
+0.0002793538601205013 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document cc
+0.00027306573977044246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document cc
+0.00027097155673336525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document cc
+0.0002752934202112985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document cc
+0.00043042012694697647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document cc
+0.00047495648822986177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document cc
+0.00047755032493473855 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document cc
+0.0004706974343933747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document cc
+0.00046682163297771817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document cc
+0.0004616765425874178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document cc
+0.00030644496751628097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document cc
+0.0002909492555358308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document cc
+0.00027272036068261724 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document cc
+0.0004101070217315588 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document cc
+0.0003728914338834357 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document cc
+0.00036546911442305647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document cc
+0.0003669945482407483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document cc
+0.0003715902407424017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document cc
+0.00035837486406683366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document cc
+0.0003573318538685469 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document cc
+0.0003553784893071916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document cc
+0.0004920659809912352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document cc
+0.0004533619411303183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document cc
+0.00045067066057818706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document cc
+0.00044396985139270645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document cc
+0.00043198288204468477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document cc
+0.00043005174223738454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document cc
+0.00041847118430776784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document cc
+0.00042952036375796664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document cc
+0.00043420594647324267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document cc
+0.0003461123241053012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document cc
+0.0003408581597849182 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document cc
+0.00033172705422182547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document cc
+0.0003392566490686136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document cc
+0.00033578341518385483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document cc
+0.0003439196710518844 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document cc
+0.00034559163447085543 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document cc
+0.00033762478642902825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document cc
+0.00033215210055107224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document cc
+0.00033423579608014966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document cc
+0.0004963355016025102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document cc
+0.0004996862761456923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document cc
+0.0005000551829325451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document cc
+0.0005004212610098755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document cc
+0.00027768695585500585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document cc
+0.00028395983854338433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document cc
+0.00027835826303062254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document cc
+0.0002740073176010804 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document cc
+0.0002791830529274016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document cc
+0.0002796863816194411 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document cc
+0.00026697453022672804 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document cc
+0.0002594197440280141 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document cc
+0.0003779565697649222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document cc
+0.00041835823476586606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document cc
+0.00043788493575265915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document cc
+0.0002731731970096006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document cc
+0.000276305847423402 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document cc
+0.0002704955773958623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document cc
+0.0002629635944827518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document cc
+0.000260070956974436 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document cc
+0.00025661553791456334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document cc
+0.00025794727207576157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document cc
+0.00025295733980001527 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document cc
+0.0003788106407021029 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document cc
+0.0004882344027669431 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document cc
+0.0003275324309642705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document cc
+0.0004803401856640094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document cc
+0.00046720138323433943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document cc
+0.00043527810307095335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document cc
+0.00043905395741627827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document cc
+0.00048774175867331425 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document cc
+0.00048380704121346737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document cc
+0.0004779011848346118 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document cc
+0.00046255587581908036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document cc
+0.00045127922880511576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document cc
+0.0004503891485256095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document cc
+0.0004450142332303422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document cc
+0.00044630282482516654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document cc
+0.00044325014465743616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document cc
+0.0004263874842796447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document cc
+0.0004217530913646938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document cc
+0.000415120314341852 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document cc
+0.00040987168279144537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document cc
+0.00033468337266607834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document cc
+0.0003353094464683005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document cc
+0.0004833936821707294 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document cc
+0.00047194878988920935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document cc
+0.0004648324126996427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document cc
+0.0004562345003964941 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document cc
+0.0004933203505465098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document cc
+0.0003530166075325466 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document cc
+0.00035368548192804685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document cc
+0.0004872620828289663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document cc
+0.00048293889392426456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document cc
+0.00047936768462267655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document cc
+0.00047821013991587545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document cc
+0.0004660610308564753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document cc
+0.000394683430103437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document cc
+0.00039165053441571324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document cc
+0.0003906936040164381 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document cc
+0.00038074803919159006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document cc
+0.0003686529291578143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document cc
+0.00035832920428870976 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document cc
+0.00035929024535947033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document cc
+0.0003538226556050544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document cc
+0.0003584167868708799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document cc
+0.0003480507542594234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document cc
+0.0003413709023543034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document cc
+0.00034001304759361455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document cc
+0.00033430532902756514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document cc
+0.00046519252660631277 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document cc
+0.0002938876402514769 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document cc
+0.00028676090994509047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document cc
+0.00027296150117506716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document cc
+0.00026513502621960483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document cc
+0.0002680081327926125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document cc
+0.00025831225828720344 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document cc
+0.00026647037295561 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document cc
+0.0002525733734572654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document cc
+0.00025831708887575375 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document cc
+0.00042487627444443476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document cc
+0.0004951213245023891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document cc
+0.0004804051413177752 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document cc
+0.0004662397611340532 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document cc
+0.0004550138655253933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document cc
+0.00044494909122746795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document cc
+0.0002899112253051385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document cc
+0.0004372879736279761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document cc
+0.0004529568099252922 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document cc
+0.00045127826158829573 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document cc
+0.0004436558176737439 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document cc
+0.0004419233237678378 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document cc
+0.000434589215880319 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document cc
+0.00029153613207706566 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document cc
+0.0004312458058738854 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document cc
+0.00028741854968757313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document cc
+0.00046853200754421234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document cc
+0.0004949145252030074 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document cc
+0.00044459683920483167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document cc
+0.0003836095306696336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document cc
+0.0003789760237872398 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document cc
+0.0003749227438304427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document cc
+0.0003628558277173369 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document cc
+0.00039468301394041474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document cc
+0.00038874701821614864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document cc
+0.0004158492456077867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document cc
+0.00042360504554060077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document cc
+0.00040386729844317623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document cc
+0.00027595096702902474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document cc
+0.00043638766787829135 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document cc
+0.0002218691596850179 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document cc
+0.0004437566108089954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document cc
+0.0003889996411609667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document cc
+0.00043454421906537704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document cc
+0.0004522564392830988 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document cc
+0.00041517835659357416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document cc
+0.0002614360863446896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document cc
+0.00037543522111463596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document cc
+0.0004386190133514781 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document cc
+0.00046358333286115075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document cc
+0.00043186261317942404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document cc
+0.0002377581602097957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document cc
+0.00025973334085074254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document cc
+0.00040139099332000796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document cc
+0.00043674860686687174 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document cc
+0.00040853289309329373 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document cc
+0.000242910191729688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document cc
+0.0004431071731750582 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document cc
+0.0004388092670482523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document cc
+0.000381418866255965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document cc
+0.0004100117296419717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document cc
+0.00042469230366022745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document cc
+0.00041744151905374254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document cc
+0.00022835699906752945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document cc
+0.0004380161085387397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document cc
+0.00044803212381807456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document cc
+0.00040554932796137236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document cc
+0.0004234508646347761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document cc
+0.00043341209652360653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document cc
+0.00023966604734537185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document cc
+0.000259165907316014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document cc
+0.0004270653021833602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document cc
+0.0004341547032162028 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document cc
+0.0004111478117275994 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document cc
+0.0004299383567984396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document cc
+0.0004241899124590779 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document cc
+0.0004502719349364145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document cc
+0.00038994621469645615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document cc
+0.0003859912398894952 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document cc
+0.0004247535950310557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document cc
+0.000386982084327716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document cc
+0.0004196451040053251 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document cc
+0.0004096278509782259 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document cc
+0.0004373334932695721 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document cc
+0.0004180889975240641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document cc
+0.00042079636929672745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document cc
+0.00038063574611812913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document cc
+0.0003817505891515542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document cc
+0.0004420096268860222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document cc
+0.00039182670726410623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document cc
+0.0003635667850372299 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document cc
+0.00041564996472055667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document cc
+0.000400529358757286 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document cc
+0.0003939113874958451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document cc
+0.00039066622068940996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document cc
+0.0004290098538807143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document cc
+0.0004240739958197099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document cc
+0.00040775392659215333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document cc
+0.0004091634200396925 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document cc
+0.00042299190476617914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document cc
+0.0003701492680344151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document cc
+0.0003807353844384635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document cc
+0.00038813507771983156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document cc
+0.00040072346558408346 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document cc
+0.0003603595180423597 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document cc
+0.00038799421353112465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document cc
+0.00037575235582264926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document cc
+0.0004239190342959713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document cc
+0.0004606044799136546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document cc
+0.00045107950652529253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document cc
+0.0004391947201871058 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document cc
+0.0004457516661123035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document cc
+0.0004301297170991686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document cc
+0.00044661704164586694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document cc
+0.0004438849846114837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document cc
+0.0004444205734316823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document cc
+0.0004190924165303394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document cc
+0.00043942581131677875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document cc
+0.00021568459798090663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document cc
+0.0003814929225407199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document cc
+0.0003217453179359235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document cc
+0.00031719591470267974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document cc
+0.00032434115726922137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document cc
+0.0004079911120371051 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document cc
+0.000329492766381148 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document cc
+0.0003845916162001633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document cc
+0.0003835208964390098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document cc
+0.00037847334157173194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document cc
+0.00038296039903791865 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document cc
+0.00037896336828472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document cc
+0.00037620974396391355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document cc
+0.00037420590727111843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document cc
+0.000340490625886403 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document cc
+0.0003078314411035827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document cc
+0.00034153990750656097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document cc
+0.0003308858103982067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document cc
+0.0003452640607156025 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document cc
+0.00033095276418403455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document cc
+0.0003116308995860414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document cc
+0.00032446713226408477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document cc
+0.0003015816821912984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document cc
+0.00031612418775706894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document cc
+0.0003278516344971041 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document cc
+0.00033079446736097217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document cc
+0.00032278977146550837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document cc
+0.00032065272988207914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document cc
+0.0003936696452406576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document cc
+0.0003450109536627789 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document cc
+0.0003339787189919641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document cc
+0.0003284303856176974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document cc
+0.00033652677276843477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document cc
+0.0003257822443845694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document cc
+0.0003293985569149334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document cc
+0.0003310360260148262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document cc
+0.0003233770986418526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document cc
+0.0003172280092149422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document cc
+0.0003160674744292835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document cc
+0.00030931090289598506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document cc
+0.0003093173886443107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document cc
+0.00033167847081104083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document cc
+0.00031131501311729723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document cc
+0.00031046608876279845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document cc
+0.00030569235942207244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document cc
+0.00030777943671285197 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document cc
+0.00029303314290956683 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document cc
+0.0003045824546400205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document cc
+0.00030360880677729793 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document cc
+0.00031646239964835433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document cc
+0.0003129122300603785 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document cc
+0.00031060464956661433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document cc
+0.000311819032500067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document cc
+0.0002977872483902282 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document cc
+0.0003009448600922438 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document cc
+0.00028610292098537774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document cc
+0.0002988326876216654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document cc
+0.00028550828372819075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document cc
+0.0002830381750875739 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document cc
+0.0002848495855927156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document cc
+0.0002856443760308144 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document cc
+0.00027442895344188584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document cc
+0.0002681160554049462 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document cc
+0.0003421482544126989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document cc
+0.0004005872948449718 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document cc
+0.0003930123959320308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document cc
+0.0003867271832275778 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document cc
+0.000380805140455254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document cc
+0.0003814769861947819 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document cc
+0.00038025170883282324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document cc
+0.0003738026647867475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document cc
+0.00018960856915036276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document cc
+0.0003697177501953134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document cc
+0.00036674194328136693 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document cc
+0.00036447406838697555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document cc
+0.00036686410861101255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document cc
+0.00035915267825103423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document cc
+0.0003624758404026675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document cc
+0.0002822812140180794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document cc
+0.00030620512946920813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document cc
+0.000294249776520589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document cc
+0.00030238536967523434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document cc
+0.00029509593361580754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document cc
+0.0002906912701830899 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document cc
+0.0002921944165474959 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document cc
+0.00028358919691127954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document cc
+0.0002813182772323272 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document cc
+0.00027442640800299205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document cc
+0.0002747820342933984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document cc
+0.0002747584403979717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document cc
+0.00027499129634862444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document cc
+0.0002712050404257197 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document cc
+0.0002616256943143254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document cc
+0.00026769938929002815 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document cc
+0.00038396081322727017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document cc
+0.0003863140490027991 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document cc
+0.00037702277513203237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document cc
+0.0003633274156107032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document cc
+0.0003587473889240435 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document cc
+0.0003507672084278415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document cc
+0.00033776425499780385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document cc
+0.0003377914127574796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document cc
+0.00032948015659161326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document cc
+0.00033245638541392985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document cc
+0.00031080707640648695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document cc
+0.0002976903331149755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document cc
+0.0002965121463725523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document cc
+0.0002933849695266647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document cc
+0.0002837035078508233 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document cc
+0.00028684569079589323 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document cc
+0.0003145192320802359 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document cc
+0.0003566937253273515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document cc
+0.0003470199109592918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document cc
+0.0003060245312041868 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document cc
+0.0002650817213818789 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document cc
+0.0002643604938780134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document cc
+0.000299350876031416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document cc
+0.0003178540797697938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document cc
+0.000271850367887767 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document cc
+0.00031349896596549 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document cc
+0.00031749734412765755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document cc
+0.0003791137842391209 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document cc
+0.0003742334169957992 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document cc
+0.0003705639757351107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document cc
+0.0003126986769797042 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document cc
+0.00031038132814561196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document cc
+0.00036464437173804883 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document cc
+0.0003569480488951322 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document cc
+0.0003541239221619106 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document cc
+0.00035315297411308053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document cc
+0.0003572451925404141 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document cc
+0.0003514986129411253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document cc
+0.0003521798298425866 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document cc
+0.00034553677439244716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document cc
+0.000349004719809412 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document cc
+0.0003468247484872769 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document cc
+0.0003465822608356558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document cc
+0.00035410983132162007 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document cc
+0.0003487908354969444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document cc
+0.0003479024763238147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document cc
+0.000341412530646823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document cc
+0.00034451316273667034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document cc
+0.0002618849993484869 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document cc
+0.00026788679978901144 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document cc
+0.00027450670773227214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document cc
+0.0002661273129899329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document cc
+0.00026836569676402957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document cc
+0.00026155876975483236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document cc
+0.0002609276830117151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document cc
+0.0002644161630512771 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document cc
+0.00036789208972872557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document cc
+0.00037829849439990513 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document cc
+0.0003788894943523098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document cc
+0.0003617207777959397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document cc
+0.0002541334487248998 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document cc
+0.0002707945538071073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document cc
+0.00027046282716455214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document cc
+0.0002652443167243215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document cc
+0.0002685859923850986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document cc
+0.00025734961751176414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document cc
+0.000259041720872915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document cc
+0.00025340107274823446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document cc
+0.00025757135121837893 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document cc
+0.00025617700500574084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document cc
+0.0002566931670562857 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document cc
+0.0002543871190716101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document cc
+0.00024997565589481713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document cc
+0.0002954079779456287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document cc
+0.00034890741135252835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document cc
+0.0003473298137731525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document cc
+0.0003296959618486435 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document cc
+0.0003304520061604598 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document cc
+0.00032377956175729824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document cc
+0.00031700696295168713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document cc
+0.0003060382346081943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document cc
+0.0003012003005056863 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document cc
+0.0002981074073993884 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document cc
+0.0002922128825950705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document cc
+0.000348901087722931 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document cc
+0.0003408286289467841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document cc
+0.0003410649680770183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document cc
+0.0003358524215576502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document cc
+0.0003343661874989231 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document cc
+0.00032810573699389156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document cc
+0.00032261449539097497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document cc
+0.0003162694866049203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document cc
+0.0003158381156468853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document cc
+0.000317376061083603 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document cc
+0.0003125788639953052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document cc
+0.0003010105041885602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document cc
+0.0003065865059090678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document cc
+0.0003084275726508053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document cc
+0.00030966560718296085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document cc
+0.0002957728057853081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document cc
+0.00029904164542325336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document cc
+0.0002955358888729187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document cc
+0.00028692976446931544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document cc
+0.0002923476214935797 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document cc
+0.0002893691697212419 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document cc
+0.0002855895211981585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document cc
+0.00027968347097626246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document cc
+0.0002810783462604979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document cc
+0.00027794080455729715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document cc
+0.00034784376461416953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document cc
+0.0003488347959010943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document cc
+0.00034790583710250724 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document cc
+0.000345913166618151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document cc
+0.00033801936268066675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document cc
+0.0003290591130212315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document cc
+0.00034051399521366823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document cc
+0.00032470943131841784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document cc
+0.00031679540050914276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document cc
+0.00031814596342422325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document cc
+0.0003156466289485036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document cc
+0.00029985010879003633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document cc
+0.0002905176377776361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document cc
+0.0004206836775460856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document cc
+0.00020660449162246918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document cc
+0.0003461727254468087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document cc
+0.00020592870907067763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document cc
+0.00034173505299233005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document cc
+0.0004052437256652738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document cc
+0.0004080650901351697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document cc
+0.00039778184149144276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document cc
+0.00039046311464950275 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document cc
+0.00039043444911071384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document cc
+0.000388575704932843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document cc
+0.00019737533145666597 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document cc
+0.00037610755595812403 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document cc
+0.00037315400127598317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document cc
+0.00037415028580922163 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document cc
+0.00036694041707212337 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document cc
+0.00018947219857306515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document cc
+0.00037046050826533545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document cc
+0.0003587440768559087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document cc
+0.00034623936498708903 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document cc
+0.0003502289592617922 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document cc
+0.00034692398063649823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document cc
+0.000339340809421849 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document cc
+0.0003360510394816983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document cc
+0.0003354673850814145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document cc
+0.00032937682875877047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document cc
+0.00032844505049317715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document cc
+0.00028287199339908627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document cc
+0.0002795217197003578 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document cc
+0.00028048955601883463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document cc
+0.0002769326396439027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document cc
+0.0002727090021299243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document cc
+0.0002726577841024554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document cc
+0.00026663619593455374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document cc
+0.00026068042672138127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document cc
+0.0002637704114326801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document cc
+0.0002593043567100412 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document cc
+0.0002599897110113453 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document cc
+0.0002435078682758859 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document cc
+0.0002450530071379054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document cc
+0.00024233331983743606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document cc
+0.0002934750947999535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document cc
+0.00033241226364044474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document cc
+0.00032938406090272075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document cc
+0.00032778705403953246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document cc
+0.00032184551480398754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document cc
+0.00031874002264945737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document cc
+0.0003165319685666433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document cc
+0.00031307071173376295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document cc
+0.00031119524184911957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document cc
+0.0003102253344576429 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document cc
+0.0003088976240383192 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document cc
+0.0002951410823077708 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document cc
+0.00029772657676757413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document cc
+0.0003056048989909935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document cc
+0.00031991305381648026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document cc
+0.00030890256978362426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document cc
+0.0003109382904091933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document cc
+0.00031035798529690644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document cc
+0.00030741666395911753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document cc
+0.0002989918594861846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document cc
+0.00029569635443989434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document cc
+0.0002973992445667285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document cc
+0.000293397351001072 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document cc
+0.00028737817438047954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document cc
+0.00028252738144009747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document cc
+0.0002805511898623541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document cc
+0.0003718020784620472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document cc
+0.0003499713845765235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document cc
+0.00034283547445326676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document cc
+0.00031464759888838765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document cc
+0.00033188946446414833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document cc
+0.000326084432195463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document cc
+0.0003764568303917893 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document cc
+0.0003604955598858414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document cc
+0.0003655654554133222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document cc
+0.00035762304033750504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document cc
+0.00038478883950347103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document cc
+0.00027735714341247454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document cc
+0.00028139534607773563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document cc
+0.00019777292251713763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document cc
+0.000285571704874486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document cc
+0.00028543482146244363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document cc
+0.00019434234484256758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document cc
+0.00027854908176986763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document cc
+0.0002847068039566143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document cc
+0.00028672356943064853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document cc
+0.00027782687605808177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document cc
+0.0002843539634105203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document cc
+0.0002894748379090401 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document cc
+0.0002868852440186493 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document cc
+0.0002818504885373851 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document cc
+0.00028680112812941034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document cc
+0.00019258978168723977 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document cc
+0.00028760637934715155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document cc
+0.0002820439443912918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document cc
+0.0002831001054410018 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document cc
+0.00029001901552467397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document cc
+0.00027779449377883156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document cc
+0.00019949837437516796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document cc
+0.0002907306472984446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document cc
+0.00027814858381318327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document cc
+0.00019472790889161432 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document cc
+0.00020472626596924125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document cc
+0.0002870045081974301 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document cc
+0.00019812241927078482 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document cc
+0.0002817553333369554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document cc
+0.00027829782796642117 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document cc
+0.00028289431732284113 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document cc
+0.0002795526296717729 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document cc
+0.00027682829988044574 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document cc
+0.0002895432402719184 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document cc
+0.0002823174903941811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document cc
+0.00028170972351837796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document cc
+0.00027807915877838826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document cc
+0.00028588515681452956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document cc
+0.00028112324090816726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document cc
+0.00020636178289985485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document cc
+0.00019447255290980535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document cc
+0.0002850824220591452 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document cc
+0.00027856429520116784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document cc
+0.0002820880676635633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document cc
+0.00028943902215995714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document cc
+0.0002676366291085329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document cc
+0.00023806333809954687 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document cc
+0.00024526460430233455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document cc
+0.00023876876664622726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document cc
+0.00023379770334179805 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document cc
+0.00024175151269138382 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document cc
+0.00023386583242595706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document cc
+0.00023771797150160827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document cc
+0.0002262748967483896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document cc
+0.0002408148346432682 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document cc
+0.00023398651720444235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document cc
+0.00022989433874474592 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document cc
+0.00023948500543957772 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document cc
+0.0002331594076859196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document cc
+0.00023375132439600242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document cc
+0.00023923410909668642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document cc
+0.00023952796315562954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document cc
+0.0002327466076905069 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document cc
+0.00023082758956797212 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document cc
+0.0002240509275524448 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document cc
+0.00022798879995765268 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document cc
+0.000221172516774386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document cc
+0.00021767045123534623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document cc
+0.00021982832794804484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document cc
+0.00021971626543789102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document cc
+0.00022566565206920132 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document cc
+0.0002181984894194856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document cc
+0.00021831417549554653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document cc
+0.00021601405421187145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document cc
+0.00022275733725519607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document cc
+0.00021847734911973986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document cc
+0.0002243591012664014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document cc
+0.00021688758139483833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document cc
+0.0002182953624789215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document cc
+0.00020475155724026002 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document cc
+0.00021498078062960065 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document cc
+0.0002157914337233064 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document cc
+0.00021781838494967963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document cc
+0.00021723242266814558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document cc
+0.0002176782686553837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document cc
+0.0003486179404943968 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document cc
+0.00034882846352857634 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document cc
+0.00031400868448352596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document cc
+0.00030273484020011963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document cc
+0.00029895889118145404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document cc
+0.00029770764609621714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document cc
+0.0002990181332116852 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document cc
+0.00029653733972285996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document cc
+0.00029624649222942476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document cc
+0.00029625609720203576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document cc
+0.00029731928930852147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document cc
+0.00029011721326148513 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document cc
+0.00028849788197494655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document cc
+0.00021601278623858145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document cc
+0.00021319599281739178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document cc
+0.0002153325290600083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document cc
+0.00018566946174516558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document cc
+0.00020736824394291617 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document cc
+0.00020857419820128004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document cc
+0.00020058526129536423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document cc
+0.00020745812166665217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document cc
+0.00020652171015271702 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document cc
+0.00020643808911278608 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document cc
+0.00020040513914482103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document cc
+0.00020598050188272898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document cc
+0.0001969184139343296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document cc
+0.0001972748812937012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document cc
+0.0002038556751586195 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document cc
+0.00020245186011313464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document cc
+0.00019950381422038783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document cc
+0.00020837055459665258 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document cc
+0.00020371856218246096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document cc
+0.00019537612301625791 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document cc
+0.00019914984508813857 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document cc
+0.0002053787713691309 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document cc
+0.00019082100541008637 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document cc
+0.00020397153334531813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document cc
+0.0002021462693077317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document cc
+0.00019609357008124035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document cc
+0.00019693256622486236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document cc
+0.00020007239732428112 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document cc
+0.00020467075741591954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document cc
+0.00019584883400022932 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document cc
+0.00019135050391176972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document cc
+0.0003362829834208298 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document cc
+0.00034013691154784095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document cc
+0.00033215887031941976 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document cc
+0.00032681189065396707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document cc
+0.0003149138485493094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document cc
+0.00030179177307540077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document cc
+0.0002923278437581119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document cc
+0.00029470052278994486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document cc
+0.0002994095093045731 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document cc
+0.00029033525096085037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document cc
+0.00029390798852496565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document cc
+0.0002916230924130842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document cc
+0.00029419886374594913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document cc
+0.0002865469756730764 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document cc
+0.00021191292549942086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document cc
+0.00021369664817409847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document cc
+0.00021612485624266726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document cc
+0.00022242192634588478 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document cc
+0.00014605095659989698 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document cc
+0.00022070626106341693 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document cc
+0.0002174420774054071 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document cc
+0.00021325858963116995 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document cc
+0.0002124322999488052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document cc
+0.0002081218896969054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document cc
+0.0002108710211556957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document cc
+0.00020686867095978426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document cc
+0.00020895752681041895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document cc
+0.00020741922266415738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document cc
+0.0002069112657197308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document cc
+0.00020644627473468118 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document cc
+0.00020332991338121604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document cc
+0.0003560895677789848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document cc
+0.00032915779111908214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document cc
+0.00033810613317040864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document cc
+0.00033729626594036923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document cc
+0.00033550342864602944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document cc
+0.00034173474024556906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document cc
+0.000331505340748827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document cc
+0.0003270050330117195 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document cc
+0.00032585275329172556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document cc
+0.0003143383203190604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document cc
+0.00031655199110388894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document cc
+0.00030738872158476413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document cc
+0.00030838388352699285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document cc
+0.0003053596995351888 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document cc
+0.00031836304739584593 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document cc
+0.000315315435873905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document cc
+0.0003087116248965243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document cc
+0.00030396790625537645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document cc
+0.0003335812246032149 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document cc
+0.00034570956323095843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document cc
+0.00034563035636675786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document cc
+0.00033411265479076335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document cc
+0.00034439191141692787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document cc
+0.0003364483125496565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document cc
+0.0003299500453608033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document cc
+0.00033163377700074837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document cc
+0.00032638649660627673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document cc
+0.00032616167939645234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document cc
+0.0003205289298760723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document cc
+0.00031939393740815355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document cc
+0.00031593164066731296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document cc
+0.00031928871111254405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document cc
+0.00029670189073175004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document cc
+0.00020517703846735904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document cc
+0.00020128418186172073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document cc
+0.00019662723895606717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document cc
+0.0001981157042081407 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document cc
+0.00019703489037041608 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document cc
+0.00019079796331785068 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document cc
+0.0001909352306690079 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document cc
+0.00018824662295261396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document cc
+0.00019864275319325954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document cc
+0.00018818516521649587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document cc
+0.00018875694972812844 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document cc
+0.00018231621170645482 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document cc
+0.00018349407845798273 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document cc
+0.00018088971427746906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document cc
+0.00018296284236327237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document cc
+0.0001876011825819916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document cc
+0.000329052068725176 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document cc
+0.00032223616273648536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document cc
+0.00031272564089633955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document cc
+0.00031621609908414494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document cc
+0.0003117213560911235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document cc
+0.00030218064069945934 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document cc
+0.00030658916600512085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document cc
+0.0002915863534115821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document cc
+0.0002940280138374372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document cc
+0.00029067860468866085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document cc
+0.00028529228063135635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document cc
+0.00028336893301452256 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document cc
+0.0002794668089130099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document cc
+0.00021681361378827842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document cc
+0.0001484664674497246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document cc
+0.00021950558378215133 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document cc
+0.00021806860758808645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document cc
+0.00021819568718852282 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document cc
+0.00021626925931585001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document cc
+0.0001464536143077762 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document cc
+0.00021432777088808917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document cc
+0.000213473805865147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document cc
+0.00021397067253964538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document cc
+0.00020758957647437263 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document cc
+0.00020687124337683314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document cc
+0.00020630057046511005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document cc
+0.0002091166859352538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document cc
+0.00020777355025615267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document cc
+0.00020709287641496176 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document cc
+0.00020736464660577094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document cc
+0.00020062246741862607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document cc
+0.00020693207561942915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document cc
+0.00021151004871893024 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document cc
+0.00019930249098689716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document cc
+0.00021589710041231824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document cc
+0.00021369204789905741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document cc
+0.0002147099923936778 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document cc
+0.00021077531190389536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document cc
+0.0002100509829113836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document cc
+0.00021185362601571124 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document cc
+0.00020722136637339565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document cc
+0.00020300093701169531 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document cc
+0.00019859737993313477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document cc
+0.00019971314372100164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document cc
+0.00019549908270269278 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document cc
+0.00019649820843534028 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document cc
+0.00019619415513498067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document cc
+0.00019493006120377898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document cc
+0.00019499409035775506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document cc
+0.00019252988593634277 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document cc
+0.00019440768268686405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document cc
+0.00018747161324755577 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document cc
+0.0001879575932372779 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document cc
+0.00019040707058357506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document cc
+0.0001871931095090703 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document cc
+0.00020112966223017096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document cc
+0.00020516878165311017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document cc
+0.00020664735191740533 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document cc
+0.00021041398572882962 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document cc
+0.00020397992929690396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document cc
+0.0002039978580295561 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document cc
+0.00020592785601142126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document cc
+0.0001990755527445265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document cc
+0.00019729564847798732 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document cc
+0.00019958182230527032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document cc
+0.0001985037302636386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document cc
+0.00020204130355115716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document cc
+0.0002000296401958085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document cc
+0.0001983064832295463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document cc
+0.00019663108484195617 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document cc
+0.00019510678560556523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document cc
+0.0001873284057063206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document cc
+0.00019311553072495885 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document cc
+0.00034652137288816547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document cc
+0.0002813690318850024 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document cc
+0.00027697649713138685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document cc
+0.0002755419092534421 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document cc
+0.0002681583054440219 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document cc
+0.00026945753192750824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document cc
+0.00026169470768245737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document cc
+0.00026437008960810825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document cc
+0.0002637294838228 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document cc
+0.00026491867965088836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document cc
+0.00025504483625138986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document cc
+0.0002545040623796586 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document cc
+0.0002546682814073622 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document cc
+0.00025545439487142615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document cc
+0.0002626896557978271 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document cc
+0.00025092040940402784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document cc
+0.0002589154885863872 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document cc
+0.00024106160482721467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document cc
+0.0002483289690087987 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document cc
+0.0002388930282784437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document cc
+0.00024006340759273874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document cc
+0.00023765248178029045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document cc
+0.00023061351965578936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document cc
+0.00024954224883546477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document cc
+0.00017861017233018525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document cc
+0.00017810832743667658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document cc
+0.00017599709170759497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document cc
+0.00017462723516505223 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document cc
+0.0002906316527068669 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document cc
+0.00033762141066247166 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document cc
+0.00017170670574152494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document cc
+0.00017258674515137717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document cc
+0.0002815386173173926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document cc
+0.0002996845935618989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document cc
+0.0002735268488987296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document cc
+0.0002971738713071517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document cc
+0.0002942690674002763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document cc
+0.0003322222207729567 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document cc
+0.0003378721656198464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document cc
+0.00018307262621851067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document cc
+0.00033956081502775057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document cc
+0.00031604820927876276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document cc
+0.00028805657681088917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document cc
+0.00026312293321215633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document cc
+0.00034366936722921455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document cc
+0.0002865256504406559 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document cc
+0.0003063615195861786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document cc
+0.00028412791619666136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document cc
+0.00028060835132727154 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document cc
+0.00032544974761560506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document cc
+0.0002647177833217225 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document cc
+0.0003152621884896575 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document cc
+0.0003054625140336913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document cc
+0.00031183308312292263 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document cc
+0.00018175026696621178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document cc
+0.00017699918328872 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document cc
+0.00018222339261441908 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document cc
+0.00018348005930964137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document cc
+0.0001810735993810541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document cc
+0.00030846441282038914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document cc
+0.0002972326889310354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document cc
+0.00017433421318235594 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document cc
+0.00032799458649525895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document cc
+0.00032482130048512673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document cc
+0.00031943465668672475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document cc
+0.00029615593630484517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document cc
+0.0002893126939511001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document cc
+0.0002849288351723284 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document cc
+0.00028383906633569267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document cc
+0.00028072526091262615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document cc
+0.000284239564292377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document cc
+0.0002778903109432523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document cc
+0.0002771644389501471 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document cc
+0.0002733316182319337 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document cc
+0.00026362539185869363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document cc
+0.0002636325383220217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document cc
+0.00026740622442302886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document cc
+0.0002646771971853427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document cc
+0.0002628566720605389 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document cc
+0.0002644760695434766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document cc
+0.0002623837702310999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document cc
+0.00026088722976772894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document cc
+0.0002567065374799158 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document cc
+0.00018857382101207726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document cc
+0.00019036580399817203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document cc
+0.00018348828065261222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document cc
+0.00018491851780345073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document cc
+0.00018904887260080187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document cc
+0.0001875609304251801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document cc
+0.00018393034720015817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document cc
+0.00018419795526114903 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document cc
+0.00018699955623404795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document cc
+0.00018276256902965128 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document cc
+0.00017698045695190812 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document cc
+0.00018104650132303642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document cc
+0.00017758206731279688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document cc
+0.00017131402995103497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document cc
+0.000175944428350446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document cc
+0.0003416745727147391 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document cc
+0.0003163259373952889 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document cc
+0.0002804489269172448 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document cc
+0.00028748272397403175 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document cc
+0.00027603318345630605 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document cc
+0.000271638824679648 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document cc
+0.0002763761210210942 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document cc
+0.00026501984873172717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document cc
+0.00026422486894694714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document cc
+0.0002686339100849262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document cc
+0.0002610837453940606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document cc
+0.000260974343729353 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document cc
+0.0002599403837029134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document cc
+0.0002937273113238609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document cc
+0.0003341790732600504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document cc
+0.0002620661576600244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document cc
+0.0003027929169239288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document cc
+0.00031944039129326894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document cc
+0.00019025676304139009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document cc
+0.00018680910145009907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document cc
+0.00034215840419416437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document cc
+0.00018618120812119364 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document cc
+0.00018605853095599425 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document cc
+0.00018120712626096538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document cc
+0.00018315079292495327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document cc
+0.00018362556449041974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document cc
+0.0001780024456718171 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document cc
+0.00033296526436178697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document cc
+0.0001802398632282846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document cc
+0.00017340263100798256 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document cc
+0.00017755840547238697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document cc
+0.00018419413735260606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document cc
+0.00017869518174591322 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document cc
+0.00017526271460129484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document cc
+0.00017852168597981907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document cc
+0.00017566536156787157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document cc
+0.00017589867964432936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document cc
+0.00017831487394075305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document cc
+0.00017837310528935862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document cc
+0.00018200908814216548 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document cc
+0.0001795136627511612 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document cc
+0.0003414021775300033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document cc
+0.00017177291787788502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document cc
+0.0003441900648571877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document cc
+0.0003394534597060673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document cc
+0.0003236887233114832 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document cc
+0.0001639544129688747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document cc
+0.00019137443753211255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document cc
+0.00018575146284680153 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document cc
+0.00019184792863440243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document cc
+0.00018966043065679055 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document cc
+0.00017968851317035848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document cc
+0.00018479881897661546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document cc
+0.0001813642692683015 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document cc
+0.0001686449798983066 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document cc
+0.00018516104592230446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document cc
+0.00031283726601066385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document cc
+0.0003248607542883853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document cc
+0.00031583241601202365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document cc
+0.00031238270857730376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document cc
+0.000307150592403979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document cc
+0.00029443829986847044 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document cc
+0.0002942723732234677 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document cc
+0.00023514930666443422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document cc
+0.0020776328951453444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document cc
+0.0021768234410538883 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document cc
+0.002106973549276289 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document cc
+0.002110915756171751 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document cc
+0.0017032382109816464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document cc
+0.0019047944877712286 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document cc
+0.0019402711744016077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document cc
+0.0006264790011223686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document cc
+0.0017885401938106643 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document cc
+0.0003547982093445404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document falcon
+0.00035934014428504944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document falcon
+0.00035707704501371544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document falcon
+0.00035287930712815354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document falcon
+0.00035977166728996823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document falcon
+0.0003581675664109838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document falcon
+0.0003548617059697185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document falcon
+0.0003639582000286208 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document falcon
+0.00035375839698688127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document falcon
+0.0003743722020080678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document falcon
+0.0003530399715341242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document falcon
+0.00035511875882752406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document falcon
+0.0003618733574783154 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document falcon
+0.00035185243285420104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document falcon
+0.0003541503739732106 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document falcon
+0.0003631679485751914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document falcon
+0.00035748045578182274 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document falcon
+0.0003606490690555877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document falcon
+0.0003626383296610091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document falcon
+0.00035442644361264756 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document falcon
+0.00035978370170539796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document falcon
+0.0003585562375341541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document falcon
+0.0003601958372888019 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document falcon
+0.000350277765402227 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document falcon
+0.0003616521184211704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document falcon
+0.0003620625543608188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document falcon
+0.0003560781983850704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document falcon
+0.0003553209610592676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document falcon
+0.00035905348643915075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document falcon
+0.00034744258805696526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document falcon
+0.00035462784035661496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document falcon
+0.00034768186175100895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document falcon
+0.0003568534635532736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document falcon
+0.00035586511544371234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document falcon
+0.0003524567827568137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document falcon
+0.0003512453770426313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document falcon
+0.0003591792726468799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document falcon
+0.0003514024529343127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document falcon
+0.0003584880112586934 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document falcon
+0.00035133552916418045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document falcon
+0.0003600811981350215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document falcon
+0.0003571663974228119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document falcon
+0.00035768103378874214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document falcon
+0.00035939205561113694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document falcon
+0.00035186773916029825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document falcon
+0.0003542829672490847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document falcon
+0.0003592783642898726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document falcon
+0.0003556367340099302 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document falcon
+0.00035391392271377027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document falcon
+0.00035486725707484836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document falcon
+0.00034866743396828035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document falcon
+0.0003517219808644735 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document falcon
+0.00034874458549673823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document falcon
+0.000355773136961014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document falcon
+0.00035611750387841917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document falcon
+0.00035305602013916315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document falcon
+0.0003578207127071924 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document falcon
+0.00035514635841943707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document falcon
+0.00034816946212866206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document falcon
+0.0003512707269761496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document falcon
+0.0003483392117980654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document falcon
+0.0003572169607204321 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document falcon
+0.00035139153281660794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document falcon
+0.00035536422129036537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document falcon
+0.000352017164107143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document falcon
+0.000351889550179365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document falcon
+0.000358759689953589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document falcon
+0.0003569286079869268 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document falcon
+0.0003657752958602099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document falcon
+0.00035396127934790697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document falcon
+0.0003618565071224743 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document falcon
+0.00035146051531973204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document falcon
+0.00036107135765783567 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document falcon
+0.00035019554279994576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document falcon
+0.00035567858879904983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document falcon
+0.0003504753174793183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document falcon
+0.00035931140831329194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document falcon
+0.0003502967866002823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document falcon
+0.0003532911801041972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document falcon
+0.0003583543013070199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document falcon
+0.0003566243489931224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document falcon
+0.0003468752314799221 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document falcon
+0.0003597840618138091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document falcon
+0.00035128822484768084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document falcon
+0.00035889496943437507 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document falcon
+0.000352400524650424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document falcon
+0.0003518689536768735 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document falcon
+0.00035866864741303467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document falcon
+0.0003454687659106334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document falcon
+0.00035348007259317576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document falcon
+0.0003539752270940644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document falcon
+0.00035146495994081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document falcon
+0.00035397212846310423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document falcon
+0.00035208246467162587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document falcon
+0.0003490843168676626 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document falcon
+0.00035299633658644394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document falcon
+0.00034868327466167065 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document falcon
+0.00035941351365601583 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document falcon
+0.0003545343062735255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document falcon
+0.0003528956380445978 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document falcon
+0.0003553355770443352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document falcon
+0.0003644224004937743 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document falcon
+0.00035234291036216907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document falcon
+0.0003596237469847771 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document falcon
+0.0003531996065735989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document falcon
+0.0003547177054106099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document falcon
+0.0003575586499260483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document falcon
+0.00035262635135283667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document falcon
+0.0003624191962188944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document falcon
+0.0003488398052948616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document falcon
+0.0003598294093147917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document falcon
+0.00035583006534466323 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document falcon
+0.00035403139653225103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document falcon
+0.00036134702642187156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document falcon
+0.0003573689927162834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document falcon
+0.0003577141131435527 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document falcon
+0.00035208814419277406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document falcon
+0.00035996720683665625 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document falcon
+0.00035415304658912596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document falcon
+0.00036353353029443546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document falcon
+0.0003537326003150983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document falcon
+0.00036053976358299083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document falcon
+0.000352380489373494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document falcon
+0.00036154661616900994 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document falcon
+0.00035959332325963614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document falcon
+0.0003597954667189692 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document falcon
+0.0003563108270597542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document falcon
+0.0003582891940460143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document falcon
+0.0003497728210484297 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document falcon
+0.0003549834902179354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document falcon
+0.0003529828233484542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document falcon
+0.00034627483903285777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document falcon
+0.00035569006572589215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document falcon
+0.00035449377946910314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document falcon
+0.00035802844396194623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document falcon
+0.0003617277809353208 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document falcon
+0.00035034118898654814 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document falcon
+0.000351091193908611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document falcon
+0.0003527914342210668 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document falcon
+0.00035028288369781376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document falcon
+0.00035775745592780506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document falcon
+0.0003449630690661468 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document falcon
+0.0003583490698830361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document falcon
+0.0003476995746684122 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document falcon
+0.0003535632505019212 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document falcon
+0.00035640180641147417 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document falcon
+0.000361731045691765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document falcon
+0.0003534082129597368 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document falcon
+0.0003550344149828664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document falcon
+0.00035363002411364057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document falcon
+0.0003537265579677396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document falcon
+0.00034950531383577937 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document falcon
+0.00035008511827347514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document falcon
+0.00035594533400871325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document falcon
+0.00035266312861335946 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document falcon
+0.00035280268794863923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document falcon
+0.0003565470391528536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document falcon
+0.0003588492322689137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document falcon
+0.00035469909697832775 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document falcon
+0.00034712082813410526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document falcon
+0.000348701157101807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document falcon
+0.0003500192014479944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document falcon
+0.00035120560544669755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document falcon
+0.00035403656850437445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document falcon
+0.00035852376560749366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document falcon
+0.0003534754068111774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document falcon
+0.00035591740046720765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document falcon
+0.000348522354782563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document falcon
+0.0003533533959664415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document falcon
+0.00035631425964030697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document falcon
+0.0003485886551574741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document falcon
+0.00035917652631065777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document falcon
+0.0003482975272111288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document falcon
+0.00035580661277480167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document falcon
+0.0003492290722955348 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document falcon
+0.00034989284450240613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document falcon
+0.0003545677216162781 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document falcon
+0.00034622286859463484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document falcon
+0.00036070626989861965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document falcon
+0.00035518365036320786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document falcon
+0.00035272907057848406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document falcon
+0.0003547343638218734 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document falcon
+0.0003496450144966242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document falcon
+0.0003537407829294287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document falcon
+0.0003489722653985685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document falcon
+0.00035057186899911295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document falcon
+0.0003507566548933051 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document falcon
+0.00035630360179023747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document falcon
+0.00035631362503416367 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document falcon
+0.0003490204248026821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document falcon
+0.00035761724058371226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document falcon
+0.00035037664777467137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document falcon
+0.000353402110481068 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document falcon
+0.00034524163568371745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document falcon
+0.00035528523728570974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document falcon
+0.00034784916132431703 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document falcon
+0.00034928476408048925 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document falcon
+0.00034989205973784984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document falcon
+0.00034201664404094254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document falcon
+0.0003529676016338611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document falcon
+0.00034643433682346637 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document falcon
+0.0003511666373001904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document falcon
+0.00034828669066575333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document falcon
+0.0003494625207264413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document falcon
+0.0003458957535879216 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document falcon
+0.0003543020478990003 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document falcon
+0.00034754384069014956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document falcon
+0.0003598856392240133 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document falcon
+0.0003503335458553846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document falcon
+0.00035919595619778716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document falcon
+0.00035767737970754404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document falcon
+0.00035197152783998165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document falcon
+0.0003549609834422404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document falcon
+0.0003568184100569753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document falcon
+0.0003512652818651935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document falcon
+0.00035912648958665754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document falcon
+0.00034764526964056546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document falcon
+0.000352439784960359 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document falcon
+0.00035295886560764226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document falcon
+0.0003518132693658672 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document falcon
+0.00035589987915465713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document falcon
+0.00034923863317385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document falcon
+0.0003457987267929692 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document falcon
+0.0003560928663480501 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document falcon
+0.0003529603811204932 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document falcon
+0.0003524438555443043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document falcon
+0.0003438847030263783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document falcon
+0.00035981978898461613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document falcon
+0.0003446342778566972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document falcon
+0.00035529584995236537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document falcon
+0.00034855740895831116 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document falcon
+0.00034932634912802544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document falcon
+0.00035805518303064666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document falcon
+0.0003497941877073061 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document falcon
+0.00035774398685405447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document falcon
+0.0003560421780316607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document falcon
+0.0003508844468369392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document falcon
+0.00035731928892270107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document falcon
+0.0003557884626314314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document falcon
+0.00034992996760289355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document falcon
+0.000360752554360921 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document falcon
+0.0003452321668708545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document falcon
+0.0003591745226131023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document falcon
+0.00035256981433229084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document falcon
+0.00035378123159712034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document falcon
+0.000350464354895999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document falcon
+0.00035074625557389677 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document falcon
+0.00035025894701994667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document falcon
+0.00035437902514857614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document falcon
+0.0003514684519732232 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document falcon
+0.00035449717909633905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document falcon
+0.0003436816402714221 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document falcon
+0.00035139158071782116 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document falcon
+0.0003509424079843335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document falcon
+0.000343894618577506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document falcon
+0.0003500789770661659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document falcon
+0.0003407788080680086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document falcon
+0.0003581908175239701 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document falcon
+0.0003465541618780918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document falcon
+0.00034600228792437736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document falcon
+0.00034416738982773204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document falcon
+0.0003519900340150641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document falcon
+0.000343369616864659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document falcon
+0.0003544993883274688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document falcon
+0.0003504441365073392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document falcon
+0.00034859160702727056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document falcon
+0.00035355909532647185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document falcon
+0.0003471900922691849 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document falcon
+0.0003563015508709187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document falcon
+0.0003487888744148821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document falcon
+0.00034711767548688336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document falcon
+0.0003530734609369085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document falcon
+0.00035123969242560935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document falcon
+0.0003517127620891489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document falcon
+0.00035232835416868673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document falcon
+0.0003524437481912308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document falcon
+0.0003525996167005602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document falcon
+0.00035064770545242043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document falcon
+0.00035311558274981226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document falcon
+0.00034952204800569914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document falcon
+0.0003541471367344846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document falcon
+0.00035418812454561825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document falcon
+0.0003528951372900714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document falcon
+0.0003542338042975688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document falcon
+0.00034937738939942796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document falcon
+0.0003522182190878447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document falcon
+0.0003501406466507449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document falcon
+0.00034973079877492633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document falcon
+0.0003485274567713538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document falcon
+0.00034999308679368985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document falcon
+0.0003570051724707296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document falcon
+0.00034567230462019706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document falcon
+0.00035529000940160696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document falcon
+0.00034956512308671755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document falcon
+0.0003496962834028953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document falcon
+0.0003468745282493457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document falcon
+0.0003502717155809202 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document falcon
+0.0003556240880896514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document falcon
+0.0003515109488424343 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document falcon
+0.0003563156688192592 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document falcon
+0.00035040277363989817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document falcon
+0.0003481408593290717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document falcon
+0.0003624575124332874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document falcon
+0.0003522684124250313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document falcon
+0.00035286996027653544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document falcon
+0.00034967623997256725 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document falcon
+0.00035182649587602765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document falcon
+0.0003524892557026489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document falcon
+0.0003507642477451811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document falcon
+0.00036190408389835666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document falcon
+0.00035102739424880766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document falcon
+0.00035239718753257265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document falcon
+0.00035298076121821316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document falcon
+0.0003478704389752654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document falcon
+0.0003503109191567942 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document falcon
+0.00035143250975654426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document falcon
+0.0003480663923069012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document falcon
+0.00035691540219998623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document falcon
+0.000348815437166351 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document falcon
+0.00035202073257766225 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document falcon
+0.0003491569096274706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document falcon
+0.00035277390475511834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document falcon
+0.0003524972090026609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document falcon
+0.0003504854249750236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document falcon
+0.00034740238025423914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document falcon
+0.00034968015462277606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document falcon
+0.0003493798632762674 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document falcon
+0.0003488202537862122 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document falcon
+0.0003525461864643725 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document falcon
+0.00034903815232825664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document falcon
+0.00035536982539258216 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document falcon
+0.00034858083265155483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document falcon
+0.0003505014973608067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document falcon
+0.00035327984042622104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document falcon
+0.0003503286677453136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document falcon
+0.00035835274842442816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document falcon
+0.00034970302660275595 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document falcon
+0.000357929573140149 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document falcon
+0.0003517238649788585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document falcon
+0.00036097027318848475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document falcon
+0.0003502734074110026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document falcon
+0.00035801510806036273 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document falcon
+0.0003568006373479869 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document falcon
+0.00036128108717454636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document falcon
+0.0003563436883111686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document falcon
+0.00035559725321852463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document falcon
+0.00035089656006854944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document falcon
+0.000359453964362057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document falcon
+0.00035629498059104033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document falcon
+0.0003622207707090437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document falcon
+0.0003540946784512821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document falcon
+0.0003594750565232011 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document falcon
+0.0003566007415086991 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document falcon
+0.0003562142599126134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document falcon
+0.0003569948186744601 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document falcon
+0.00035166554847920186 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document falcon
+0.00035047994419295137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document falcon
+0.0003561578193739437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document falcon
+0.00035470866838811544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document falcon
+0.00034216920464876335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document falcon
+0.0003550021513075795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document falcon
+0.0003488045105938729 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document falcon
+0.0003513340720840151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document falcon
+0.0003448558566387584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document falcon
+0.0003460966026953241 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document falcon
+0.0003488157616036459 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document falcon
+0.0003446120387842362 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document falcon
+0.000351528602987427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document falcon
+0.00035661118227454713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document falcon
+0.0003551342699877457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document falcon
+0.0003478953397924445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document falcon
+0.00034625782458988215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document falcon
+0.0003527515447405871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document falcon
+0.00034823744889805696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document falcon
+0.00034823314560254406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document falcon
+0.00035162668292961944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document falcon
+0.0003477307716074623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document falcon
+0.0003446457989477787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document falcon
+0.00034782916273767795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document falcon
+0.0003517249130302248 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document falcon
+0.0003449873430908556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document falcon
+0.00034841291749669877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document falcon
+0.0003466028498941749 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document falcon
+0.0003486436831199424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document falcon
+0.0003478279234211838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document falcon
+0.0003495903653274374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document falcon
+0.00034896893881218957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document falcon
+0.000348941645312426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document falcon
+0.0003474221308416894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document falcon
+0.0003462621543839385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document falcon
+0.0003669373860863891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document falcon
+0.00034691156268163006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document falcon
+0.0003527774103765281 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document falcon
+0.00034684565672734663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document falcon
+0.0003454250599604457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document falcon
+0.0003541536557159006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document falcon
+0.000345735737037366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document falcon
+0.0003524669816385214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document falcon
+0.0003441817133096468 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document falcon
+0.0003519093265859089 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document falcon
+0.00035080085480352095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document falcon
+0.00035285227929327434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document falcon
+0.00034354836346901676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document falcon
+0.00034789770937373467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document falcon
+0.000343665920520102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document falcon
+0.0003490884931060568 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document falcon
+0.00034380029463398654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document falcon
+0.00034874768005099945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document falcon
+0.0003457058510967673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document falcon
+0.00034644265227023904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document falcon
+0.00035008339858594957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document falcon
+0.0003462377193296194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document falcon
+0.0003620491787114201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document falcon
+0.000348717011044469 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document falcon
+0.00034370072363913706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document falcon
+0.0003551981066775649 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document falcon
+0.0003500119496799342 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document falcon
+0.0003485082952669081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document falcon
+0.0003508155580978919 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document falcon
+0.00035311375163251416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document falcon
+0.00034945972003423253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document falcon
+0.0003474220353789879 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document falcon
+0.0003536443686585001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document falcon
+0.0003560350489042953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document falcon
+0.0003493655927914396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document falcon
+0.0003528423977146383 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document falcon
+0.00035255554724471217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document falcon
+0.0003479760010190111 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document falcon
+0.00035458598862501956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document falcon
+0.0003458990560538315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document falcon
+0.00035157946422379875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document falcon
+0.00034736860650169996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document falcon
+0.0003529152313394119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document falcon
+0.00034586294329524465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document falcon
+0.00035707214923794877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document falcon
+0.0003509580363496512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document falcon
+0.00035244176725524474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document falcon
+0.0003467539557999047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document falcon
+0.00034919687962275546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document falcon
+0.00035094031731719953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document falcon
+0.0003484309008351352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document falcon
+0.0003485409424916253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document falcon
+0.0003499590776117838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document falcon
+0.0003492842758957848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document falcon
+0.0003529712275178912 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document falcon
+0.0003566141287087449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document falcon
+0.0003649496522047409 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document falcon
+0.0003563218912208234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document falcon
+0.00035614782126966145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document falcon
+0.0003531944298453266 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document falcon
+0.0003535950949566616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document falcon
+0.0003544295554928795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document falcon
+0.0003519908503740376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document falcon
+0.00035752817626134463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document falcon
+0.0003515322689589972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document falcon
+0.0003486893890307115 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document falcon
+0.0003446520464889867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document falcon
+0.0003509421562481707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document falcon
+0.00035335015702909084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document falcon
+0.0003490178167345008 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document falcon
+0.0003520497821155174 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document falcon
+0.0003549762618908944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document falcon
+0.00035072190850833103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document falcon
+0.0003542458638526423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document falcon
+0.000352419194572916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document falcon
+0.0003545102564672614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document falcon
+0.0003495437992331806 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document falcon
+0.0003542843376993964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document falcon
+0.000352827529313958 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document falcon
+0.00035442506093223886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document falcon
+0.0003496970719044257 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document falcon
+0.0003553096424442362 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document falcon
+0.00034986845565067564 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document falcon
+0.000352131055186658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document falcon
+0.0003527021708198983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document falcon
+0.00034905885414547214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document falcon
+0.0003583433842468394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document falcon
+0.00034409435202828383 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document falcon
+0.00034846410520871483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document falcon
+0.0003554459991927314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document falcon
+0.00035310507471843076 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document falcon
+0.000350028910786098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document falcon
+0.00035049727458009896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document falcon
+0.0003519047735925826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document falcon
+0.0003513027429919726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document falcon
+0.0003626947260354396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document falcon
+0.0003500087324849783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document falcon
+0.0003618315726725285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document falcon
+0.0003535385113938023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document falcon
+0.0003487064058517615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document falcon
+0.0003618709124780938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document falcon
+0.00035040070335625915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document falcon
+0.0003506279032267829 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document falcon
+0.0003498435310527524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document falcon
+0.0003554634749821431 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document falcon
+0.00035091209738758963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document falcon
+0.00035034103678978573 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document falcon
+0.00035398931854386146 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document falcon
+0.00035495529304989485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document falcon
+0.00036067883473356603 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document falcon
+6.322825248625475e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document megawika
+2.4432314037946264e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document megawika
+5.6313888721313454e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document megawika
+2.4208171781595055e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document megawika
+2.325811856369237e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document megawika
+2.4010790356322705e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document megawika
+5.36773610843632e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document megawika
+1.360574433501002e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document megawika
+1.3076540344853244e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document megawika
+1.3386534334886313e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document megawika
+1.2498103719605153e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document megawika
+1.403763836949682e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document megawika
+1.3636756723495417e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document megawika
+1.2242489446940814e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document megawika
+1.2398255818973339e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document megawika
+1.2972616994216281e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document megawika
+1.3947809855914134e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document megawika
+1.3144843787829514e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document megawika
+1.1693809976572487e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document megawika
+1.3677252682893802e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document megawika
+1.3940876719849597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document megawika
+1.4222245138730965e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document megawika
+1.3201677767919704e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document megawika
+1.1421717796486169e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document megawika
+1.2890514724498703e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document megawika
+1.3649507648749037e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document megawika
+1.2400732563490717e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document megawika
+1.1557681453277616e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document megawika
+1.2294483595964517e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document megawika
+1.2137484472122283e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document megawika
+1.3299663426456e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document megawika
+1.2461984216479532e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document megawika
+1.4666434217609636e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document megawika
+1.1876997894686238e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document megawika
+1.2939155338964078e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document megawika
+1.3859590039728515e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document megawika
+1.317917848615668e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document megawika
+1.1335281536110342e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document megawika
+1.2889923952861426e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document megawika
+1.3471671647053326e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document megawika
+1.2221720014475102e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document megawika
+1.2632647276287541e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document megawika
+1.28276219004076e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document megawika
+1.36213704321643e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document megawika
+1.2414858625261553e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document megawika
+1.3173700421883744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document megawika
+1.295597796725686e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document megawika
+1.242783936442904e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document megawika
+1.2417374088427464e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document megawika
+1.2134479405400744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document megawika
+1.3090040663304255e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document megawika
+1.2713470581614905e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document megawika
+5.5750231378906594e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document megawika
+5.777597358425469e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document megawika
+5.349786767471258e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document megawika
+5.675165050453583e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document megawika
+5.482611216158831e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document megawika
+5.065421899890121e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document megawika
+5.384718357480146e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document megawika
+4.872037363236061e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document megawika
+4.532709250783155e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document megawika
+5.7257963030489613e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document megawika
+4.9014365579652036e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document megawika
+5.722863552770969e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document megawika
+6.149911636146833e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document megawika
+5.2178057608273506e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document megawika
+4.990228161160431e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document megawika
+5.866186875255134e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document megawika
+5.004185734360719e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document megawika
+4.79401853705107e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document megawika
+5.435219965052376e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document megawika
+5.035997225792266e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document megawika
+5.622401774211625e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document megawika
+5.028826157387559e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document megawika
+5.596379470128795e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document megawika
+6.027824493191489e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document megawika
+5.5358270009931474e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document megawika
+5.9839051807685496e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document megawika
+5.1221077499249595e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document megawika
+5.517228560620279e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document megawika
+5.1687858285052305e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document megawika
+5.684188244145645e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document megawika
+5.212693275535878e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document megawika
+4.8551007022784084e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document megawika
+5.4888506639203145e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document megawika
+5.345098688527242e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document megawika
+4.8506420625516594e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document megawika
+5.132168603397676e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document megawika
+5.719476795114223e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document megawika
+5.7448621149792696e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document megawika
+4.9068410568059265e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document megawika
+5.382937299647678e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document megawika
+4.8288432136304634e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document megawika
+5.841703200305416e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document megawika
+5.1589611587885584e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document megawika
+6.031113829732574e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document megawika
+5.4558202844532094e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document megawika
+5.341852317196142e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document megawika
+5.1402942738369954e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document megawika
+5.735421384377395e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document megawika
+5.473629863586958e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document megawika
+5.4708993245733936e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document megawika
+4.931161863634078e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document megawika
+5.104173022127248e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document megawika
+5.510157161510824e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document megawika
+5.652501401782597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document megawika
+5.7273656573031666e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document megawika
+5.638363224821738e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document megawika
+5.6128115396668704e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document megawika
+5.00304877998141e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document megawika
+5.596120554779096e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document megawika
+5.5280923889040006e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document megawika
+5.223477917938408e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document megawika
+5.29472809986569e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document megawika
+2.205682378243213e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document megawika
+1.4367563720603185e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document megawika
+3.5506193487931076e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document megawika
+3.0442910855821778e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document megawika
+2.2540042508019627e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document megawika
+2.6880163202623216e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document megawika
+2.534473148048727e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document megawika
+2.6560945431318916e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document megawika
+2.547470248967691e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document megawika
+2.5248825388073738e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document megawika
+2.5828729575000054e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document megawika
+2.4026583817957736e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document megawika
+2.3930425429834413e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document megawika
+2.5037365362599724e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document megawika
+2.6696745470595603e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document megawika
+2.140323051341762e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document megawika
+2.617354786691592e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document megawika
+1.538359101762691e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document megawika
+1.2871029252377856e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document megawika
+2.255195411289217e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document megawika
+2.4832313897952067e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document megawika
+9.303873918189968e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document megawika
+2.179532302620228e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document megawika
+1.9750517506901206e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document megawika
+2.7740420380648435e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document megawika
+2.7813714782319335e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document megawika
+4.1595357937609806e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document megawika
+2.741365122389175e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document megawika
+2.117451071361901e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document megawika
+1.7132649760565998e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document megawika
+1.7492547092602047e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document megawika
+1.7499951097392276e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document megawika
+1.6632444789170958e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document megawika
+1.6678802252361607e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document megawika
+1.5519208704558896e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document megawika
+1.652420992967167e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document megawika
+1.6119931034508755e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document megawika
+1.6638882076736552e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document megawika
+1.7198076782652946e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document megawika
+1.572927860565175e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document megawika
+1.5194822618169918e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document megawika
+1.6677776832669846e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document megawika
+1.595612492245688e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document megawika
+1.682350633181197e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document megawika
+1.663983380609724e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document megawika
+1.710187842689243e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document megawika
+1.5733697527539038e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document megawika
+1.6972104757911438e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document megawika
+1.6610142847616577e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document megawika
+1.61094882403031e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document megawika
+1.4789207305138325e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document megawika
+1.639299617676302e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document megawika
+1.3241204512116132e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document megawika
+8.582260726625535e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document megawika
+8.213000975576739e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document megawika
+9.549247732811947e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document megawika
+9.17242785339013e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document megawika
+7.632868223725218e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document megawika
+8.674401118222175e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document megawika
+9.124384255505347e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document megawika
+8.344222222417358e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document megawika
+8.992299957499065e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document megawika
+8.76689497361025e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document megawika
+7.973396239586015e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document megawika
+9.006935606644125e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document megawika
+8.725545954955498e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document megawika
+1.215449694669174e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document megawika
+3.3041720284158646e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document megawika
+2.0593512412624502e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document megawika
+1.893608946986248e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document megawika
+1.737111666788535e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document megawika
+1.4915923449873955e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document megawika
+2.289370239067605e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document megawika
+2.8615335689614638e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document megawika
+8.847283630883125e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document megawika
+1.8175470362373804e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document megawika
+1.8152226683368038e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document megawika
+1.789149655314284e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document megawika
+1.7690523036477663e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document megawika
+1.8333732213753644e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document megawika
+1.8794105687718654e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document megawika
+1.721841156706417e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document megawika
+2.0612008685724796e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document megawika
+1.9297370681336376e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document megawika
+2.0188440409661018e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document megawika
+5.1741216329695265e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document megawika
+1.3417913926038429e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document megawika
+1.1010813016469651e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document megawika
+1.1252416134320087e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document megawika
+1.2801744104313002e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document megawika
+1.3041514955795817e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document megawika
+1.3428837580879075e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document megawika
+1.320809382267804e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document megawika
+1.3451566676555968e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document megawika
+1.228284926657501e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document megawika
+1.2410599573923043e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document megawika
+1.3815343367377182e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document megawika
+1.3895126265148832e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document megawika
+1.2306773644401741e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document megawika
+1.32981021906281e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document megawika
+1.101337469221607e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document megawika
+1.513094184404692e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document megawika
+1.1073759547073234e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document megawika
+1.2879348765857567e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document megawika
+9.619595770228435e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document megawika
+1.2384340836286436e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document megawika
+1.1766667232211577e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document megawika
+1.2871049236196452e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document megawika
+1.2010645926497744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document megawika
+1.3971428231518597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document megawika
+1.2283733550547932e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document megawika
+1.2659530508255308e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document megawika
+1.551775613074462e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document megawika
+1.1169413343776979e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document megawika
+1.1433700593712463e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document megawika
+4.964773647323492e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document megawika
+1.0995586595687313e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document megawika
+1.2957393071411267e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document megawika
+2.75899247407709e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document megawika
+2.8269344597344854e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document megawika
+2.329108187246831e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document megawika
+2.4231761430460284e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document megawika
+1.2434140512230442e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document megawika
+1.638718338352859e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document megawika
+3.272953556801187e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document megawika
+6.061314500486327e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document megawika
+1.2465979731210292e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document megawika
+1.2737557327967737e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document megawika
+1.038428658075627e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document megawika
+2.61666472045566e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document megawika
+3.6506873212272224e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document megawika
+1.5066359138295701e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document megawika
+1.1166290872121178e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document megawika
+1.5546966228590285e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document megawika
+1.2583434625014828e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document megawika
+1.3398826881300862e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document megawika
+1.2944933160515968e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document megawika
+1.0971437399901365e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document megawika
+1.2787922795775774e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document megawika
+1.404979227816985e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document megawika
+1.3344734431324463e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document megawika
+4.886031157107555e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document megawika
+3.277261443596394e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document megawika
+3.5057957685786495e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document megawika
+3.287625301718589e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document megawika
+3.1370056372668855e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document megawika
+3.186092015785841e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document megawika
+7.271819324142512e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document megawika
+0.001451215788905126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document open-web-math-train
+0.0014486847196258788 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document open-web-math-train
+0.0008861032722895899 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document open-web-math-train
+0.0018119590809459816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document open-web-math-train
+0.0008916937917547129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document open-web-math-train
+6.960128832809415e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document open-web-math-train
+0.002008403651063623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document open-web-math-train
+0.0014374900742131454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document open-web-math-train
+0.00180213596996716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document open-web-math-train
+0.001956178877532413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document open-web-math-train
+0.0008829547017667033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document open-web-math-train
+0.0008910853619157279 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document open-web-math-train
+0.0018260998845299973 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document open-web-math-train
+0.0012499632072059553 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document pes2o
+0.00125398260359913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document pes2o
+0.0012541704774729071 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document pes2o
+0.0012527268234360602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document pes2o
+0.0012532925243737164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document pes2o
+0.0012456396241204315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document pes2o
+0.0012589894424352072 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document pes2o
+0.001508020123999618 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document pes2o
+0.00333096950781965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document pes2o
+0.0033233414614415547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document pes2o
+0.003512387990689828 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document pes2o
+0.0035091382940513126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document pes2o
+0.003514155927147005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document pes2o
+0.003327108000579638 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document pes2o
+0.003329106196589836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document pes2o
+0.003505604148738077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document pes2o
+0.003324825759567855 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document pes2o
+0.0033248240149804913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document pes2o
+0.0033385962112851358 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document pes2o
+0.0035043186296553615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document pes2o
+0.003340469505431529 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document pes2o
+0.0035106889084796276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document pes2o
+0.0033309469281030167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document pes2o
+0.003340337858029757 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document pes2o
+0.003505919861097801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document pes2o
+0.0003882924098240512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document pes2o
+0.0005759963691850877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document reddit
+0.0005959971675332674 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document reddit
+0.0006026179290353799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document reddit
+0.0005824184320784846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document reddit
+0.0005854598548616037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document reddit
+0.0005903767055633473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document reddit
+0.0005930306490982049 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document reddit
+0.000569425602700746 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document reddit
+0.0005675060415179408 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document reddit
+0.0005772431621253389 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document reddit
+0.0005678026053826858 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document reddit
+0.0005700398263483378 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document reddit
+0.0005669467963528824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document reddit
+0.0005701015953324305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document reddit
+0.0005795907287413296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document reddit
+0.0005735602737531164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document reddit
+0.0005749862745842101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document reddit
+0.0005693257015931971 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document reddit
+0.0005716568794795563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document reddit
+0.0005761083919774021 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document reddit
+0.0005688343169797355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document reddit
+0.0005807913190929842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document reddit
+0.0005710229258078636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document reddit
+0.0005704083039826862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document reddit
+0.0005862132348308056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document reddit
+0.0005717662049559556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document reddit
+0.0005858155213694451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document reddit
+0.0005812012281792392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document reddit
+0.0005803981414588498 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document reddit
+0.0005700102108287723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document reddit
+0.0005719243459052329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document reddit
+0.0005867253401661752 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document reddit
+0.0005731087218860733 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document reddit
+0.0005712197789109317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document reddit
+0.0005702376926310089 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document reddit
+0.0005700411527742972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document reddit
+0.0005828090098178196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document reddit
+0.0005770140826168056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document reddit
+0.0005723509664597896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document reddit
+0.0005755499231836962 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document reddit
+0.0005636407438471367 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document reddit
+0.0005640281556500104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document reddit
+0.0005633159058766496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document reddit
+0.0005638034311151449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document reddit
+0.0005630066273073224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document reddit
+0.0005631803831128559 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document reddit
+0.0005631228881679657 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document reddit
+0.0005628178701487633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document reddit
+0.0005624448092256196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document reddit
+0.0005620957024062329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document reddit
+0.0005614201504177484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document reddit
+0.0005616890951464056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document reddit
+0.0005611348559279058 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document reddit
+0.0005604238061828518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document reddit
+0.0005603301490194237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document reddit
+0.0005607291294548833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document reddit
+0.0005605234569930727 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document reddit
+0.0005613778566640694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document reddit
+0.0005610248539992471 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document reddit
+0.0005599977416780475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document reddit
+0.0005603632562116935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document reddit
+0.0005599177479509897 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document reddit
+0.0005595202318298379 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document reddit
+0.0005600975633499175 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document reddit
+0.0005614075491213365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document reddit
+0.000612563885043477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document reddit
+0.0005515469909644413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document reddit
+0.0005526782014946906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document reddit
+0.0005472463408095445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document reddit
+0.0005502284746004587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document reddit
+0.0005414514790555363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document reddit
+0.0005513499500134784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document reddit
+0.0005391391454105187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document reddit
+0.0005415836910001838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document reddit
+0.0005208132468536551 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document reddit
+0.0005889827143132871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document reddit
+0.0005822520817765276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document reddit
+0.0004173155230758696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document reddit
+0.0009994361338078242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document stackexchange
+0.001087156194657966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document stackexchange
+0.0010667737163656816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document stackexchange
+0.0009602877882124873 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document stackexchange
+0.0008968956271971105 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document stackexchange
+0.0009198034843762967 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document stackexchange
+0.0009423901016715341 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document stackexchange
+0.0009674094553686345 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document stackexchange
+0.0009858331322519164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document stackexchange
+0.0009970593645879198 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document stackexchange
+0.0010027035193731686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document stackexchange
+0.0010128291154221853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document stackexchange
+0.0010215631382631918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document stackexchange
+0.0010288663771461238 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document stackexchange
+0.0010346219929285867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document stackexchange
+0.00104544019940344 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document stackexchange
+0.0010525172676724333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document stackexchange
+0.0010609529620775127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document stackexchange
+0.0010725892748610153 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document stackexchange
+0.0010818563598181568 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document stackexchange
+0.0010992760196793917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document stackexchange
+0.0011178992762079917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document stackexchange
+0.001124687532085676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document stackexchange
+0.001118303661267191 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document stackexchange
+0.0010206825575416534 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document stackexchange
+0.0005512280117499715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document stackexchange
+0.004474659408857016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document starcoder
+0.00409944473890653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document starcoder
+0.005137179939941845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document starcoder
+0.005143172251066109 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document starcoder
+0.005206134363352808 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document starcoder
+0.004892747858974329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document starcoder
+0.004844731352552902 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document starcoder
+0.005308320169123755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document starcoder
+0.005124709815666577 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document starcoder
+0.005424710744483826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document starcoder
+0.00538244648861977 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document starcoder
+0.0029107284679086853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document starcoder
+0.0026825258998444705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document starcoder
+0.0026904503191419243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document starcoder
+0.002687906577174073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document starcoder
+0.002850165346048818 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document starcoder
+0.005322698571717847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document starcoder
+0.004450334290869719 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document starcoder
+0.004700990083440683 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document starcoder
+0.003903568556500995 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document starcoder
+0.00390561515396931 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document starcoder
+0.0039046402900912262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document starcoder
+0.003907454839379547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document starcoder
+0.0038583224578603824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document starcoder
+0.0037914116657695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document starcoder
+0.003786665266798682 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document starcoder
+0.003792000802430658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document starcoder
+0.00319266847466091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document starcoder
+0.0032658716699838944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document starcoder
+0.0034801959532460023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document starcoder
+0.0028307012092022594 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document starcoder
+0.0028420360878146276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document starcoder
+0.0028410455248484914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document starcoder
+0.00283497183526842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document starcoder
+0.002840187195459487 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document starcoder
+0.0028398709431369834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document starcoder
+0.004364722843422023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document starcoder
+0.004093255713117101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document starcoder
+0.004092331079566252 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document starcoder
+0.004005326985579649 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document starcoder
+0.0036205502856964207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document starcoder
+0.003625316793034984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document starcoder
+0.003604743435602363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document starcoder
+0.0035405823343673125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document starcoder
+0.0041601413517253945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document starcoder
+0.005886303658937057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document starcoder
+0.003600909532810332 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document starcoder
+0.0034941365817168658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document starcoder
+0.0004992164842980224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document starcoder
+0.00032927705604725614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document tulu
+0.0002860154190878753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document tulu
+0.0002845217585425619 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document tulu
+0.0002743528685497456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document tulu
+0.00026025323737738766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document tulu
+0.00023493876414603155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document tulu
+0.00029665994994226705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document tulu
+0.00031808102075993956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document tulu
+0.00031813573046011285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document tulu
+0.0002711905171855542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document tulu
+0.00028892513401817095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document tulu
+0.00030003908676979083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document tulu
+0.00026839878771944684 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document tulu
+0.00029155935002690497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document tulu
+0.0002998624927624209 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document tulu
+0.0003091705447974841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document tulu
+0.00026873195794309786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document tulu
+0.00027721873498527547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document tulu
+0.0002841662554024377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document tulu
+0.0002839461156551537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document tulu
+0.0002861705604659811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document tulu
+0.0002460995649635886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document tulu
+0.00019420142619795496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document tulu
+0.00021967677816173628 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document tulu
+0.0002620283200480949 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document tulu
+0.0002433390542188936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document tulu
+0.00021254976608350767 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document tulu
+0.00022094815569522115 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document tulu
+0.000342862378668244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document tulu
+0.00033784225259118157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document tulu
+0.0003367278459543952 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document tulu
+0.00029843279042852765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document tulu
+0.0002926583661257988 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document tulu
+0.00029320337282010673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document tulu
+0.00029281450669483455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document tulu
+0.0002915338187002653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document tulu
+0.0002864226923084572 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document tulu
+0.00028643439083586396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document tulu
+0.00028253710956299054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document tulu
+0.0002810856078805806 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document tulu
+0.00031474941344656715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document tulu
+0.0002139130222205655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document tulu
+0.0003084648871862831 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document tulu
+0.0003309477872140129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document tulu
+0.0003360096824695161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document tulu
+0.0003355452655196557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document tulu
+0.00038119390366386037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document tulu
+0.00038078927630086064 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document tulu
+0.0003386200917551554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document tulu
+0.0002158905159938882 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document tulu
+0.00021621682877018768 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document tulu
+0.00021553306942740535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document tulu
+0.00021581563462722296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document tulu
+0.0002157694110556169 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document tulu
+0.000215643699847159 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document tulu
+0.00021532716715168094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document tulu
+0.00021531221326022472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document tulu
+0.0002831801179028896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document tulu
+0.0002514844936507595 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document tulu
+0.00031638782778107964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document tulu
+0.0002749197545278445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document tulu
+0.00026159721512464495 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document tulu
+0.0002630052420096968 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document tulu
+0.00031106811228913666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document tulu
+0.0002852973415334161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document tulu
+3.7555372465932136e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document tulu
+0.003548077173506675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document wiki
+0.0018372203137874265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document wiki
diff --git a/ALCF/data-lists/aurora/dolma_v1_7_file_list.txt b/ALCF/data-lists/aurora/dolma_v1_7_file_list.txt
new file mode 100644
index 00000000000..2cc52b55f60
--- /dev/null
+++ b/ALCF/data-lists/aurora/dolma_v1_7_file_list.txt
@@ -0,0 +1,2419 @@
+0.0018520780893211373 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document
+0.0017591050606817512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document
+0.001459052794333798 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document
+0.0007405667281569194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document
+0.00019420030110896795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document
+0.0009008668715801845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document
+0.00015115827957143057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document
+0.0014552844319220648 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document
+0.0012469861325685161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document
+0.00136412011372413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document
+0.0007064279699221103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document
+0.0008472240000687427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document
+0.0001984375713341955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document
+0.0005472773881697123 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document
+0.001815779629850992 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document
+0.0018313600689757324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document
+0.0002583902668716813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document
+0.0002646575141232155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document
+0.0003165521247456758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document
+0.0002920706460176214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document
+0.00028396813182810215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document
+0.00030445161883108107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document
+0.00031628781276576474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document
+0.0003083776568189157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document
+0.0003176359471472902 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document
+0.0002536009369131698 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document
+0.0003067491424681363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document
+0.0002597217257557784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document
+0.0003788556450109768 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document
+0.0002796563272052598 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document
+0.00033573826524290287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document
+0.00030523658022800287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document
+0.00032211552192240096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document
+0.0003329295675164247 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document
+0.0003101982186639862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document
+0.00032361798234223355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document
+0.0003495541581652915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document
+0.0002821637448858042 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document
+0.00030399523537629673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document
+0.0002955658968247219 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document
+0.00028942158502924254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document
+0.00028769546171490733 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document
+0.0002938111057234182 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document
+0.0002711150403010948 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document
+0.00031130095874747565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document
+0.0003002996118160777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document
+0.0003732757901604459 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document
+0.00026784205751795894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document
+0.0002799626521661984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document
+0.00034334276069078164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document
+0.0003582469803674965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document
+0.00031094844818418623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document
+0.0002766228384977191 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document
+0.00030297116159471485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document
+0.00027033888377464685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document
+0.00030090862368377933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document
+0.00028543875802490955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document
+0.00027559768459074204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document
+0.0003182185533962886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document
+0.0003311392971435837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document
+0.00028751652060804325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document
+0.000303466863212589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document
+0.00033400462801277524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document
+0.0002589234031777426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document
+0.0002913508598466723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document
+0.0002670572450004856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document
+0.00032027399105647656 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document
+0.00032188376258379377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document
+0.0003161585784100882 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document
+0.0003184249182974135 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document
+0.00030381336664000807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document
+0.0003190437442184283 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document
+0.0002537961798200545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document
+0.0003017817117223326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document
+0.00028685268513240224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document
+0.00031265179094451165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document
+0.00034708319096986816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document
+0.00026650837943080664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document
+0.00034588832248507335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document
+0.0002416982248399037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document
+0.0003089296918222243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document
+0.00029137184185700827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document
+0.00026464226846800774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document
+0.00030545397919456627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document
+0.0003206778460448875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document
+0.00030968971641110967 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document
+0.00023325653928600864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document
+0.00030526899198338555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document
+0.00035376719076633584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document
+0.000290224385981026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document
+0.000294650083382008 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document
+0.00028768858128616436 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document
+0.00030856965235527843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document
+0.00030579942447879054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document
+0.0002863101084704357 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document
+0.0002870032092492213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document
+0.000264182727569885 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document
+0.0002974012367036449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document
+0.00032238412143059203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document
+0.00031683716893819036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document
+0.00031157434937617524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document
+0.0003411742735695989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document
+0.00026778444816570715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document
+0.0003037045797275201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document
+0.00027746114370081314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document
+0.00027148285946862043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document
+0.00028042950114678207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document
+0.0003235607816590721 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document
+0.0003086692227306295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document
+0.00033990349455148105 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document
+0.00030945053208470265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document
+0.00027309074552265303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document
+0.00028737393506316194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document
+0.0003098868328009879 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document
+0.0002614229162588409 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document
+0.0002884388407820923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document
+0.0031025147279277244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document
+0.003102019887362634 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document
+0.0009996745994661548 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document
+0.0002406272620255565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document
+0.0002404825539493424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document
+0.00024062296575435581 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document
+0.00024069315766818953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document
+0.00024055829162263452 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document
+0.00024062053397343032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document
+0.0002410715545206964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document
+0.00024024881846087368 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document
+0.0002407074700790688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document
+0.00024072141428809043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document
+0.00024027710230872736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document
+0.0002409111299205489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document
+0.00024081954058275009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document
+0.00024086076794990912 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document
+0.00024098672620832446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document
+0.00024068622303333862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document
+0.00024140627024291824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document
+0.0002414512033594384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document
+0.00024028742594941463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document
+0.00024018036089269645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document
+0.0002398347365034979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document
+0.00024006780153485276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document
+0.00024015620270419213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document
+0.0002408848259695227 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document
+0.0002408023185278831 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document
+0.00024021196580140326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document
+0.00024077677271297493 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document
+0.00024087392454668027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document
+0.0002408071293824126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document
+0.00024042223828845715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document
+0.0002411484752360495 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document
+0.00023605263746465907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document
+0.00023471222158326908 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document
+0.00023432138580287644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document
+0.00023407385623382327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document
+0.00023487504174367091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document
+0.0002341843704976313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document
+0.00023421993170282486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document
+0.00023445057969132037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document
+0.0002337681680073047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document
+0.000234627964808109 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document
+0.0002338942211888584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document
+0.00023403849286843386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document
+0.00023405641310796305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document
+0.00023349169562397965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document
+0.00023381157386048856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document
+0.00023388742993790587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document
+0.00023363103829469813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document
+0.00023421141834630477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document
+0.00023420564352232565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document
+0.00023367463699173143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document
+0.00023344969163567033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document
+0.00023372196941547188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document
+0.00023399207645297834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document
+0.00023357915605505856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document
+0.00023337585642190864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document
+0.00023385005470157914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document
+0.00023301533534493465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document
+0.00023377864302541782 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document
+0.00023323745848621437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document
+0.0002330594611151835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document
+0.0002334149675026783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document
+0.00023198945902291534 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document
+0.00023023784834634142 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document
+0.00022985623060187217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document
+0.0002292605284569516 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document
+0.00022926593333048894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document
+0.00022922766406807777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document
+0.00022898153911167426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document
+0.0002292473111593315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document
+0.000228804579400424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document
+0.00022865485613513526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document
+0.00022937426835887895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document
+0.00022917388311587372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document
+0.0002291660582019043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document
+0.00022907895248360543 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document
+0.0002294617879920205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document
+0.0002290452150516566 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document
+0.00022943405619715553 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document
+0.0002296271421006204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document
+0.00022854791372910372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document
+0.00022923123467686557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document
+0.00022852404355738494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document
+0.00022847798660086642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document
+0.0002289604586810316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document
+0.00022835479834950643 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document
+0.0002289149402884243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document
+0.00022806655474763446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document
+0.00022826296420992974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document
+0.00022906829636213627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document
+0.0002287628414466998 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document
+0.0002282673911253445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document
+0.00022869309841939134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document
+0.0002281540116815451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document
+0.0002259755756162738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document
+0.00022562331285233504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document
+0.0002259061146106053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document
+0.00022567670836663787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document
+0.00022573165387587061 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document
+0.00022508514961670572 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document
+0.00022564642513773356 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document
+0.00022563088621998788 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document
+0.0002250438755373707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document
+0.00022524465346241134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document
+0.00022531737657666812 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document
+0.00022444687519363458 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document
+0.00022460397498596298 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document
+0.00022454218976501763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document
+0.00022447528843671366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document
+0.00022501666332178926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document
+0.00022453752304377972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document
+0.00022484451871163002 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document
+0.00022465678847154914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document
+0.00022453180917044732 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document
+0.0002247278486823009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document
+0.00022465794828242097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document
+0.00022431000701925386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document
+0.00022476020248460963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document
+0.00022467531771795015 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document
+0.0002236391309945234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document
+0.00022458764920536007 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document
+0.00022430877426744415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document
+0.0002247047786127192 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document
+0.0002245298090400035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document
+0.0002245648831396188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document
+0.00022292894729820784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document
+0.00022236668082957533 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document
+0.0002217622659895442 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document
+0.00022252452726732609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document
+0.00022135333211363678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document
+0.0002214571757787971 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document
+0.0002217188139237798 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document
+0.00022144214894640303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document
+0.00022100172806631854 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document
+0.00022156392409199052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document
+0.00022134830143710272 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document
+0.00022158598922529453 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document
+0.00022142932483041377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document
+0.00022120980907786554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document
+0.00022117917738112441 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document
+0.00022077089397851235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document
+0.00022093265074996711 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document
+0.00022091299741377004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document
+0.0002205849150703338 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document
+0.0002210648204787979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document
+0.0002214235747364102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document
+0.00022083907302221787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document
+0.0002206334237915964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document
+0.00022065193929912214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document
+0.00022079775597767288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document
+0.00022091492909963518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document
+0.00022095009987097293 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document
+0.0002208150577180165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document
+0.00022085759102772088 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document
+0.00022073789170129016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document
+0.00022049322781182384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document
+0.00022083270617761285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document
+0.00021982452827473632 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document
+0.00021899870446514259 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document
+0.00021890358773356361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document
+0.00021875556609042841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document
+0.00021861195987201226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document
+0.00021856782186167455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document
+0.00021912837771543515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document
+0.00021900213768517756 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document
+0.00021871675851390374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document
+0.0002180537056545586 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document
+0.0002188196714327129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document
+0.00021851362624523464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document
+0.0002183236795498736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document
+7.291153618675672e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document
+0.0003742481815405742 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document
+0.00038204855962733055 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document
+0.00038821818392663593 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document
+0.00038723332988783727 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document
+0.00038916141142149904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document
+0.00038049542523949033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document
+0.0003854755539534284 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document
+0.00024202756466512517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document
+0.0003915405155008087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document
+0.0003927382151931033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document
+0.0003839151202260479 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document
+0.00040006817468967907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document
+0.00040318965964443476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document
+0.0003831013019452741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document
+0.00039166638383204036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document
+0.00039962784023961004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document
+0.00039536707853602614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document
+0.0004204304698247758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document
+0.00041538899178693555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document
+0.00039186953333675306 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document
+0.00038945837196504305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document
+0.0003919951238929062 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document
+0.00044377065718528966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document
+0.0004407759068603017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document
+0.0002487811895843715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document
+0.00039349432045556636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document
+0.00041223198559462343 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document
+0.0004036573014830213 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document
+0.0003825982215521807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document
+0.00040386867133151386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document
+0.00024460575279105167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document
+0.000269029789531335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document
+0.0003573757493252864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document
+0.0004600876681392076 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document
+0.0002605354166397086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document
+0.0003882502452157999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document
+0.0002466747612126512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document
+0.0004024726105072402 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document
+0.00040820631128483644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document
+0.0002691094350403538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document
+0.00026916830387277267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document
+0.0004204663297880574 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document
+0.00042379698687085554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document
+0.0004502169227311871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document
+0.0002661708937015295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document
+0.00031239486948031334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document
+0.0003109054589936201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document
+0.00045873053079760646 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document
+0.00022904931423244635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document
+0.0003813462028433663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document
+0.00039188129256500874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document
+0.00045124222276983765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document
+0.00048138658436853695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document
+0.0003944178776279866 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document
+0.00039941569676754006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document
+0.00037952761190240494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document
+0.0003944870860881476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document
+0.0003891842411856621 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document
+0.000387688981934861 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document
+0.00039197953876258005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document
+0.00039007915280311206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document
+0.0003995520363699188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document
+0.00039230985654592406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document
+0.0003929472067173851 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document
+0.0003924096172671473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document
+0.0003881636143629905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document
+0.000389790617937084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document
+0.00037351762309221023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document
+0.0003630196170929407 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document
+0.00033532465765142113 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document
+0.0003076088685761823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document
+0.00039463850897720803 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document
+0.0002843816115231449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document
+0.0002909175709416474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document
+0.00028867170997202486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document
+0.0002838644617723659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document
+0.00029027869525543416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document
+0.0002821339567560056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document
+0.0002922988877045601 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document
+0.0002866955958315786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document
+0.0002865271754558126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document
+0.0002861247475618473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document
+0.0002826681072408606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document
+0.0002849746458282827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document
+0.0002816966633435316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document
+0.00026255342235948463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document
+0.0002552895098829678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document
+0.00025990194083107813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document
+0.0002524062657685835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document
+0.0002538577379748611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document
+0.0002561415177406761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document
+0.00026206253059694905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document
+0.00026168095406910565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document
+0.0002601305742008613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document
+0.00025200823006814814 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document
+0.0003229951981263502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document
+0.00037289448266476045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document
+0.0003807825862179898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document
+0.0003616333738191483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document
+0.0003665117918907636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document
+0.0003684186453633228 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document
+0.0003589330610806066 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document
+0.00036383861418030395 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document
+0.000359841363355303 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document
+0.00036431044063050464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document
+0.0003668574090358279 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document
+0.000362768263620199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document
+0.0003501888032771077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document
+0.000352401968221528 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document
+0.0003541019701869794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document
+0.0003628121865546891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document
+0.0003752582953758773 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document
+0.00037902046230424966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document
+0.0003777927146925147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document
+0.0003760676130509053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document
+0.00034046049078755405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document
+0.0003338847563259091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document
+0.00033294499102761794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document
+0.0004912026198265864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document
+0.00032064363474664014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document
+0.00032154190389541214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document
+0.00032309660151746207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document
+0.00031181143365304544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document
+0.00031046092294569104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document
+0.00031150165249068046 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document
+0.0003041314265988224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document
+0.0003024834909739394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document
+0.0003019936835833604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document
+0.000292329665283177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document
+0.0002867061143144972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document
+0.00028443615610701707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document
+0.00028462291013755945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document
+0.0002793538601205013 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document
+0.00027306573977044246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document
+0.00027097155673336525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document
+0.0002752934202112985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document
+0.00043042012694697647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document
+0.00047495648822986177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document
+0.00047755032493473855 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document
+0.0004706974343933747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document
+0.00046682163297771817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document
+0.0004616765425874178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document
+0.00030644496751628097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document
+0.0002909492555358308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document
+0.00027272036068261724 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document
+0.0004101070217315588 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document
+0.0003728914338834357 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document
+0.00036546911442305647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document
+0.0003669945482407483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document
+0.0003715902407424017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document
+0.00035837486406683366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document
+0.0003573318538685469 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document
+0.0003553784893071916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document
+0.0004920659809912352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document
+0.0004533619411303183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document
+0.00045067066057818706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document
+0.00044396985139270645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document
+0.00043198288204468477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document
+0.00043005174223738454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document
+0.00041847118430776784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document
+0.00042952036375796664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document
+0.00043420594647324267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document
+0.0003461123241053012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document
+0.0003408581597849182 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document
+0.00033172705422182547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document
+0.0003392566490686136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document
+0.00033578341518385483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document
+0.0003439196710518844 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document
+0.00034559163447085543 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document
+0.00033762478642902825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document
+0.00033215210055107224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document
+0.00033423579608014966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document
+0.0004963355016025102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document
+0.0004996862761456923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document
+0.0005000551829325451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document
+0.0005004212610098755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document
+0.00027768695585500585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document
+0.00028395983854338433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document
+0.00027835826303062254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document
+0.0002740073176010804 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document
+0.0002791830529274016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document
+0.0002796863816194411 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document
+0.00026697453022672804 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document
+0.0002594197440280141 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document
+0.0003779565697649222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document
+0.00041835823476586606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document
+0.00043788493575265915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document
+0.0002731731970096006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document
+0.000276305847423402 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document
+0.0002704955773958623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document
+0.0002629635944827518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document
+0.000260070956974436 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document
+0.00025661553791456334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document
+0.00025794727207576157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document
+0.00025295733980001527 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document
+0.0003788106407021029 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document
+0.0004882344027669431 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document
+0.0003275324309642705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document
+0.0004803401856640094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document
+0.00046720138323433943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document
+0.00043527810307095335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document
+0.00043905395741627827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document
+0.00048774175867331425 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document
+0.00048380704121346737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document
+0.0004779011848346118 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document
+0.00046255587581908036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document
+0.00045127922880511576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document
+0.0004503891485256095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document
+0.0004450142332303422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document
+0.00044630282482516654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document
+0.00044325014465743616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document
+0.0004263874842796447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document
+0.0004217530913646938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document
+0.000415120314341852 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document
+0.00040987168279144537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document
+0.00033468337266607834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document
+0.0003353094464683005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document
+0.0004833936821707294 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document
+0.00047194878988920935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document
+0.0004648324126996427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document
+0.0004562345003964941 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document
+0.0004933203505465098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document
+0.0003530166075325466 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document
+0.00035368548192804685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document
+0.0004872620828289663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document
+0.00048293889392426456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document
+0.00047936768462267655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document
+0.00047821013991587545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document
+0.0004660610308564753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document
+0.000394683430103437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document
+0.00039165053441571324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document
+0.0003906936040164381 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document
+0.00038074803919159006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document
+0.0003686529291578143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document
+0.00035832920428870976 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document
+0.00035929024535947033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document
+0.0003538226556050544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document
+0.0003584167868708799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document
+0.0003480507542594234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document
+0.0003413709023543034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document
+0.00034001304759361455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document
+0.00033430532902756514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document
+0.00046519252660631277 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document
+0.0002938876402514769 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document
+0.00028676090994509047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document
+0.00027296150117506716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document
+0.00026513502621960483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document
+0.0002680081327926125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document
+0.00025831225828720344 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document
+0.00026647037295561 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document
+0.0002525733734572654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document
+0.00025831708887575375 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document
+0.00042487627444443476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document
+0.0004951213245023891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document
+0.0004804051413177752 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document
+0.0004662397611340532 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document
+0.0004550138655253933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document
+0.00044494909122746795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document
+0.0002899112253051385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document
+0.0004372879736279761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document
+0.0004529568099252922 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document
+0.00045127826158829573 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document
+0.0004436558176737439 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document
+0.0004419233237678378 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document
+0.000434589215880319 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document
+0.00029153613207706566 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document
+0.0004312458058738854 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document
+0.00028741854968757313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document
+0.00046853200754421234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document
+0.0004949145252030074 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document
+0.00044459683920483167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document
+0.0003836095306696336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document
+0.0003789760237872398 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document
+0.0003749227438304427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document
+0.0003628558277173369 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document
+0.00039468301394041474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document
+0.00038874701821614864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document
+0.0004158492456077867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document
+0.00042360504554060077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document
+0.00040386729844317623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document
+0.00027595096702902474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document
+0.00043638766787829135 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document
+0.0002218691596850179 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document
+0.0004437566108089954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document
+0.0003889996411609667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document
+0.00043454421906537704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document
+0.0004522564392830988 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document
+0.00041517835659357416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document
+0.0002614360863446896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document
+0.00037543522111463596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document
+0.0004386190133514781 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document
+0.00046358333286115075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document
+0.00043186261317942404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document
+0.0002377581602097957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document
+0.00025973334085074254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document
+0.00040139099332000796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document
+0.00043674860686687174 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document
+0.00040853289309329373 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document
+0.000242910191729688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document
+0.0004431071731750582 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document
+0.0004388092670482523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document
+0.000381418866255965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document
+0.0004100117296419717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document
+0.00042469230366022745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document
+0.00041744151905374254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document
+0.00022835699906752945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document
+0.0004380161085387397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document
+0.00044803212381807456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document
+0.00040554932796137236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document
+0.0004234508646347761 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document
+0.00043341209652360653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document
+0.00023966604734537185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document
+0.000259165907316014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document
+0.0004270653021833602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document
+0.0004341547032162028 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document
+0.0004111478117275994 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document
+0.0004299383567984396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document
+0.0004241899124590779 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document
+0.0004502719349364145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document
+0.00038994621469645615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document
+0.0003859912398894952 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document
+0.0004247535950310557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document
+0.000386982084327716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document
+0.0004196451040053251 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document
+0.0004096278509782259 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document
+0.0004373334932695721 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document
+0.0004180889975240641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document
+0.00042079636929672745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document
+0.00038063574611812913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document
+0.0003817505891515542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document
+0.0004420096268860222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document
+0.00039182670726410623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document
+0.0003635667850372299 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document
+0.00041564996472055667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document
+0.000400529358757286 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document
+0.0003939113874958451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document
+0.00039066622068940996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document
+0.0004290098538807143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document
+0.0004240739958197099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document
+0.00040775392659215333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document
+0.0004091634200396925 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document
+0.00042299190476617914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document
+0.0003701492680344151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document
+0.0003807353844384635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document
+0.00038813507771983156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document
+0.00040072346558408346 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document
+0.0003603595180423597 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document
+0.00038799421353112465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document
+0.00037575235582264926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document
+0.0004239190342959713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document
+0.0004606044799136546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document
+0.00045107950652529253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document
+0.0004391947201871058 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document
+0.0004457516661123035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document
+0.0004301297170991686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document
+0.00044661704164586694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document
+0.0004438849846114837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document
+0.0004444205734316823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document
+0.0004190924165303394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document
+0.00043942581131677875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document
+0.00021568459798090663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document
+0.0003814929225407199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document
+0.0003217453179359235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document
+0.00031719591470267974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document
+0.00032434115726922137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document
+0.0004079911120371051 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document
+0.000329492766381148 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document
+0.0003845916162001633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document
+0.0003835208964390098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document
+0.00037847334157173194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document
+0.00038296039903791865 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document
+0.00037896336828472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document
+0.00037620974396391355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document
+0.00037420590727111843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document
+0.000340490625886403 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document
+0.0003078314411035827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document
+0.00034153990750656097 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document
+0.0003308858103982067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document
+0.0003452640607156025 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document
+0.00033095276418403455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document
+0.0003116308995860414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document
+0.00032446713226408477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document
+0.0003015816821912984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document
+0.00031612418775706894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document
+0.0003278516344971041 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document
+0.00033079446736097217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document
+0.00032278977146550837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document
+0.00032065272988207914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document
+0.0003936696452406576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document
+0.0003450109536627789 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document
+0.0003339787189919641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document
+0.0003284303856176974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document
+0.00033652677276843477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document
+0.0003257822443845694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document
+0.0003293985569149334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document
+0.0003310360260148262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document
+0.0003233770986418526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document
+0.0003172280092149422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document
+0.0003160674744292835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document
+0.00030931090289598506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document
+0.0003093173886443107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document
+0.00033167847081104083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document
+0.00031131501311729723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document
+0.00031046608876279845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document
+0.00030569235942207244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document
+0.00030777943671285197 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document
+0.00029303314290956683 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document
+0.0003045824546400205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document
+0.00030360880677729793 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document
+0.00031646239964835433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document
+0.0003129122300603785 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document
+0.00031060464956661433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document
+0.000311819032500067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document
+0.0002977872483902282 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document
+0.0003009448600922438 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document
+0.00028610292098537774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document
+0.0002988326876216654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document
+0.00028550828372819075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document
+0.0002830381750875739 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document
+0.0002848495855927156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document
+0.0002856443760308144 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document
+0.00027442895344188584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document
+0.0002681160554049462 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document
+0.0003421482544126989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document
+0.0004005872948449718 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document
+0.0003930123959320308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document
+0.0003867271832275778 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document
+0.000380805140455254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document
+0.0003814769861947819 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document
+0.00038025170883282324 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document
+0.0003738026647867475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document
+0.00018960856915036276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document
+0.0003697177501953134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document
+0.00036674194328136693 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document
+0.00036447406838697555 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document
+0.00036686410861101255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document
+0.00035915267825103423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document
+0.0003624758404026675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document
+0.0002822812140180794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document
+0.00030620512946920813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document
+0.000294249776520589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document
+0.00030238536967523434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document
+0.00029509593361580754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document
+0.0002906912701830899 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document
+0.0002921944165474959 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document
+0.00028358919691127954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document
+0.0002813182772323272 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document
+0.00027442640800299205 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document
+0.0002747820342933984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document
+0.0002747584403979717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document
+0.00027499129634862444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document
+0.0002712050404257197 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document
+0.0002616256943143254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document
+0.00026769938929002815 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document
+0.00038396081322727017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document
+0.0003863140490027991 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document
+0.00037702277513203237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document
+0.0003633274156107032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document
+0.0003587473889240435 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document
+0.0003507672084278415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document
+0.00033776425499780385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document
+0.0003377914127574796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document
+0.00032948015659161326 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document
+0.00033245638541392985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document
+0.00031080707640648695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document
+0.0002976903331149755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document
+0.0002965121463725523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document
+0.0002933849695266647 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document
+0.0002837035078508233 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document
+0.00028684569079589323 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document
+0.0003145192320802359 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document
+0.0003566937253273515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document
+0.0003470199109592918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document
+0.0003060245312041868 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document
+0.0002650817213818789 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document
+0.0002643604938780134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document
+0.000299350876031416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document
+0.0003178540797697938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document
+0.000271850367887767 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document
+0.00031349896596549 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document
+0.00031749734412765755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document
+0.0003791137842391209 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document
+0.0003742334169957992 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document
+0.0003705639757351107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document
+0.0003126986769797042 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document
+0.00031038132814561196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document
+0.00036464437173804883 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document
+0.0003569480488951322 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document
+0.0003541239221619106 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document
+0.00035315297411308053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document
+0.0003572451925404141 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document
+0.0003514986129411253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document
+0.0003521798298425866 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document
+0.00034553677439244716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document
+0.000349004719809412 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document
+0.0003468247484872769 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document
+0.0003465822608356558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document
+0.00035410983132162007 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document
+0.0003487908354969444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document
+0.0003479024763238147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document
+0.000341412530646823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document
+0.00034451316273667034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document
+0.0002618849993484869 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document
+0.00026788679978901144 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document
+0.00027450670773227214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document
+0.0002661273129899329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document
+0.00026836569676402957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document
+0.00026155876975483236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document
+0.0002609276830117151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document
+0.0002644161630512771 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document
+0.00036789208972872557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document
+0.00037829849439990513 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document
+0.0003788894943523098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document
+0.0003617207777959397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document
+0.0002541334487248998 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document
+0.0002707945538071073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document
+0.00027046282716455214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document
+0.0002652443167243215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document
+0.0002685859923850986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document
+0.00025734961751176414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document
+0.000259041720872915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document
+0.00025340107274823446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document
+0.00025757135121837893 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document
+0.00025617700500574084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document
+0.0002566931670562857 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document
+0.0002543871190716101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document
+0.00024997565589481713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document
+0.0002954079779456287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document
+0.00034890741135252835 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document
+0.0003473298137731525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document
+0.0003296959618486435 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document
+0.0003304520061604598 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document
+0.00032377956175729824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document
+0.00031700696295168713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document
+0.0003060382346081943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document
+0.0003012003005056863 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document
+0.0002981074073993884 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document
+0.0002922128825950705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document
+0.000348901087722931 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document
+0.0003408286289467841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document
+0.0003410649680770183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document
+0.0003358524215576502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document
+0.0003343661874989231 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document
+0.00032810573699389156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document
+0.00032261449539097497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document
+0.0003162694866049203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document
+0.0003158381156468853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document
+0.000317376061083603 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document
+0.0003125788639953052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document
+0.0003010105041885602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document
+0.0003065865059090678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document
+0.0003084275726508053 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document
+0.00030966560718296085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document
+0.0002957728057853081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document
+0.00029904164542325336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document
+0.0002955358888729187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document
+0.00028692976446931544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document
+0.0002923476214935797 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document
+0.0002893691697212419 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document
+0.0002855895211981585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document
+0.00027968347097626246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document
+0.0002810783462604979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document
+0.00027794080455729715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document
+0.00034784376461416953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document
+0.0003488347959010943 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document
+0.00034790583710250724 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document
+0.000345913166618151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document
+0.00033801936268066675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document
+0.0003290591130212315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document
+0.00034051399521366823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document
+0.00032470943131841784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document
+0.00031679540050914276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document
+0.00031814596342422325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document
+0.0003156466289485036 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document
+0.00029985010879003633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document
+0.0002905176377776361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document
+0.0004206836775460856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document
+0.00020660449162246918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document
+0.0003461727254468087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document
+0.00020592870907067763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document
+0.00034173505299233005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document
+0.0004052437256652738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document
+0.0004080650901351697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document
+0.00039778184149144276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document
+0.00039046311464950275 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document
+0.00039043444911071384 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document
+0.000388575704932843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document
+0.00019737533145666597 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document
+0.00037610755595812403 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document
+0.00037315400127598317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document
+0.00037415028580922163 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document
+0.00036694041707212337 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document
+0.00018947219857306515 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document
+0.00037046050826533545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document
+0.0003587440768559087 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document
+0.00034623936498708903 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document
+0.0003502289592617922 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document
+0.00034692398063649823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document
+0.000339340809421849 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document
+0.0003360510394816983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document
+0.0003354673850814145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document
+0.00032937682875877047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document
+0.00032844505049317715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document
+0.00028287199339908627 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document
+0.0002795217197003578 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document
+0.00028048955601883463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document
+0.0002769326396439027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document
+0.0002727090021299243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document
+0.0002726577841024554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document
+0.00026663619593455374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document
+0.00026068042672138127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document
+0.0002637704114326801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document
+0.0002593043567100412 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document
+0.0002599897110113453 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document
+0.0002435078682758859 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document
+0.0002450530071379054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document
+0.00024233331983743606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document
+0.0002934750947999535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document
+0.00033241226364044474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document
+0.00032938406090272075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document
+0.00032778705403953246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document
+0.00032184551480398754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document
+0.00031874002264945737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document
+0.0003165319685666433 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document
+0.00031307071173376295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document
+0.00031119524184911957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document
+0.0003102253344576429 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document
+0.0003088976240383192 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document
+0.0002951410823077708 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document
+0.00029772657676757413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document
+0.0003056048989909935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document
+0.00031991305381648026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document
+0.00030890256978362426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document
+0.0003109382904091933 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document
+0.00031035798529690644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document
+0.00030741666395911753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document
+0.0002989918594861846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document
+0.00029569635443989434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document
+0.0002973992445667285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document
+0.000293397351001072 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document
+0.00028737817438047954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document
+0.00028252738144009747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document
+0.0002805511898623541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document
+0.0003718020784620472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document
+0.0003499713845765235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document
+0.00034283547445326676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document
+0.00031464759888838765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document
+0.00033188946446414833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document
+0.000326084432195463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document
+0.0003764568303917893 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document
+0.0003604955598858414 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document
+0.0003655654554133222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document
+0.00035762304033750504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document
+0.00038478883950347103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document
+0.00027735714341247454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document
+0.00028139534607773563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document
+0.00019777292251713763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document
+0.000285571704874486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document
+0.00028543482146244363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document
+0.00019434234484256758 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document
+0.00027854908176986763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document
+0.0002847068039566143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document
+0.00028672356943064853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document
+0.00027782687605808177 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document
+0.0002843539634105203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document
+0.0002894748379090401 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document
+0.0002868852440186493 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document
+0.0002818504885373851 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document
+0.00028680112812941034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document
+0.00019258978168723977 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document
+0.00028760637934715155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document
+0.0002820439443912918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document
+0.0002831001054410018 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document
+0.00029001901552467397 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document
+0.00027779449377883156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document
+0.00019949837437516796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document
+0.0002907306472984446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document
+0.00027814858381318327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document
+0.00019472790889161432 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document
+0.00020472626596924125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document
+0.0002870045081974301 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document
+0.00019812241927078482 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document
+0.0002817553333369554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document
+0.00027829782796642117 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document
+0.00028289431732284113 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document
+0.0002795526296717729 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document
+0.00027682829988044574 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document
+0.0002895432402719184 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document
+0.0002823174903941811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document
+0.00028170972351837796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document
+0.00027807915877838826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document
+0.00028588515681452956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document
+0.00028112324090816726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document
+0.00020636178289985485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document
+0.00019447255290980535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document
+0.0002850824220591452 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document
+0.00027856429520116784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document
+0.0002820880676635633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document
+0.00028943902215995714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document
+0.0002676366291085329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document
+0.00023806333809954687 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document
+0.00024526460430233455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document
+0.00023876876664622726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document
+0.00023379770334179805 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document
+0.00024175151269138382 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document
+0.00023386583242595706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document
+0.00023771797150160827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document
+0.0002262748967483896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document
+0.0002408148346432682 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document
+0.00023398651720444235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document
+0.00022989433874474592 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document
+0.00023948500543957772 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document
+0.0002331594076859196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document
+0.00023375132439600242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document
+0.00023923410909668642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document
+0.00023952796315562954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document
+0.0002327466076905069 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document
+0.00023082758956797212 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document
+0.0002240509275524448 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document
+0.00022798879995765268 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document
+0.000221172516774386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document
+0.00021767045123534623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document
+0.00021982832794804484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document
+0.00021971626543789102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document
+0.00022566565206920132 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document
+0.0002181984894194856 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document
+0.00021831417549554653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document
+0.00021601405421187145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document
+0.00022275733725519607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document
+0.00021847734911973986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document
+0.0002243591012664014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document
+0.00021688758139483833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document
+0.0002182953624789215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document
+0.00020475155724026002 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document
+0.00021498078062960065 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document
+0.0002157914337233064 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document
+0.00021781838494967963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document
+0.00021723242266814558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document
+0.0002176782686553837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document
+0.0003486179404943968 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document
+0.00034882846352857634 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document
+0.00031400868448352596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document
+0.00030273484020011963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document
+0.00029895889118145404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document
+0.00029770764609621714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document
+0.0002990181332116852 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document
+0.00029653733972285996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document
+0.00029624649222942476 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document
+0.00029625609720203576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document
+0.00029731928930852147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document
+0.00029011721326148513 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document
+0.00028849788197494655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document
+0.00021601278623858145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document
+0.00021319599281739178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document
+0.0002153325290600083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document
+0.00018566946174516558 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document
+0.00020736824394291617 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document
+0.00020857419820128004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document
+0.00020058526129536423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document
+0.00020745812166665217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document
+0.00020652171015271702 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document
+0.00020643808911278608 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document
+0.00020040513914482103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document
+0.00020598050188272898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document
+0.0001969184139343296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document
+0.0001972748812937012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document
+0.0002038556751586195 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document
+0.00020245186011313464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document
+0.00019950381422038783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document
+0.00020837055459665258 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document
+0.00020371856218246096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document
+0.00019537612301625791 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document
+0.00019914984508813857 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document
+0.0002053787713691309 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document
+0.00019082100541008637 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document
+0.00020397153334531813 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document
+0.0002021462693077317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document
+0.00019609357008124035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document
+0.00019693256622486236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document
+0.00020007239732428112 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document
+0.00020467075741591954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document
+0.00019584883400022932 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document
+0.00019135050391176972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document
+0.0003362829834208298 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document
+0.00034013691154784095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document
+0.00033215887031941976 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document
+0.00032681189065396707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document
+0.0003149138485493094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document
+0.00030179177307540077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document
+0.0002923278437581119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document
+0.00029470052278994486 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document
+0.0002994095093045731 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document
+0.00029033525096085037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document
+0.00029390798852496565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document
+0.0002916230924130842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document
+0.00029419886374594913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document
+0.0002865469756730764 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document
+0.00021191292549942086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document
+0.00021369664817409847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document
+0.00021612485624266726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document
+0.00022242192634588478 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document
+0.00014605095659989698 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document
+0.00022070626106341693 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document
+0.0002174420774054071 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document
+0.00021325858963116995 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document
+0.0002124322999488052 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document
+0.0002081218896969054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document
+0.0002108710211556957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document
+0.00020686867095978426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document
+0.00020895752681041895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document
+0.00020741922266415738 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document
+0.0002069112657197308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document
+0.00020644627473468118 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document
+0.00020332991338121604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document
+0.0003560895677789848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document
+0.00032915779111908214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document
+0.00033810613317040864 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document
+0.00033729626594036923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document
+0.00033550342864602944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document
+0.00034173474024556906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document
+0.000331505340748827 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document
+0.0003270050330117195 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document
+0.00032585275329172556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document
+0.0003143383203190604 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document
+0.00031655199110388894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document
+0.00030738872158476413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document
+0.00030838388352699285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document
+0.0003053596995351888 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document
+0.00031836304739584593 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document
+0.000315315435873905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document
+0.0003087116248965243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document
+0.00030396790625537645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document
+0.0003335812246032149 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document
+0.00034570956323095843 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document
+0.00034563035636675786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document
+0.00033411265479076335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document
+0.00034439191141692787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document
+0.0003364483125496565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document
+0.0003299500453608033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document
+0.00033163377700074837 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document
+0.00032638649660627673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document
+0.00032616167939645234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document
+0.0003205289298760723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document
+0.00031939393740815355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document
+0.00031593164066731296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document
+0.00031928871111254405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document
+0.00029670189073175004 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document
+0.00020517703846735904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document
+0.00020128418186172073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document
+0.00019662723895606717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document
+0.0001981157042081407 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document
+0.00019703489037041608 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document
+0.00019079796331785068 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document
+0.0001909352306690079 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document
+0.00018824662295261396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document
+0.00019864275319325954 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document
+0.00018818516521649587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document
+0.00018875694972812844 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document
+0.00018231621170645482 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document
+0.00018349407845798273 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document
+0.00018088971427746906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document
+0.00018296284236327237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document
+0.0001876011825819916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document
+0.000329052068725176 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document
+0.00032223616273648536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document
+0.00031272564089633955 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document
+0.00031621609908414494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document
+0.0003117213560911235 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document
+0.00030218064069945934 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document
+0.00030658916600512085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document
+0.0002915863534115821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document
+0.0002940280138374372 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document
+0.00029067860468866085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document
+0.00028529228063135635 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document
+0.00028336893301452256 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document
+0.0002794668089130099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document
+0.00021681361378827842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document
+0.0001484664674497246 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document
+0.00021950558378215133 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document
+0.00021806860758808645 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document
+0.00021819568718852282 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document
+0.00021626925931585001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document
+0.0001464536143077762 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document
+0.00021432777088808917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document
+0.000213473805865147 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document
+0.00021397067253964538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document
+0.00020758957647437263 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document
+0.00020687124337683314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document
+0.00020630057046511005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document
+0.0002091166859352538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document
+0.00020777355025615267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document
+0.00020709287641496176 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document
+0.00020736464660577094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document
+0.00020062246741862607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document
+0.00020693207561942915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document
+0.00021151004871893024 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document
+0.00019930249098689716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document
+0.00021589710041231824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document
+0.00021369204789905741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document
+0.0002147099923936778 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document
+0.00021077531190389536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document
+0.0002100509829113836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document
+0.00021185362601571124 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document
+0.00020722136637339565 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document
+0.00020300093701169531 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document
+0.00019859737993313477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document
+0.00019971314372100164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document
+0.00019549908270269278 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document
+0.00019649820843534028 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document
+0.00019619415513498067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document
+0.00019493006120377898 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document
+0.00019499409035775506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document
+0.00019252988593634277 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document
+0.00019440768268686405 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document
+0.00018747161324755577 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document
+0.0001879575932372779 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document
+0.00019040707058357506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document
+0.0001871931095090703 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document
+0.00020112966223017096 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document
+0.00020516878165311017 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document
+0.00020664735191740533 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document
+0.00021041398572882962 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document
+0.00020397992929690396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document
+0.0002039978580295561 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document
+0.00020592785601142126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document
+0.0001990755527445265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document
+0.00019729564847798732 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document
+0.00019958182230527032 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document
+0.0001985037302636386 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document
+0.00020204130355115716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document
+0.0002000296401958085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document
+0.0001983064832295463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document
+0.00019663108484195617 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document
+0.00019510678560556523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document
+0.0001873284057063206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document
+0.00019311553072495885 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document
+0.00034652137288816547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document
+0.0002813690318850024 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document
+0.00027697649713138685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document
+0.0002755419092534421 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document
+0.0002681583054440219 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document
+0.00026945753192750824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document
+0.00026169470768245737 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document
+0.00026437008960810825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document
+0.0002637294838228 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document
+0.00026491867965088836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document
+0.00025504483625138986 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document
+0.0002545040623796586 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document
+0.0002546682814073622 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document
+0.00025545439487142615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document
+0.0002626896557978271 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document
+0.00025092040940402784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document
+0.0002589154885863872 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document
+0.00024106160482721467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document
+0.0002483289690087987 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document
+0.0002388930282784437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document
+0.00024006340759273874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document
+0.00023765248178029045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document
+0.00023061351965578936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document
+0.00024954224883546477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document
+0.00017861017233018525 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document
+0.00017810832743667658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document
+0.00017599709170759497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document
+0.00017462723516505223 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document
+0.0002906316527068669 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document
+0.00033762141066247166 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document
+0.00017170670574152494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document
+0.00017258674515137717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document
+0.0002815386173173926 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document
+0.0002996845935618989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document
+0.0002735268488987296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document
+0.0002971738713071517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document
+0.0002942690674002763 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document
+0.0003322222207729567 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document
+0.0003378721656198464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document
+0.00018307262621851067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document
+0.00033956081502775057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document
+0.00031604820927876276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document
+0.00028805657681088917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document
+0.00026312293321215633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document
+0.00034366936722921455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document
+0.0002865256504406559 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document
+0.0003063615195861786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document
+0.00028412791619666136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document
+0.00028060835132727154 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document
+0.00032544974761560506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document
+0.0002647177833217225 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document
+0.0003152621884896575 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document
+0.0003054625140336913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document
+0.00031183308312292263 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document
+0.00018175026696621178 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document
+0.00017699918328872 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document
+0.00018222339261441908 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document
+0.00018348005930964137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document
+0.0001810735993810541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document
+0.00030846441282038914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document
+0.0002972326889310354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document
+0.00017433421318235594 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document
+0.00032799458649525895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document
+0.00032482130048512673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document
+0.00031943465668672475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document
+0.00029615593630484517 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document
+0.0002893126939511001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document
+0.0002849288351723284 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document
+0.00028383906633569267 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document
+0.00028072526091262615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document
+0.000284239564292377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document
+0.0002778903109432523 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document
+0.0002771644389501471 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document
+0.0002733316182319337 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document
+0.00026362539185869363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document
+0.0002636325383220217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document
+0.00026740622442302886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document
+0.0002646771971853427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document
+0.0002628566720605389 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document
+0.0002644760695434766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document
+0.0002623837702310999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document
+0.00026088722976772894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document
+0.0002567065374799158 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document
+0.00018857382101207726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document
+0.00019036580399817203 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document
+0.00018348828065261222 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document
+0.00018491851780345073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document
+0.00018904887260080187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document
+0.0001875609304251801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document
+0.00018393034720015817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document
+0.00018419795526114903 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document
+0.00018699955623404795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document
+0.00018276256902965128 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document
+0.00017698045695190812 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document
+0.00018104650132303642 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document
+0.00017758206731279688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document
+0.00017131402995103497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document
+0.000175944428350446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document
+0.0003416745727147391 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document
+0.0003163259373952889 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document
+0.0002804489269172448 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document
+0.00028748272397403175 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document
+0.00027603318345630605 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document
+0.000271638824679648 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document
+0.0002763761210210942 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document
+0.00026501984873172717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document
+0.00026422486894694714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document
+0.0002686339100849262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document
+0.0002610837453940606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document
+0.000260974343729353 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document
+0.0002599403837029134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document
+0.0002937273113238609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document
+0.0003341790732600504 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document
+0.0002620661576600244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document
+0.0003027929169239288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document
+0.00031944039129326894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document
+0.00019025676304139009 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document
+0.00018680910145009907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document
+0.00034215840419416437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document
+0.00018618120812119364 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document
+0.00018605853095599425 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document
+0.00018120712626096538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document
+0.00018315079292495327 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document
+0.00018362556449041974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document
+0.0001780024456718171 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document
+0.00033296526436178697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document
+0.0001802398632282846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document
+0.00017340263100798256 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document
+0.00017755840547238697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document
+0.00018419413735260606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document
+0.00017869518174591322 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document
+0.00017526271460129484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document
+0.00017852168597981907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document
+0.00017566536156787157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document
+0.00017589867964432936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document
+0.00017831487394075305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document
+0.00017837310528935862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document
+0.00018200908814216548 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document
+0.0001795136627511612 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document
+0.0003414021775300033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document
+0.00017177291787788502 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document
+0.0003441900648571877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document
+0.0003394534597060673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document
+0.0003236887233114832 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document
+0.0001639544129688747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document
+0.00019137443753211255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document
+0.00018575146284680153 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document
+0.00019184792863440243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document
+0.00018966043065679055 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document
+0.00017968851317035848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document
+0.00018479881897661546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document
+0.0001813642692683015 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document
+0.0001686449798983066 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document
+0.00018516104592230446 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document
+0.00031283726601066385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document
+0.0003248607542883853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document
+0.00031583241601202365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document
+0.00031238270857730376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document
+0.000307150592403979 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document
+0.00029443829986847044 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document
+0.0002942723732234677 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document
+0.00023514930666443422 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document
+0.0020776328951453444 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document
+0.0021768234410538883 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document
+0.002106973549276289 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document
+0.002110915756171751 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document
+0.0017032382109816464 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document
+0.0019047944877712286 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document
+0.0019402711744016077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document
+0.0006264790011223686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document
+0.0017885401938106643 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document
+0.0003547982093445404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document
+0.00035934014428504944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document
+0.00035707704501371544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document
+0.00035287930712815354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document
+0.00035977166728996823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document
+0.0003581675664109838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document
+0.0003548617059697185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document
+0.0003639582000286208 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document
+0.00035375839698688127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document
+0.0003743722020080678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document
+0.0003530399715341242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document
+0.00035511875882752406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document
+0.0003618733574783154 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document
+0.00035185243285420104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document
+0.0003541503739732106 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document
+0.0003631679485751914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document
+0.00035748045578182274 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document
+0.0003606490690555877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document
+0.0003626383296610091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document
+0.00035442644361264756 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document
+0.00035978370170539796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document
+0.0003585562375341541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document
+0.0003601958372888019 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document
+0.000350277765402227 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document
+0.0003616521184211704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document
+0.0003620625543608188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document
+0.0003560781983850704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document
+0.0003553209610592676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document
+0.00035905348643915075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document
+0.00034744258805696526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document
+0.00035462784035661496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document
+0.00034768186175100895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document
+0.0003568534635532736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document
+0.00035586511544371234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document
+0.0003524567827568137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document
+0.0003512453770426313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document
+0.0003591792726468799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document
+0.0003514024529343127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document
+0.0003584880112586934 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document
+0.00035133552916418045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document
+0.0003600811981350215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document
+0.0003571663974228119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document
+0.00035768103378874214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document
+0.00035939205561113694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document
+0.00035186773916029825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document
+0.0003542829672490847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document
+0.0003592783642898726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document
+0.0003556367340099302 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document
+0.00035391392271377027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document
+0.00035486725707484836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document
+0.00034866743396828035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document
+0.0003517219808644735 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document
+0.00034874458549673823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document
+0.000355773136961014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document
+0.00035611750387841917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document
+0.00035305602013916315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document
+0.0003578207127071924 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document
+0.00035514635841943707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document
+0.00034816946212866206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document
+0.0003512707269761496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document
+0.0003483392117980654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document
+0.0003572169607204321 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document
+0.00035139153281660794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document
+0.00035536422129036537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document
+0.000352017164107143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document
+0.000351889550179365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document
+0.000358759689953589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document
+0.0003569286079869268 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document
+0.0003657752958602099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document
+0.00035396127934790697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document
+0.0003618565071224743 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document
+0.00035146051531973204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document
+0.00036107135765783567 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document
+0.00035019554279994576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document
+0.00035567858879904983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document
+0.0003504753174793183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document
+0.00035931140831329194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document
+0.0003502967866002823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document
+0.0003532911801041972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document
+0.0003583543013070199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document
+0.0003566243489931224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document
+0.0003468752314799221 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document
+0.0003597840618138091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document
+0.00035128822484768084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document
+0.00035889496943437507 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document
+0.000352400524650424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document
+0.0003518689536768735 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document
+0.00035866864741303467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document
+0.0003454687659106334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document
+0.00035348007259317576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document
+0.0003539752270940644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document
+0.00035146495994081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document
+0.00035397212846310423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document
+0.00035208246467162587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document
+0.0003490843168676626 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document
+0.00035299633658644394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document
+0.00034868327466167065 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document
+0.00035941351365601583 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document
+0.0003545343062735255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document
+0.0003528956380445978 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document
+0.0003553355770443352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document
+0.0003644224004937743 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document
+0.00035234291036216907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document
+0.0003596237469847771 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document
+0.0003531996065735989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document
+0.0003547177054106099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document
+0.0003575586499260483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document
+0.00035262635135283667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document
+0.0003624191962188944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document
+0.0003488398052948616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document
+0.0003598294093147917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document
+0.00035583006534466323 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document
+0.00035403139653225103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document
+0.00036134702642187156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document
+0.0003573689927162834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document
+0.0003577141131435527 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document
+0.00035208814419277406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document
+0.00035996720683665625 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document
+0.00035415304658912596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document
+0.00036353353029443546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document
+0.0003537326003150983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document
+0.00036053976358299083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document
+0.000352380489373494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document
+0.00036154661616900994 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document
+0.00035959332325963614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document
+0.0003597954667189692 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document
+0.0003563108270597542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document
+0.0003582891940460143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document
+0.0003497728210484297 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document
+0.0003549834902179354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document
+0.0003529828233484542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document
+0.00034627483903285777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document
+0.00035569006572589215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document
+0.00035449377946910314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document
+0.00035802844396194623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document
+0.0003617277809353208 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document
+0.00035034118898654814 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document
+0.000351091193908611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document
+0.0003527914342210668 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document
+0.00035028288369781376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document
+0.00035775745592780506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document
+0.0003449630690661468 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document
+0.0003583490698830361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document
+0.0003476995746684122 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document
+0.0003535632505019212 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document
+0.00035640180641147417 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document
+0.000361731045691765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document
+0.0003534082129597368 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document
+0.0003550344149828664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document
+0.00035363002411364057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document
+0.0003537265579677396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document
+0.00034950531383577937 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document
+0.00035008511827347514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document
+0.00035594533400871325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document
+0.00035266312861335946 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document
+0.00035280268794863923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document
+0.0003565470391528536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document
+0.0003588492322689137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document
+0.00035469909697832775 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document
+0.00034712082813410526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document
+0.000348701157101807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document
+0.0003500192014479944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document
+0.00035120560544669755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document
+0.00035403656850437445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document
+0.00035852376560749366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document
+0.0003534754068111774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document
+0.00035591740046720765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document
+0.000348522354782563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document
+0.0003533533959664415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document
+0.00035631425964030697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document
+0.0003485886551574741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document
+0.00035917652631065777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document
+0.0003482975272111288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document
+0.00035580661277480167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document
+0.0003492290722955348 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document
+0.00034989284450240613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document
+0.0003545677216162781 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document
+0.00034622286859463484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document
+0.00036070626989861965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document
+0.00035518365036320786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document
+0.00035272907057848406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document
+0.0003547343638218734 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document
+0.0003496450144966242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document
+0.0003537407829294287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document
+0.0003489722653985685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document
+0.00035057186899911295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document
+0.0003507566548933051 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document
+0.00035630360179023747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document
+0.00035631362503416367 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document
+0.0003490204248026821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document
+0.00035761724058371226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document
+0.00035037664777467137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document
+0.000353402110481068 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document
+0.00034524163568371745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document
+0.00035528523728570974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document
+0.00034784916132431703 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document
+0.00034928476408048925 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document
+0.00034989205973784984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document
+0.00034201664404094254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document
+0.0003529676016338611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document
+0.00034643433682346637 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document
+0.0003511666373001904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document
+0.00034828669066575333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document
+0.0003494625207264413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document
+0.0003458957535879216 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document
+0.0003543020478990003 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document
+0.00034754384069014956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document
+0.0003598856392240133 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document
+0.0003503335458553846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document
+0.00035919595619778716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document
+0.00035767737970754404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document
+0.00035197152783998165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document
+0.0003549609834422404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document
+0.0003568184100569753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document
+0.0003512652818651935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document
+0.00035912648958665754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document
+0.00034764526964056546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document
+0.000352439784960359 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document
+0.00035295886560764226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document
+0.0003518132693658672 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document
+0.00035589987915465713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document
+0.00034923863317385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document
+0.0003457987267929692 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document
+0.0003560928663480501 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document
+0.0003529603811204932 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document
+0.0003524438555443043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document
+0.0003438847030263783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document
+0.00035981978898461613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document
+0.0003446342778566972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document
+0.00035529584995236537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document
+0.00034855740895831116 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document
+0.00034932634912802544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document
+0.00035805518303064666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document
+0.0003497941877073061 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document
+0.00035774398685405447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document
+0.0003560421780316607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document
+0.0003508844468369392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document
+0.00035731928892270107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document
+0.0003557884626314314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document
+0.00034992996760289355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document
+0.000360752554360921 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document
+0.0003452321668708545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document
+0.0003591745226131023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document
+0.00035256981433229084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document
+0.00035378123159712034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document
+0.000350464354895999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document
+0.00035074625557389677 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document
+0.00035025894701994667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document
+0.00035437902514857614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document
+0.0003514684519732232 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document
+0.00035449717909633905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document
+0.0003436816402714221 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document
+0.00035139158071782116 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document
+0.0003509424079843335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document
+0.000343894618577506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document
+0.0003500789770661659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document
+0.0003407788080680086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document
+0.0003581908175239701 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document
+0.0003465541618780918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document
+0.00034600228792437736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document
+0.00034416738982773204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document
+0.0003519900340150641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document
+0.000343369616864659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document
+0.0003544993883274688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document
+0.0003504441365073392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document
+0.00034859160702727056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document
+0.00035355909532647185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document
+0.0003471900922691849 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document
+0.0003563015508709187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document
+0.0003487888744148821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document
+0.00034711767548688336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document
+0.0003530734609369085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document
+0.00035123969242560935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document
+0.0003517127620891489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document
+0.00035232835416868673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document
+0.0003524437481912308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document
+0.0003525996167005602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document
+0.00035064770545242043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document
+0.00035311558274981226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document
+0.00034952204800569914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document
+0.0003541471367344846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document
+0.00035418812454561825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document
+0.0003528951372900714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document
+0.0003542338042975688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document
+0.00034937738939942796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document
+0.0003522182190878447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document
+0.0003501406466507449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document
+0.00034973079877492633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document
+0.0003485274567713538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document
+0.00034999308679368985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document
+0.0003570051724707296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document
+0.00034567230462019706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document
+0.00035529000940160696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document
+0.00034956512308671755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document
+0.0003496962834028953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document
+0.0003468745282493457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document
+0.0003502717155809202 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document
+0.0003556240880896514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document
+0.0003515109488424343 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document
+0.0003563156688192592 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document
+0.00035040277363989817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document
+0.0003481408593290717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document
+0.0003624575124332874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document
+0.0003522684124250313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document
+0.00035286996027653544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document
+0.00034967623997256725 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document
+0.00035182649587602765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document
+0.0003524892557026489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document
+0.0003507642477451811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document
+0.00036190408389835666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document
+0.00035102739424880766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document
+0.00035239718753257265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document
+0.00035298076121821316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document
+0.0003478704389752654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document
+0.0003503109191567942 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document
+0.00035143250975654426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document
+0.0003480663923069012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document
+0.00035691540219998623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document
+0.000348815437166351 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document
+0.00035202073257766225 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document
+0.0003491569096274706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document
+0.00035277390475511834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document
+0.0003524972090026609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document
+0.0003504854249750236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document
+0.00034740238025423914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document
+0.00034968015462277606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document
+0.0003493798632762674 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document
+0.0003488202537862122 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document
+0.0003525461864643725 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document
+0.00034903815232825664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document
+0.00035536982539258216 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document
+0.00034858083265155483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document
+0.0003505014973608067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document
+0.00035327984042622104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document
+0.0003503286677453136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document
+0.00035835274842442816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document
+0.00034970302660275595 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document
+0.000357929573140149 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document
+0.0003517238649788585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document
+0.00036097027318848475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document
+0.0003502734074110026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document
+0.00035801510806036273 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document
+0.0003568006373479869 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document
+0.00036128108717454636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document
+0.0003563436883111686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document
+0.00035559725321852463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document
+0.00035089656006854944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document
+0.000359453964362057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document
+0.00035629498059104033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document
+0.0003622207707090437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document
+0.0003540946784512821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document
+0.0003594750565232011 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document
+0.0003566007415086991 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document
+0.0003562142599126134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document
+0.0003569948186744601 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document
+0.00035166554847920186 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document
+0.00035047994419295137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document
+0.0003561578193739437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document
+0.00035470866838811544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document
+0.00034216920464876335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document
+0.0003550021513075795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document
+0.0003488045105938729 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document
+0.0003513340720840151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document
+0.0003448558566387584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document
+0.0003460966026953241 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document
+0.0003488157616036459 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document
+0.0003446120387842362 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document
+0.000351528602987427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document
+0.00035661118227454713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document
+0.0003551342699877457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document
+0.0003478953397924445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document
+0.00034625782458988215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document
+0.0003527515447405871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document
+0.00034823744889805696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document
+0.00034823314560254406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document
+0.00035162668292961944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document
+0.0003477307716074623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document
+0.0003446457989477787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document
+0.00034782916273767795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document
+0.0003517249130302248 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document
+0.0003449873430908556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document
+0.00034841291749669877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document
+0.0003466028498941749 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document
+0.0003486436831199424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document
+0.0003478279234211838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document
+0.0003495903653274374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document
+0.00034896893881218957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document
+0.000348941645312426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document
+0.0003474221308416894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document
+0.0003462621543839385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document
+0.0003669373860863891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document
+0.00034691156268163006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document
+0.0003527774103765281 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document
+0.00034684565672734663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document
+0.0003454250599604457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document
+0.0003541536557159006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document
+0.000345735737037366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document
+0.0003524669816385214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document
+0.0003441817133096468 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document
+0.0003519093265859089 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document
+0.00035080085480352095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document
+0.00035285227929327434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document
+0.00034354836346901676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document
+0.00034789770937373467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document
+0.000343665920520102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document
+0.0003490884931060568 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document
+0.00034380029463398654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document
+0.00034874768005099945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document
+0.0003457058510967673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document
+0.00034644265227023904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document
+0.00035008339858594957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document
+0.0003462377193296194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document
+0.0003620491787114201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document
+0.000348717011044469 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document
+0.00034370072363913706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document
+0.0003551981066775649 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document
+0.0003500119496799342 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document
+0.0003485082952669081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document
+0.0003508155580978919 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document
+0.00035311375163251416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document
+0.00034945972003423253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document
+0.0003474220353789879 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document
+0.0003536443686585001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document
+0.0003560350489042953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document
+0.0003493655927914396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document
+0.0003528423977146383 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document
+0.00035255554724471217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document
+0.0003479760010190111 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document
+0.00035458598862501956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document
+0.0003458990560538315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document
+0.00035157946422379875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document
+0.00034736860650169996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document
+0.0003529152313394119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document
+0.00034586294329524465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document
+0.00035707214923794877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document
+0.0003509580363496512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document
+0.00035244176725524474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document
+0.0003467539557999047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document
+0.00034919687962275546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document
+0.00035094031731719953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document
+0.0003484309008351352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document
+0.0003485409424916253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document
+0.0003499590776117838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document
+0.0003492842758957848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document
+0.0003529712275178912 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document
+0.0003566141287087449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document
+0.0003649496522047409 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document
+0.0003563218912208234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document
+0.00035614782126966145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document
+0.0003531944298453266 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document
+0.0003535950949566616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document
+0.0003544295554928795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document
+0.0003519908503740376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document
+0.00035752817626134463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document
+0.0003515322689589972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document
+0.0003486893890307115 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document
+0.0003446520464889867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document
+0.0003509421562481707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document
+0.00035335015702909084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document
+0.0003490178167345008 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document
+0.0003520497821155174 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document
+0.0003549762618908944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document
+0.00035072190850833103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document
+0.0003542458638526423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document
+0.000352419194572916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document
+0.0003545102564672614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document
+0.0003495437992331806 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document
+0.0003542843376993964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document
+0.000352827529313958 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document
+0.00035442506093223886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document
+0.0003496970719044257 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document
+0.0003553096424442362 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document
+0.00034986845565067564 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document
+0.000352131055186658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document
+0.0003527021708198983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document
+0.00034905885414547214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document
+0.0003583433842468394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document
+0.00034409435202828383 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document
+0.00034846410520871483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document
+0.0003554459991927314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document
+0.00035310507471843076 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document
+0.000350028910786098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document
+0.00035049727458009896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document
+0.0003519047735925826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document
+0.0003513027429919726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document
+0.0003626947260354396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document
+0.0003500087324849783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document
+0.0003618315726725285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document
+0.0003535385113938023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document
+0.0003487064058517615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document
+0.0003618709124780938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document
+0.00035040070335625915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document
+0.0003506279032267829 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document
+0.0003498435310527524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document
+0.0003554634749821431 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document
+0.00035091209738758963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document
+0.00035034103678978573 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document
+0.00035398931854386146 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document
+0.00035495529304989485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document
+0.00036067883473356603 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document
+6.322825248625475e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document
+2.4432314037946264e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document
+5.6313888721313454e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document
+2.4208171781595055e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document
+2.325811856369237e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document
+2.4010790356322705e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document
+5.36773610843632e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document
+1.360574433501002e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document
+1.3076540344853244e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document
+1.3386534334886313e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document
+1.2498103719605153e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document
+1.403763836949682e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document
+1.3636756723495417e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document
+1.2242489446940814e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document
+1.2398255818973339e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document
+1.2972616994216281e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document
+1.3947809855914134e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document
+1.3144843787829514e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document
+1.1693809976572487e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document
+1.3677252682893802e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document
+1.3940876719849597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document
+1.4222245138730965e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document
+1.3201677767919704e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document
+1.1421717796486169e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document
+1.2890514724498703e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document
+1.3649507648749037e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document
+1.2400732563490717e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document
+1.1557681453277616e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document
+1.2294483595964517e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document
+1.2137484472122283e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document
+1.3299663426456e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document
+1.2461984216479532e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document
+1.4666434217609636e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document
+1.1876997894686238e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document
+1.2939155338964078e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document
+1.3859590039728515e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document
+1.317917848615668e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document
+1.1335281536110342e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document
+1.2889923952861426e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document
+1.3471671647053326e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document
+1.2221720014475102e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document
+1.2632647276287541e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document
+1.28276219004076e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document
+1.36213704321643e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document
+1.2414858625261553e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document
+1.3173700421883744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document
+1.295597796725686e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document
+1.242783936442904e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document
+1.2417374088427464e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document
+1.2134479405400744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document
+1.3090040663304255e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document
+1.2713470581614905e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document
+5.5750231378906594e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document
+5.777597358425469e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document
+5.349786767471258e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document
+5.675165050453583e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document
+5.482611216158831e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document
+5.065421899890121e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document
+5.384718357480146e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document
+4.872037363236061e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document
+4.532709250783155e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document
+5.7257963030489613e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document
+4.9014365579652036e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document
+5.722863552770969e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document
+6.149911636146833e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document
+5.2178057608273506e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document
+4.990228161160431e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document
+5.866186875255134e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document
+5.004185734360719e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document
+4.79401853705107e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document
+5.435219965052376e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document
+5.035997225792266e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document
+5.622401774211625e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document
+5.028826157387559e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document
+5.596379470128795e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document
+6.027824493191489e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document
+5.5358270009931474e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document
+5.9839051807685496e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document
+5.1221077499249595e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document
+5.517228560620279e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document
+5.1687858285052305e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document
+5.684188244145645e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document
+5.212693275535878e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document
+4.8551007022784084e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document
+5.4888506639203145e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document
+5.345098688527242e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document
+4.8506420625516594e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document
+5.132168603397676e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document
+5.719476795114223e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document
+5.7448621149792696e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document
+4.9068410568059265e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document
+5.382937299647678e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document
+4.8288432136304634e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document
+5.841703200305416e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document
+5.1589611587885584e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document
+6.031113829732574e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document
+5.4558202844532094e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document
+5.341852317196142e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document
+5.1402942738369954e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document
+5.735421384377395e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document
+5.473629863586958e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document
+5.4708993245733936e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document
+4.931161863634078e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document
+5.104173022127248e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document
+5.510157161510824e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document
+5.652501401782597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document
+5.7273656573031666e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document
+5.638363224821738e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document
+5.6128115396668704e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document
+5.00304877998141e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document
+5.596120554779096e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document
+5.5280923889040006e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document
+5.223477917938408e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document
+5.29472809986569e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document
+2.205682378243213e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document
+1.4367563720603185e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document
+3.5506193487931076e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document
+3.0442910855821778e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document
+2.2540042508019627e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document
+2.6880163202623216e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document
+2.534473148048727e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document
+2.6560945431318916e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document
+2.547470248967691e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document
+2.5248825388073738e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document
+2.5828729575000054e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document
+2.4026583817957736e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document
+2.3930425429834413e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document
+2.5037365362599724e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document
+2.6696745470595603e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document
+2.140323051341762e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document
+2.617354786691592e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document
+1.538359101762691e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document
+1.2871029252377856e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document
+2.255195411289217e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document
+2.4832313897952067e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document
+9.303873918189968e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document
+2.179532302620228e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document
+1.9750517506901206e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document
+2.7740420380648435e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document
+2.7813714782319335e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document
+4.1595357937609806e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document
+2.741365122389175e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document
+2.117451071361901e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document
+1.7132649760565998e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document
+1.7492547092602047e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document
+1.7499951097392276e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document
+1.6632444789170958e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document
+1.6678802252361607e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document
+1.5519208704558896e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document
+1.652420992967167e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document
+1.6119931034508755e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document
+1.6638882076736552e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document
+1.7198076782652946e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document
+1.572927860565175e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document
+1.5194822618169918e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document
+1.6677776832669846e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document
+1.595612492245688e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document
+1.682350633181197e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document
+1.663983380609724e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document
+1.710187842689243e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document
+1.5733697527539038e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document
+1.6972104757911438e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document
+1.6610142847616577e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document
+1.61094882403031e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document
+1.4789207305138325e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document
+1.639299617676302e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document
+1.3241204512116132e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document
+8.582260726625535e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document
+8.213000975576739e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document
+9.549247732811947e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document
+9.17242785339013e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document
+7.632868223725218e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document
+8.674401118222175e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document
+9.124384255505347e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document
+8.344222222417358e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document
+8.992299957499065e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document
+8.76689497361025e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document
+7.973396239586015e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document
+9.006935606644125e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document
+8.725545954955498e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document
+1.215449694669174e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document
+3.3041720284158646e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document
+2.0593512412624502e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document
+1.893608946986248e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document
+1.737111666788535e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document
+1.4915923449873955e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document
+2.289370239067605e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document
+2.8615335689614638e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document
+8.847283630883125e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document
+1.8175470362373804e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document
+1.8152226683368038e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document
+1.789149655314284e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document
+1.7690523036477663e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document
+1.8333732213753644e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document
+1.8794105687718654e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document
+1.721841156706417e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document
+2.0612008685724796e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document
+1.9297370681336376e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document
+2.0188440409661018e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document
+5.1741216329695265e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document
+1.3417913926038429e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document
+1.1010813016469651e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document
+1.1252416134320087e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document
+1.2801744104313002e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document
+1.3041514955795817e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document
+1.3428837580879075e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document
+1.320809382267804e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document
+1.3451566676555968e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document
+1.228284926657501e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document
+1.2410599573923043e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document
+1.3815343367377182e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document
+1.3895126265148832e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document
+1.2306773644401741e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document
+1.32981021906281e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document
+1.101337469221607e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document
+1.513094184404692e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document
+1.1073759547073234e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document
+1.2879348765857567e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document
+9.619595770228435e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document
+1.2384340836286436e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document
+1.1766667232211577e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document
+1.2871049236196452e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document
+1.2010645926497744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document
+1.3971428231518597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document
+1.2283733550547932e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document
+1.2659530508255308e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document
+1.551775613074462e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document
+1.1169413343776979e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document
+1.1433700593712463e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document
+4.964773647323492e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document
+1.0995586595687313e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document
+1.2957393071411267e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document
+2.75899247407709e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document
+2.8269344597344854e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document
+2.329108187246831e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document
+2.4231761430460284e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document
+1.2434140512230442e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document
+1.638718338352859e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document
+3.272953556801187e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document
+6.061314500486327e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document
+1.2465979731210292e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document
+1.2737557327967737e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document
+1.038428658075627e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document
+2.61666472045566e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document
+3.6506873212272224e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document
+1.5066359138295701e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document
+1.1166290872121178e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document
+1.5546966228590285e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document
+1.2583434625014828e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document
+1.3398826881300862e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document
+1.2944933160515968e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document
+1.0971437399901365e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document
+1.2787922795775774e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document
+1.404979227816985e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document
+1.3344734431324463e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document
+4.886031157107555e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document
+3.277261443596394e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document
+3.5057957685786495e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document
+3.287625301718589e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document
+3.1370056372668855e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document
+3.186092015785841e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document
+7.271819324142512e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document
+0.001451215788905126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document
+0.0014486847196258788 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document
+0.0008861032722895899 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document
+0.0018119590809459816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document
+0.0008916937917547129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document
+6.960128832809415e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document
+0.002008403651063623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document
+0.0014374900742131454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document
+0.00180213596996716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document
+0.001956178877532413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document
+0.0008829547017667033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document
+0.0008910853619157279 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document
+0.0018260998845299973 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document
+0.0012499632072059553 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document
+0.00125398260359913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document
+0.0012541704774729071 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document
+0.0012527268234360602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document
+0.0012532925243737164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document
+0.0012456396241204315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document
+0.0012589894424352072 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document
+0.001508020123999618 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document
+0.00333096950781965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document
+0.0033233414614415547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document
+0.003512387990689828 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document
+0.0035091382940513126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document
+0.003514155927147005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document
+0.003327108000579638 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document
+0.003329106196589836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document
+0.003505604148738077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document
+0.003324825759567855 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document
+0.0033248240149804913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document
+0.0033385962112851358 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document
+0.0035043186296553615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document
+0.003340469505431529 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document
+0.0035106889084796276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document
+0.0033309469281030167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document
+0.003340337858029757 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document
+0.003505919861097801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document
+0.0003882924098240512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document
+0.0005759963691850877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document
+0.0005959971675332674 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document
+0.0006026179290353799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document
+0.0005824184320784846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document
+0.0005854598548616037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document
+0.0005903767055633473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document
+0.0005930306490982049 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document
+0.000569425602700746 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document
+0.0005675060415179408 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document
+0.0005772431621253389 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document
+0.0005678026053826858 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document
+0.0005700398263483378 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document
+0.0005669467963528824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document
+0.0005701015953324305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document
+0.0005795907287413296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document
+0.0005735602737531164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document
+0.0005749862745842101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document
+0.0005693257015931971 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document
+0.0005716568794795563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document
+0.0005761083919774021 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document
+0.0005688343169797355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document
+0.0005807913190929842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document
+0.0005710229258078636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document
+0.0005704083039826862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document
+0.0005862132348308056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document
+0.0005717662049559556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document
+0.0005858155213694451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document
+0.0005812012281792392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document
+0.0005803981414588498 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document
+0.0005700102108287723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document
+0.0005719243459052329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document
+0.0005867253401661752 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document
+0.0005731087218860733 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document
+0.0005712197789109317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document
+0.0005702376926310089 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document
+0.0005700411527742972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document
+0.0005828090098178196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document
+0.0005770140826168056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document
+0.0005723509664597896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document
+0.0005755499231836962 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document
+0.0005636407438471367 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document
+0.0005640281556500104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document
+0.0005633159058766496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document
+0.0005638034311151449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document
+0.0005630066273073224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document
+0.0005631803831128559 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document
+0.0005631228881679657 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document
+0.0005628178701487633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document
+0.0005624448092256196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document
+0.0005620957024062329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document
+0.0005614201504177484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document
+0.0005616890951464056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document
+0.0005611348559279058 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document
+0.0005604238061828518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document
+0.0005603301490194237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document
+0.0005607291294548833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document
+0.0005605234569930727 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document
+0.0005613778566640694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document
+0.0005610248539992471 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document
+0.0005599977416780475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document
+0.0005603632562116935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document
+0.0005599177479509897 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document
+0.0005595202318298379 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document
+0.0005600975633499175 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document
+0.0005614075491213365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document
+0.000612563885043477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document
+0.0005515469909644413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document
+0.0005526782014946906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document
+0.0005472463408095445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document
+0.0005502284746004587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document
+0.0005414514790555363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document
+0.0005513499500134784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document
+0.0005391391454105187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document
+0.0005415836910001838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document
+0.0005208132468536551 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document
+0.0005889827143132871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document
+0.0005822520817765276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document
+0.0004173155230758696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document
+0.0009994361338078242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document
+0.001087156194657966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document
+0.0010667737163656816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document
+0.0009602877882124873 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document
+0.0008968956271971105 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document
+0.0009198034843762967 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document
+0.0009423901016715341 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document
+0.0009674094553686345 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document
+0.0009858331322519164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document
+0.0009970593645879198 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document
+0.0010027035193731686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document
+0.0010128291154221853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document
+0.0010215631382631918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document
+0.0010288663771461238 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document
+0.0010346219929285867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document
+0.00104544019940344 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document
+0.0010525172676724333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document
+0.0010609529620775127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document
+0.0010725892748610153 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document
+0.0010818563598181568 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document
+0.0010992760196793917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document
+0.0011178992762079917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document
+0.001124687532085676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document
+0.001118303661267191 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document
+0.0010206825575416534 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document
+0.0005512280117499715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document
+0.004474659408857016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document
+0.00409944473890653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document
+0.005137179939941845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document
+0.005143172251066109 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document
+0.005206134363352808 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document
+0.004892747858974329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document
+0.004844731352552902 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document
+0.005308320169123755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document
+0.005124709815666577 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document
+0.005424710744483826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document
+0.00538244648861977 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document
+0.0029107284679086853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document
+0.0026825258998444705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document
+0.0026904503191419243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document
+0.002687906577174073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document
+0.002850165346048818 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document
+0.005322698571717847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document
+0.004450334290869719 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document
+0.004700990083440683 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document
+0.003903568556500995 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document
+0.00390561515396931 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document
+0.0039046402900912262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document
+0.003907454839379547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document
+0.0038583224578603824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document
+0.0037914116657695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document
+0.003786665266798682 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document
+0.003792000802430658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document
+0.00319266847466091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document
+0.0032658716699838944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document
+0.0034801959532460023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document
+0.0028307012092022594 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document
+0.0028420360878146276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document
+0.0028410455248484914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document
+0.00283497183526842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document
+0.002840187195459487 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document
+0.0028398709431369834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document
+0.004364722843422023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document
+0.004093255713117101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document
+0.004092331079566252 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document
+0.004005326985579649 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document
+0.0036205502856964207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document
+0.003625316793034984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document
+0.003604743435602363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document
+0.0035405823343673125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document
+0.0041601413517253945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document
+0.005886303658937057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document
+0.003600909532810332 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document
+0.0034941365817168658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document
+0.0004992164842980224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document
+0.00032927705604725614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document
+0.0002860154190878753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document
+0.0002845217585425619 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document
+0.0002743528685497456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document
+0.00026025323737738766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document
+0.00023493876414603155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document
+0.00029665994994226705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document
+0.00031808102075993956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document
+0.00031813573046011285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document
+0.0002711905171855542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document
+0.00028892513401817095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document
+0.00030003908676979083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document
+0.00026839878771944684 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document
+0.00029155935002690497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document
+0.0002998624927624209 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document
+0.0003091705447974841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document
+0.00026873195794309786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document
+0.00027721873498527547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document
+0.0002841662554024377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document
+0.0002839461156551537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document
+0.0002861705604659811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document
+0.0002460995649635886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document
+0.00019420142619795496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document
+0.00021967677816173628 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document
+0.0002620283200480949 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document
+0.0002433390542188936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document
+0.00021254976608350767 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document
+0.00022094815569522115 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document
+0.000342862378668244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document
+0.00033784225259118157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document
+0.0003367278459543952 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document
+0.00029843279042852765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document
+0.0002926583661257988 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document
+0.00029320337282010673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document
+0.00029281450669483455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document
+0.0002915338187002653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document
+0.0002864226923084572 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document
+0.00028643439083586396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document
+0.00028253710956299054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document
+0.0002810856078805806 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document
+0.00031474941344656715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document
+0.0002139130222205655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document
+0.0003084648871862831 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document
+0.0003309477872140129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document
+0.0003360096824695161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document
+0.0003355452655196557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document
+0.00038119390366386037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document
+0.00038078927630086064 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document
+0.0003386200917551554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document
+0.0002158905159938882 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document
+0.00021621682877018768 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document
+0.00021553306942740535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document
+0.00021581563462722296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document
+0.0002157694110556169 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document
+0.000215643699847159 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document
+0.00021532716715168094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document
+0.00021531221326022472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document
+0.0002831801179028896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document
+0.0002514844936507595 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document
+0.00031638782778107964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document
+0.0002749197545278445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document
+0.00026159721512464495 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document
+0.0002630052420096968 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document
+0.00031106811228913666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document
+0.0002852973415334161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document
+3.7555372465932136e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document
+0.003548077173506675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document
+0.0018372203137874265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document
diff --git a/ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt b/ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt
new file mode 100644
index 00000000000..86c181c9232
--- /dev/null
+++ b/ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt
@@ -0,0 +1,324 @@
+0.0015052651 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/wiki/wiki-0001_text_document wiki
+0.0031947101 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0032_of_0286_text_document dclm
+0.0031550160 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0157_of_0286_text_document dclm
+0.0029098600 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/wiki/wiki-0000_text_document wiki
+0.0031729901 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0266_of_0286_text_document dclm
+0.0031557786 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0213_of_0286_text_document dclm
+0.0016219887 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/stackexchange/fused_0001_of_0001_text_document stackexchange
+0.0031494994 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0002_of_0286_text_document dclm
+0.0031384534 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0252_of_0286_text_document dclm
+0.0045391538 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/math/fused_0001_of_0003_text_document math
+0.0031296876 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0155_of_0286_text_document dclm
+0.0032052303 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0209_of_0286_text_document dclm
+0.0082405926 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/math/fused_0002_of_0003_text_document math
+0.0031716142 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0164_of_0286_text_document dclm
+0.0031444920 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0162_of_0286_text_document dclm
+0.0008143753 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/math/fused_0003_of_0003_text_document math
+0.0031529612 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0010_of_0286_text_document dclm
+0.0031307002 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0125_of_0286_text_document dclm
+0.0035483860 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0022_of_0025_text_document pes2o
+0.0031687411 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0110_of_0286_text_document dclm
+0.0031371333 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0085_of_0286_text_document dclm
+0.0012068614 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0001_of_0025_text_document pes2o
+0.0031888175 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0254_of_0286_text_document dclm
+0.0031190496 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0096_of_0286_text_document dclm
+0.0012027663 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0006_of_0025_text_document pes2o
+0.0032149646 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0199_of_0286_text_document dclm
+0.0032173151 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0103_of_0286_text_document dclm
+0.0033666555 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0009_of_0025_text_document pes2o
+0.0031355279 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0149_of_0286_text_document dclm
+0.0032267198 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0207_of_0286_text_document dclm
+0.0033626399 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0014_of_0025_text_document pes2o
+0.0031670295 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0047_of_0286_text_document dclm
+0.0031653788 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0234_of_0286_text_document dclm
+0.0012156084 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0007_of_0025_text_document pes2o
+0.0031082385 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0079_of_0286_text_document dclm
+0.0027714846 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0102_of_0286_text_document dclm
+0.0035431033 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0016_of_0025_text_document pes2o
+0.0032059612 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0056_of_0286_text_document dclm
+0.0032011452 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0242_of_0286_text_document dclm
+0.0033600802 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0018_of_0025_text_document pes2o
+0.0032213690 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0226_of_0286_text_document dclm
+0.0031784799 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0018_of_0286_text_document dclm
+0.0033597072 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0017_of_0025_text_document pes2o
+0.0031490267 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0007_of_0286_text_document dclm
+0.0031139241 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0036_of_0286_text_document dclm
+0.0033764500 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0021_of_0025_text_document pes2o
+0.0031707085 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0178_of_0286_text_document dclm
+0.0031665816 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0050_of_0286_text_document dclm
+0.0033649051 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0015_of_0025_text_document pes2o
+0.0031835001 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0161_of_0286_text_document dclm
+0.0032264217 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0026_of_0286_text_document dclm
+0.0033746150 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0019_of_0025_text_document pes2o
+0.0031562112 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0137_of_0286_text_document dclm
+0.0032215595 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0003_of_0286_text_document dclm
+0.0033586666 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0010_of_0025_text_document pes2o
+0.0031278647 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0059_of_0286_text_document dclm
+0.0031861383 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0117_of_0286_text_document dclm
+0.0033667562 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0023_of_0025_text_document pes2o
+0.0031633491 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0211_of_0286_text_document dclm
+0.0031985336 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0160_of_0286_text_document dclm
+0.0035498167 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0011_of_0025_text_document pes2o
+0.0032010168 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0151_of_0286_text_document dclm
+0.0031483384 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0163_of_0286_text_document dclm
+0.0014734011 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0008_of_0025_text_document pes2o
+0.0031805931 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0021_of_0286_text_document dclm
+0.0032041236 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0248_of_0286_text_document dclm
+0.0033757003 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0024_of_0025_text_document pes2o
+0.0031895551 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0086_of_0286_text_document dclm
+0.0027796348 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0133_of_0286_text_document dclm
+0.0012108242 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0002_of_0025_text_document pes2o
+0.0027788350 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0153_of_0286_text_document dclm
+0.0031746045 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0170_of_0286_text_document dclm
+0.0035471278 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0012_of_0025_text_document pes2o
+0.0031470627 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0024_of_0286_text_document dclm
+0.0031703677 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0131_of_0286_text_document dclm
+0.0012096160 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0004_of_0025_text_document pes2o
+0.0027936870 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0201_of_0286_text_document dclm
+0.0032065070 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0006_of_0286_text_document dclm
+0.0012110298 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0003_of_0025_text_document pes2o
+0.0032189979 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0124_of_0286_text_document dclm
+0.0031205252 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0088_of_0286_text_document dclm
+0.0012101216 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0005_of_0025_text_document pes2o
+0.0031902809 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0005_of_0286_text_document dclm
+0.0030890769 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0277_of_0286_text_document dclm
+0.0039357783 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0025_of_0025_text_document pes2o
+0.0030715945 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0063_of_0286_text_document dclm
+0.0031737420 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0058_of_0286_text_document dclm
+0.0035518882 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0013_of_0025_text_document pes2o
+0.0027717404 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0038_of_0286_text_document dclm
+0.0031438131 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0171_of_0286_text_document dclm
+0.0035414461 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/pes2o/fused_0020_of_0025_text_document pes2o
+0.0031684634 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0262_of_0286_text_document dclm
+0.0032265582 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0188_of_0286_text_document dclm
+0.0006686033 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0007_of_0007_text_document flan
+0.0030672209 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0205_of_0286_text_document dclm
+0.0031284188 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0141_of_0286_text_document dclm
+0.0030282017 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0004_of_0007_text_document flan
+0.0031805798 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0270_of_0286_text_document dclm
+0.0031827255 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0017_of_0286_text_document dclm
+0.0030449227 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0002_of_0007_text_document flan
+0.0031340682 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0132_of_0286_text_document dclm
+0.0031388612 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0046_of_0286_text_document dclm
+0.0037764005 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0005_of_0007_text_document flan
+0.0031988945 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0061_of_0286_text_document dclm
+0.0031538174 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0167_of_0286_text_document dclm
+0.0027763045 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0003_of_0007_text_document flan
+0.0031378665 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0075_of_0286_text_document dclm
+0.0030807466 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0127_of_0286_text_document dclm
+0.0033007839 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0006_of_0007_text_document flan
+0.0031965237 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0247_of_0286_text_document dclm
+0.0031418999 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0136_of_0286_text_document dclm
+0.0031028829 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/flan/fused_0001_of_0007_text_document flan
+0.0031666885 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0049_of_0286_text_document dclm
+0.0032167048 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0093_of_0286_text_document dclm
+0.0028354767 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0067_of_0286_text_document dclm
+0.0030981970 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0172_of_0286_text_document dclm
+0.0032208863 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0112_of_0286_text_document dclm
+0.0031998742 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0081_of_0286_text_document dclm
+0.0032197401 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0219_of_0286_text_document dclm
+0.0031433616 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0051_of_0286_text_document dclm
+0.0032045225 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0118_of_0286_text_document dclm
+0.0031755993 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0076_of_0286_text_document dclm
+0.0031269355 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0256_of_0286_text_document dclm
+0.0031600071 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0115_of_0286_text_document dclm
+0.0031659900 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0239_of_0286_text_document dclm
+0.0031155813 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0004_of_0286_text_document dclm
+0.0031664035 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0030_of_0286_text_document dclm
+0.0032035219 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0231_of_0286_text_document dclm
+0.0032066816 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0073_of_0286_text_document dclm
+0.0031779161 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0235_of_0286_text_document dclm
+0.0028517473 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0193_of_0286_text_document dclm
+0.0031348925 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0250_of_0286_text_document dclm
+0.0031874754 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0173_of_0286_text_document dclm
+0.0027849144 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0121_of_0286_text_document dclm
+0.0031283684 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0268_of_0286_text_document dclm
+0.0027784129 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0221_of_0286_text_document dclm
+0.0027866484 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0092_of_0286_text_document dclm
+0.0032043660 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0123_of_0286_text_document dclm
+0.0027896062 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0203_of_0286_text_document dclm
+0.0031824291 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0122_of_0286_text_document dclm
+0.0031773425 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0236_of_0286_text_document dclm
+0.0031805916 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0246_of_0286_text_document dclm
+0.0031991257 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0261_of_0286_text_document dclm
+0.0031333196 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0146_of_0286_text_document dclm
+0.0031920086 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0020_of_0286_text_document dclm
+0.0032207971 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0183_of_0286_text_document dclm
+0.0031957595 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0025_of_0286_text_document dclm
+0.0028059214 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0053_of_0286_text_document dclm
+0.0031544420 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0138_of_0286_text_document dclm
+0.0031346562 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0064_of_0286_text_document dclm
+0.0031245839 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0040_of_0286_text_document dclm
+0.0031792991 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0174_of_0286_text_document dclm
+0.0031546504 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0034_of_0286_text_document dclm
+0.0031792773 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0177_of_0286_text_document dclm
+0.0030766268 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0214_of_0286_text_document dclm
+0.0031631241 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0264_of_0286_text_document dclm
+0.0031832719 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0107_of_0286_text_document dclm
+0.0031436963 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0009_of_0286_text_document dclm
+0.0031547059 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0253_of_0286_text_document dclm
+0.0030778083 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0212_of_0286_text_document dclm
+0.0032180233 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0035_of_0286_text_document dclm
+0.0030883104 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0194_of_0286_text_document dclm
+0.0027991340 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0033_of_0286_text_document dclm
+0.0030850749 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0068_of_0286_text_document dclm
+0.0027763803 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0128_of_0286_text_document dclm
+0.0032038067 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0225_of_0286_text_document dclm
+0.0031695389 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0176_of_0286_text_document dclm
+0.0031668089 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0280_of_0286_text_document dclm
+0.0031728570 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0228_of_0286_text_document dclm
+0.0032221463 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0180_of_0286_text_document dclm
+0.0031527493 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0104_of_0286_text_document dclm
+0.0031359081 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0098_of_0286_text_document dclm
+0.0031887354 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0044_of_0286_text_document dclm
+0.0031531199 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0148_of_0286_text_document dclm
+0.0032231247 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0216_of_0286_text_document dclm
+0.0031634484 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0078_of_0286_text_document dclm
+0.0021278969 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0286_of_0286_text_document dclm
+0.0032313950 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0054_of_0286_text_document dclm
+0.0030389176 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0265_of_0286_text_document dclm
+0.0032293310 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0186_of_0286_text_document dclm
+0.0031684214 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0140_of_0286_text_document dclm
+0.0031982496 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0197_of_0286_text_document dclm
+0.0028035962 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0052_of_0286_text_document dclm
+0.0027851853 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0057_of_0286_text_document dclm
+0.0030869438 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0031_of_0286_text_document dclm
+0.0027925782 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0245_of_0286_text_document dclm
+0.0031451600 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0143_of_0286_text_document dclm
+0.0031331606 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0182_of_0286_text_document dclm
+0.0031184014 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0251_of_0286_text_document dclm
+0.0030317013 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0269_of_0286_text_document dclm
+0.0027760587 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0116_of_0286_text_document dclm
+0.0030998495 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0233_of_0286_text_document dclm
+0.0032297441 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0045_of_0286_text_document dclm
+0.0031679263 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0062_of_0286_text_document dclm
+0.0031498640 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0192_of_0286_text_document dclm
+0.0030975464 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0114_of_0286_text_document dclm
+0.0031156953 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0175_of_0286_text_document dclm
+0.0031531682 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0224_of_0286_text_document dclm
+0.0031905406 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0144_of_0286_text_document dclm
+0.0031558186 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0039_of_0286_text_document dclm
+0.0032048414 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0016_of_0286_text_document dclm
+0.0031296540 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0267_of_0286_text_document dclm
+0.0031244483 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0042_of_0286_text_document dclm
+0.0031814069 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0008_of_0286_text_document dclm
+0.0031832452 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0099_of_0286_text_document dclm
+0.0027639504 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0218_of_0286_text_document dclm
+0.0028148554 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0037_of_0286_text_document dclm
+0.0031475968 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0208_of_0286_text_document dclm
+0.0031457669 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0187_of_0286_text_document dclm
+0.0031595927 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0012_of_0286_text_document dclm
+0.0032093698 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0185_of_0286_text_document dclm
+0.0031415708 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0043_of_0286_text_document dclm
+0.0031920289 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0055_of_0286_text_document dclm
+0.0027814197 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0065_of_0286_text_document dclm
+0.0031088925 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0200_of_0286_text_document dclm
+0.0030863506 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0147_of_0286_text_document dclm
+0.0032243705 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0255_of_0286_text_document dclm
+0.0031587061 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0048_of_0286_text_document dclm
+0.0031215730 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0283_of_0286_text_document dclm
+0.0031680983 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0113_of_0286_text_document dclm
+0.0030982127 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0159_of_0286_text_document dclm
+0.0031348350 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0243_of_0286_text_document dclm
+0.0031501876 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0158_of_0286_text_document dclm
+0.0031510752 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0196_of_0286_text_document dclm
+0.0031915438 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0101_of_0286_text_document dclm
+0.0027835534 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0139_of_0286_text_document dclm
+0.0031138654 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0273_of_0286_text_document dclm
+0.0031421083 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0276_of_0286_text_document dclm
+0.0032250782 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0156_of_0286_text_document dclm
+0.0031456717 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0041_of_0286_text_document dclm
+0.0031777396 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0244_of_0286_text_document dclm
+0.0032174460 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0080_of_0286_text_document dclm
+0.0032111763 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0285_of_0286_text_document dclm
+0.0031166419 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0238_of_0286_text_document dclm
+0.0030693775 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0074_of_0286_text_document dclm
+0.0031426514 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0142_of_0286_text_document dclm
+0.0031817773 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0229_of_0286_text_document dclm
+0.0032073815 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0109_of_0286_text_document dclm
+0.0032215419 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0202_of_0286_text_document dclm
+0.0031582602 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0189_of_0286_text_document dclm
+0.0027776870 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0204_of_0286_text_document dclm
+0.0032060557 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0095_of_0286_text_document dclm
+0.0031725788 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0168_of_0286_text_document dclm
+0.0032214427 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0154_of_0286_text_document dclm
+0.0031215996 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0011_of_0286_text_document dclm
+0.0031405866 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0100_of_0286_text_document dclm
+0.0027680490 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0257_of_0286_text_document dclm
+0.0032077676 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0232_of_0286_text_document dclm
+0.0031674161 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0108_of_0286_text_document dclm
+0.0032152229 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0130_of_0286_text_document dclm
+0.0031782480 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0119_of_0286_text_document dclm
+0.0031424302 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0230_of_0286_text_document dclm
+0.0031558210 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0022_of_0286_text_document dclm
+0.0032239387 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0066_of_0286_text_document dclm
+0.0031894807 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0166_of_0286_text_document dclm
+0.0031265981 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0217_of_0286_text_document dclm
+0.0027970662 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0191_of_0286_text_document dclm
+0.0031562327 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0249_of_0286_text_document dclm
+0.0031096728 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0077_of_0286_text_document dclm
+0.0031055863 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0082_of_0286_text_document dclm
+0.0028031178 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0120_of_0286_text_document dclm
+0.0031768558 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0090_of_0286_text_document dclm
+0.0027699660 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0184_of_0286_text_document dclm
+0.0031072803 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0091_of_0286_text_document dclm
+0.0031908168 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0220_of_0286_text_document dclm
+0.0032086453 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0134_of_0286_text_document dclm
+0.0031220883 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0070_of_0286_text_document dclm
+0.0031385199 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0259_of_0286_text_document dclm
+0.0032271458 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0135_of_0286_text_document dclm
+0.0030638732 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0150_of_0286_text_document dclm
+0.0030769679 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0260_of_0286_text_document dclm
+0.0032303114 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0014_of_0286_text_document dclm
+0.0031762445 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0072_of_0286_text_document dclm
+0.0031839177 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0278_of_0286_text_document dclm
+0.0031614587 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0027_of_0286_text_document dclm
+0.0032287822 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0179_of_0286_text_document dclm
+0.0031706969 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0169_of_0286_text_document dclm
+0.0031927919 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0241_of_0286_text_document dclm
+0.0027680498 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0105_of_0286_text_document dclm
+0.0032086731 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0106_of_0286_text_document dclm
+0.0031408533 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0129_of_0286_text_document dclm
+0.0031964728 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0023_of_0286_text_document dclm
+0.0031728416 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0019_of_0286_text_document dclm
+0.0031440213 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0206_of_0286_text_document dclm
+0.0030863232 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0271_of_0286_text_document dclm
+0.0031409528 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0029_of_0286_text_document dclm
+0.0031407346 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0028_of_0286_text_document dclm
+0.0031271659 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0190_of_0286_text_document dclm
+0.0027747169 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0111_of_0286_text_document dclm
+0.0032174905 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0279_of_0286_text_document dclm
+0.0031577664 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0084_of_0286_text_document dclm
+0.0031890982 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0165_of_0286_text_document dclm
+0.0032084469 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0275_of_0286_text_document dclm
+0.0031989553 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0215_of_0286_text_document dclm
+0.0031470140 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0069_of_0286_text_document dclm
+0.0031501623 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0284_of_0286_text_document dclm
+0.0031378629 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0258_of_0286_text_document dclm
+0.0031844465 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0126_of_0286_text_document dclm
+0.0030853355 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0181_of_0286_text_document dclm
+0.0031349147 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0152_of_0286_text_document dclm
+0.0031207958 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0083_of_0286_text_document dclm
+0.0031629135 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0274_of_0286_text_document dclm
+0.0031174416 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0001_of_0286_text_document dclm
+0.0028260097 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0237_of_0286_text_document dclm
+0.0031286683 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0272_of_0286_text_document dclm
+0.0031256223 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0282_of_0286_text_document dclm
+0.0031479668 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0087_of_0286_text_document dclm
+0.0030992436 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0223_of_0286_text_document dclm
+0.0032101406 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0071_of_0286_text_document dclm
+0.0032023398 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0263_of_0286_text_document dclm
+0.0031790937 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0198_of_0286_text_document dclm
+0.0031543190 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0094_of_0286_text_document dclm
+0.0031423711 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0097_of_0286_text_document dclm
+0.0030922585 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0195_of_0286_text_document dclm
+0.0031964924 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0227_of_0286_text_document dclm
+0.0031985342 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0015_of_0286_text_document dclm
+0.0031781367 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0013_of_0286_text_document dclm
+0.0031596116 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0240_of_0286_text_document dclm
+0.0031463073 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0281_of_0286_text_document dclm
+0.0030829725 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0060_of_0286_text_document dclm
+0.0031550240 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0089_of_0286_text_document dclm
+0.0030955622 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0222_of_0286_text_document dclm
+0.0030790804 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0210_of_0286_text_document dclm
+0.0031393625 /flare/AuroraGPT/datasets/dolmino-mix-1124/data-fused-tok/dclm/fused_0145_of_0286_text_document dclm
diff --git a/ALCF/data-lists/aurora/falcon.txt b/ALCF/data-lists/aurora/falcon.txt
new file mode 100644
index 00000000000..997038fb383
--- /dev/null
+++ b/ALCF/data-lists/aurora/falcon.txt
@@ -0,0 +1,501 @@
+0.0003547982093445404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document falcon
+0.00035934014428504944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document falcon
+0.00035707704501371544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document falcon
+0.00035287930712815354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document falcon
+0.00035977166728996823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document falcon
+0.0003581675664109838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document falcon
+0.0003548617059697185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document falcon
+0.0003639582000286208 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document falcon
+0.00035375839698688127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document falcon
+0.0003743722020080678 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document falcon
+0.0003530399715341242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document falcon
+0.00035511875882752406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document falcon
+0.0003618733574783154 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document falcon
+0.00035185243285420104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document falcon
+0.0003541503739732106 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document falcon
+0.0003631679485751914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document falcon
+0.00035748045578182274 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document falcon
+0.0003606490690555877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document falcon
+0.0003626383296610091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document falcon
+0.00035442644361264756 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document falcon
+0.00035978370170539796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document falcon
+0.0003585562375341541 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document falcon
+0.0003601958372888019 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document falcon
+0.000350277765402227 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document falcon
+0.0003616521184211704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document falcon
+0.0003620625543608188 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document falcon
+0.0003560781983850704 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document falcon
+0.0003553209610592676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document falcon
+0.00035905348643915075 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document falcon
+0.00034744258805696526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document falcon
+0.00035462784035661496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document falcon
+0.00034768186175100895 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document falcon
+0.0003568534635532736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document falcon
+0.00035586511544371234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document falcon
+0.0003524567827568137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document falcon
+0.0003512453770426313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document falcon
+0.0003591792726468799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document falcon
+0.0003514024529343127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document falcon
+0.0003584880112586934 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document falcon
+0.00035133552916418045 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document falcon
+0.0003600811981350215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document falcon
+0.0003571663974228119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document falcon
+0.00035768103378874214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document falcon
+0.00035939205561113694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document falcon
+0.00035186773916029825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document falcon
+0.0003542829672490847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document falcon
+0.0003592783642898726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document falcon
+0.0003556367340099302 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document falcon
+0.00035391392271377027 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document falcon
+0.00035486725707484836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document falcon
+0.00034866743396828035 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document falcon
+0.0003517219808644735 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document falcon
+0.00034874458549673823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document falcon
+0.000355773136961014 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document falcon
+0.00035611750387841917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document falcon
+0.00035305602013916315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document falcon
+0.0003578207127071924 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document falcon
+0.00035514635841943707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document falcon
+0.00034816946212866206 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document falcon
+0.0003512707269761496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document falcon
+0.0003483392117980654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document falcon
+0.0003572169607204321 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document falcon
+0.00035139153281660794 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document falcon
+0.00035536422129036537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document falcon
+0.000352017164107143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document falcon
+0.000351889550179365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document falcon
+0.000358759689953589 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document falcon
+0.0003569286079869268 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document falcon
+0.0003657752958602099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document falcon
+0.00035396127934790697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document falcon
+0.0003618565071224743 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document falcon
+0.00035146051531973204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document falcon
+0.00036107135765783567 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document falcon
+0.00035019554279994576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document falcon
+0.00035567858879904983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document falcon
+0.0003504753174793183 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document falcon
+0.00035931140831329194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document falcon
+0.0003502967866002823 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document falcon
+0.0003532911801041972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document falcon
+0.0003583543013070199 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document falcon
+0.0003566243489931224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document falcon
+0.0003468752314799221 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document falcon
+0.0003597840618138091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document falcon
+0.00035128822484768084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document falcon
+0.00035889496943437507 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document falcon
+0.000352400524650424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document falcon
+0.0003518689536768735 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document falcon
+0.00035866864741303467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document falcon
+0.0003454687659106334 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document falcon
+0.00035348007259317576 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document falcon
+0.0003539752270940644 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document falcon
+0.00035146495994081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document falcon
+0.00035397212846310423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document falcon
+0.00035208246467162587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document falcon
+0.0003490843168676626 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document falcon
+0.00035299633658644394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document falcon
+0.00034868327466167065 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document falcon
+0.00035941351365601583 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document falcon
+0.0003545343062735255 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document falcon
+0.0003528956380445978 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document falcon
+0.0003553355770443352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document falcon
+0.0003644224004937743 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document falcon
+0.00035234291036216907 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document falcon
+0.0003596237469847771 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document falcon
+0.0003531996065735989 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document falcon
+0.0003547177054106099 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document falcon
+0.0003575586499260483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document falcon
+0.00035262635135283667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document falcon
+0.0003624191962188944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document falcon
+0.0003488398052948616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document falcon
+0.0003598294093147917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document falcon
+0.00035583006534466323 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document falcon
+0.00035403139653225103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document falcon
+0.00036134702642187156 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document falcon
+0.0003573689927162834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document falcon
+0.0003577141131435527 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document falcon
+0.00035208814419277406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document falcon
+0.00035996720683665625 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document falcon
+0.00035415304658912596 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document falcon
+0.00036353353029443546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document falcon
+0.0003537326003150983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document falcon
+0.00036053976358299083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document falcon
+0.000352380489373494 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document falcon
+0.00036154661616900994 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document falcon
+0.00035959332325963614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document falcon
+0.0003597954667189692 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document falcon
+0.0003563108270597542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document falcon
+0.0003582891940460143 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document falcon
+0.0003497728210484297 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document falcon
+0.0003549834902179354 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document falcon
+0.0003529828233484542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document falcon
+0.00034627483903285777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document falcon
+0.00035569006572589215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document falcon
+0.00035449377946910314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document falcon
+0.00035802844396194623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document falcon
+0.0003617277809353208 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document falcon
+0.00035034118898654814 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document falcon
+0.000351091193908611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document falcon
+0.0003527914342210668 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document falcon
+0.00035028288369781376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document falcon
+0.00035775745592780506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document falcon
+0.0003449630690661468 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document falcon
+0.0003583490698830361 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document falcon
+0.0003476995746684122 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document falcon
+0.0003535632505019212 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document falcon
+0.00035640180641147417 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document falcon
+0.000361731045691765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document falcon
+0.0003534082129597368 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document falcon
+0.0003550344149828664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document falcon
+0.00035363002411364057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document falcon
+0.0003537265579677396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document falcon
+0.00034950531383577937 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document falcon
+0.00035008511827347514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document falcon
+0.00035594533400871325 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document falcon
+0.00035266312861335946 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document falcon
+0.00035280268794863923 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document falcon
+0.0003565470391528536 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document falcon
+0.0003588492322689137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document falcon
+0.00035469909697832775 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document falcon
+0.00034712082813410526 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document falcon
+0.000348701157101807 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document falcon
+0.0003500192014479944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document falcon
+0.00035120560544669755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document falcon
+0.00035403656850437445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document falcon
+0.00035852376560749366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document falcon
+0.0003534754068111774 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document falcon
+0.00035591740046720765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document falcon
+0.000348522354782563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document falcon
+0.0003533533959664415 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document falcon
+0.00035631425964030697 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document falcon
+0.0003485886551574741 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document falcon
+0.00035917652631065777 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document falcon
+0.0003482975272111288 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document falcon
+0.00035580661277480167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document falcon
+0.0003492290722955348 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document falcon
+0.00034989284450240613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document falcon
+0.0003545677216162781 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document falcon
+0.00034622286859463484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document falcon
+0.00036070626989861965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document falcon
+0.00035518365036320786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document falcon
+0.00035272907057848406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document falcon
+0.0003547343638218734 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document falcon
+0.0003496450144966242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document falcon
+0.0003537407829294287 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document falcon
+0.0003489722653985685 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document falcon
+0.00035057186899911295 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document falcon
+0.0003507566548933051 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document falcon
+0.00035630360179023747 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document falcon
+0.00035631362503416367 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document falcon
+0.0003490204248026821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document falcon
+0.00035761724058371226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document falcon
+0.00035037664777467137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document falcon
+0.000353402110481068 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document falcon
+0.00034524163568371745 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document falcon
+0.00035528523728570974 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document falcon
+0.00034784916132431703 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document falcon
+0.00034928476408048925 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document falcon
+0.00034989205973784984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document falcon
+0.00034201664404094254 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document falcon
+0.0003529676016338611 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document falcon
+0.00034643433682346637 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document falcon
+0.0003511666373001904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document falcon
+0.00034828669066575333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document falcon
+0.0003494625207264413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document falcon
+0.0003458957535879216 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document falcon
+0.0003543020478990003 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document falcon
+0.00034754384069014956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document falcon
+0.0003598856392240133 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document falcon
+0.0003503335458553846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document falcon
+0.00035919595619778716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document falcon
+0.00035767737970754404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document falcon
+0.00035197152783998165 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document falcon
+0.0003549609834422404 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document falcon
+0.0003568184100569753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document falcon
+0.0003512652818651935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document falcon
+0.00035912648958665754 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document falcon
+0.00034764526964056546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document falcon
+0.000352439784960359 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document falcon
+0.00035295886560764226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document falcon
+0.0003518132693658672 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document falcon
+0.00035589987915465713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document falcon
+0.00034923863317385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document falcon
+0.0003457987267929692 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document falcon
+0.0003560928663480501 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document falcon
+0.0003529603811204932 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document falcon
+0.0003524438555443043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document falcon
+0.0003438847030263783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document falcon
+0.00035981978898461613 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document falcon
+0.0003446342778566972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document falcon
+0.00035529584995236537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document falcon
+0.00034855740895831116 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document falcon
+0.00034932634912802544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document falcon
+0.00035805518303064666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document falcon
+0.0003497941877073061 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document falcon
+0.00035774398685405447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document falcon
+0.0003560421780316607 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document falcon
+0.0003508844468369392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document falcon
+0.00035731928892270107 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document falcon
+0.0003557884626314314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document falcon
+0.00034992996760289355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document falcon
+0.000360752554360921 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document falcon
+0.0003452321668708545 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document falcon
+0.0003591745226131023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document falcon
+0.00035256981433229084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document falcon
+0.00035378123159712034 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document falcon
+0.000350464354895999 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document falcon
+0.00035074625557389677 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document falcon
+0.00035025894701994667 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document falcon
+0.00035437902514857614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document falcon
+0.0003514684519732232 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document falcon
+0.00035449717909633905 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document falcon
+0.0003436816402714221 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document falcon
+0.00035139158071782116 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document falcon
+0.0003509424079843335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document falcon
+0.000343894618577506 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document falcon
+0.0003500789770661659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document falcon
+0.0003407788080680086 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document falcon
+0.0003581908175239701 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document falcon
+0.0003465541618780918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document falcon
+0.00034600228792437736 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document falcon
+0.00034416738982773204 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document falcon
+0.0003519900340150641 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document falcon
+0.000343369616864659 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document falcon
+0.0003544993883274688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document falcon
+0.0003504441365073392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document falcon
+0.00034859160702727056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document falcon
+0.00035355909532647185 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document falcon
+0.0003471900922691849 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document falcon
+0.0003563015508709187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document falcon
+0.0003487888744148821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document falcon
+0.00034711767548688336 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document falcon
+0.0003530734609369085 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document falcon
+0.00035123969242560935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document falcon
+0.0003517127620891489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document falcon
+0.00035232835416868673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document falcon
+0.0003524437481912308 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document falcon
+0.0003525996167005602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document falcon
+0.00035064770545242043 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document falcon
+0.00035311558274981226 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document falcon
+0.00034952204800569914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document falcon
+0.0003541471367344846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document falcon
+0.00035418812454561825 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document falcon
+0.0003528951372900714 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document falcon
+0.0003542338042975688 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document falcon
+0.00034937738939942796 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document falcon
+0.0003522182190878447 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document falcon
+0.0003501406466507449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document falcon
+0.00034973079877492633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document falcon
+0.0003485274567713538 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document falcon
+0.00034999308679368985 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document falcon
+0.0003570051724707296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document falcon
+0.00034567230462019706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document falcon
+0.00035529000940160696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document falcon
+0.00034956512308671755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document falcon
+0.0003496962834028953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document falcon
+0.0003468745282493457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document falcon
+0.0003502717155809202 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document falcon
+0.0003556240880896514 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document falcon
+0.0003515109488424343 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document falcon
+0.0003563156688192592 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document falcon
+0.00035040277363989817 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document falcon
+0.0003481408593290717 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document falcon
+0.0003624575124332874 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document falcon
+0.0003522684124250313 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document falcon
+0.00035286996027653544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document falcon
+0.00034967623997256725 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document falcon
+0.00035182649587602765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document falcon
+0.0003524892557026489 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document falcon
+0.0003507642477451811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document falcon
+0.00036190408389835666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document falcon
+0.00035102739424880766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document falcon
+0.00035239718753257265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document falcon
+0.00035298076121821316 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document falcon
+0.0003478704389752654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document falcon
+0.0003503109191567942 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document falcon
+0.00035143250975654426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document falcon
+0.0003480663923069012 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document falcon
+0.00035691540219998623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document falcon
+0.000348815437166351 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document falcon
+0.00035202073257766225 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document falcon
+0.0003491569096274706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document falcon
+0.00035277390475511834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document falcon
+0.0003524972090026609 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document falcon
+0.0003504854249750236 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document falcon
+0.00034740238025423914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document falcon
+0.00034968015462277606 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document falcon
+0.0003493798632762674 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document falcon
+0.0003488202537862122 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document falcon
+0.0003525461864643725 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document falcon
+0.00034903815232825664 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document falcon
+0.00035536982539258216 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document falcon
+0.00034858083265155483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document falcon
+0.0003505014973608067 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document falcon
+0.00035327984042622104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document falcon
+0.0003503286677453136 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document falcon
+0.00035835274842442816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document falcon
+0.00034970302660275595 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document falcon
+0.000357929573140149 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document falcon
+0.0003517238649788585 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document falcon
+0.00036097027318848475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document falcon
+0.0003502734074110026 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document falcon
+0.00035801510806036273 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document falcon
+0.0003568006373479869 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document falcon
+0.00036128108717454636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document falcon
+0.0003563436883111686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document falcon
+0.00035559725321852463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document falcon
+0.00035089656006854944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document falcon
+0.000359453964362057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document falcon
+0.00035629498059104033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document falcon
+0.0003622207707090437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document falcon
+0.0003540946784512821 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document falcon
+0.0003594750565232011 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document falcon
+0.0003566007415086991 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document falcon
+0.0003562142599126134 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document falcon
+0.0003569948186744601 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document falcon
+0.00035166554847920186 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document falcon
+0.00035047994419295137 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document falcon
+0.0003561578193739437 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document falcon
+0.00035470866838811544 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document falcon
+0.00034216920464876335 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document falcon
+0.0003550021513075795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document falcon
+0.0003488045105938729 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document falcon
+0.0003513340720840151 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document falcon
+0.0003448558566387584 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document falcon
+0.0003460966026953241 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document falcon
+0.0003488157616036459 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document falcon
+0.0003446120387842362 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document falcon
+0.000351528602987427 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document falcon
+0.00035661118227454713 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document falcon
+0.0003551342699877457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document falcon
+0.0003478953397924445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document falcon
+0.00034625782458988215 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document falcon
+0.0003527515447405871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document falcon
+0.00034823744889805696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document falcon
+0.00034823314560254406 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document falcon
+0.00035162668292961944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document falcon
+0.0003477307716074623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document falcon
+0.0003446457989477787 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document falcon
+0.00034782916273767795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document falcon
+0.0003517249130302248 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document falcon
+0.0003449873430908556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document falcon
+0.00034841291749669877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document falcon
+0.0003466028498941749 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document falcon
+0.0003486436831199424 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document falcon
+0.0003478279234211838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document falcon
+0.0003495903653274374 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document falcon
+0.00034896893881218957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document falcon
+0.000348941645312426 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document falcon
+0.0003474221308416894 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document falcon
+0.0003462621543839385 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document falcon
+0.0003669373860863891 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document falcon
+0.00034691156268163006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document falcon
+0.0003527774103765281 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document falcon
+0.00034684565672734663 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document falcon
+0.0003454250599604457 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document falcon
+0.0003541536557159006 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document falcon
+0.000345735737037366 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document falcon
+0.0003524669816385214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document falcon
+0.0003441817133096468 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document falcon
+0.0003519093265859089 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document falcon
+0.00035080085480352095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document falcon
+0.00035285227929327434 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document falcon
+0.00034354836346901676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document falcon
+0.00034789770937373467 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document falcon
+0.000343665920520102 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document falcon
+0.0003490884931060568 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document falcon
+0.00034380029463398654 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document falcon
+0.00034874768005099945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document falcon
+0.0003457058510967673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document falcon
+0.00034644265227023904 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document falcon
+0.00035008339858594957 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document falcon
+0.0003462377193296194 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document falcon
+0.0003620491787114201 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document falcon
+0.000348717011044469 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document falcon
+0.00034370072363913706 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document falcon
+0.0003551981066775649 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document falcon
+0.0003500119496799342 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document falcon
+0.0003485082952669081 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document falcon
+0.0003508155580978919 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document falcon
+0.00035311375163251416 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document falcon
+0.00034945972003423253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document falcon
+0.0003474220353789879 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document falcon
+0.0003536443686585001 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document falcon
+0.0003560350489042953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document falcon
+0.0003493655927914396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document falcon
+0.0003528423977146383 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document falcon
+0.00035255554724471217 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document falcon
+0.0003479760010190111 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document falcon
+0.00035458598862501956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document falcon
+0.0003458990560538315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document falcon
+0.00035157946422379875 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document falcon
+0.00034736860650169996 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document falcon
+0.0003529152313394119 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document falcon
+0.00034586294329524465 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document falcon
+0.00035707214923794877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document falcon
+0.0003509580363496512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document falcon
+0.00035244176725524474 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document falcon
+0.0003467539557999047 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document falcon
+0.00034919687962275546 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document falcon
+0.00035094031731719953 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document falcon
+0.0003484309008351352 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document falcon
+0.0003485409424916253 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document falcon
+0.0003499590776117838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document falcon
+0.0003492842758957848 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document falcon
+0.0003529712275178912 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document falcon
+0.0003566141287087449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document falcon
+0.0003649496522047409 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document falcon
+0.0003563218912208234 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document falcon
+0.00035614782126966145 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document falcon
+0.0003531944298453266 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document falcon
+0.0003535950949566616 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document falcon
+0.0003544295554928795 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document falcon
+0.0003519908503740376 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document falcon
+0.00035752817626134463 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document falcon
+0.0003515322689589972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document falcon
+0.0003486893890307115 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document falcon
+0.0003446520464889867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document falcon
+0.0003509421562481707 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document falcon
+0.00035335015702909084 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document falcon
+0.0003490178167345008 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document falcon
+0.0003520497821155174 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document falcon
+0.0003549762618908944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document falcon
+0.00035072190850833103 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document falcon
+0.0003542458638526423 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document falcon
+0.000352419194572916 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document falcon
+0.0003545102564672614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document falcon
+0.0003495437992331806 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document falcon
+0.0003542843376993964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document falcon
+0.000352827529313958 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document falcon
+0.00035442506093223886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document falcon
+0.0003496970719044257 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document falcon
+0.0003553096424442362 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document falcon
+0.00034986845565067564 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document falcon
+0.000352131055186658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document falcon
+0.0003527021708198983 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document falcon
+0.00034905885414547214 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document falcon
+0.0003583433842468394 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document falcon
+0.00034409435202828383 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document falcon
+0.00034846410520871483 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document falcon
+0.0003554459991927314 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document falcon
+0.00035310507471843076 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document falcon
+0.000350028910786098 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document falcon
+0.00035049727458009896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document falcon
+0.0003519047735925826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document falcon
+0.0003513027429919726 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document falcon
+0.0003626947260354396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document falcon
+0.0003500087324849783 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document falcon
+0.0003618315726725285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document falcon
+0.0003535385113938023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document falcon
+0.0003487064058517615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document falcon
+0.0003618709124780938 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document falcon
+0.00035040070335625915 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document falcon
+0.0003506279032267829 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document falcon
+0.0003498435310527524 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document falcon
+0.0003554634749821431 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document falcon
+0.00035091209738758963 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document falcon
+0.00035034103678978573 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document falcon
+0.00035398931854386146 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document falcon
+0.00035495529304989485 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document falcon
+0.00036067883473356603 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document falcon
+
diff --git a/ALCF/data-lists/aurora/megawiki.txt b/ALCF/data-lists/aurora/megawiki.txt
new file mode 100644
index 00000000000..635eba3d906
--- /dev/null
+++ b/ALCF/data-lists/aurora/megawiki.txt
@@ -0,0 +1,262 @@
+6.322825248625475e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document megawika
+2.4432314037946264e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document megawika
+5.6313888721313454e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document megawika
+2.4208171781595055e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document megawika
+2.325811856369237e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document megawika
+2.4010790356322705e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document megawika
+5.36773610843632e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document megawika
+1.360574433501002e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document megawika
+1.3076540344853244e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document megawika
+1.3386534334886313e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document megawika
+1.2498103719605153e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document megawika
+1.403763836949682e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document megawika
+1.3636756723495417e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document megawika
+1.2242489446940814e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document megawika
+1.2398255818973339e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document megawika
+1.2972616994216281e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document megawika
+1.3947809855914134e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document megawika
+1.3144843787829514e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document megawika
+1.1693809976572487e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document megawika
+1.3677252682893802e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document megawika
+1.3940876719849597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document megawika
+1.4222245138730965e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document megawika
+1.3201677767919704e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document megawika
+1.1421717796486169e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document megawika
+1.2890514724498703e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document megawika
+1.3649507648749037e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document megawika
+1.2400732563490717e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document megawika
+1.1557681453277616e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document megawika
+1.2294483595964517e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document megawika
+1.2137484472122283e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document megawika
+1.3299663426456e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document megawika
+1.2461984216479532e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document megawika
+1.4666434217609636e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document megawika
+1.1876997894686238e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document megawika
+1.2939155338964078e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document megawika
+1.3859590039728515e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document megawika
+1.317917848615668e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document megawika
+1.1335281536110342e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document megawika
+1.2889923952861426e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document megawika
+1.3471671647053326e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document megawika
+1.2221720014475102e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document megawika
+1.2632647276287541e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document megawika
+1.28276219004076e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document megawika
+1.36213704321643e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document megawika
+1.2414858625261553e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document megawika
+1.3173700421883744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document megawika
+1.295597796725686e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document megawika
+1.242783936442904e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document megawika
+1.2417374088427464e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document megawika
+1.2134479405400744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document megawika
+1.3090040663304255e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document megawika
+1.2713470581614905e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document megawika
+5.5750231378906594e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document megawika
+5.777597358425469e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document megawika
+5.349786767471258e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document megawika
+5.675165050453583e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document megawika
+5.482611216158831e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document megawika
+5.065421899890121e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document megawika
+5.384718357480146e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document megawika
+4.872037363236061e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document megawika
+4.532709250783155e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document megawika
+5.7257963030489613e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document megawika
+4.9014365579652036e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document megawika
+5.722863552770969e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document megawika
+6.149911636146833e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document megawika
+5.2178057608273506e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document megawika
+4.990228161160431e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document megawika
+5.866186875255134e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document megawika
+5.004185734360719e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document megawika
+4.79401853705107e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document megawika
+5.435219965052376e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document megawika
+5.035997225792266e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document megawika
+5.622401774211625e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document megawika
+5.028826157387559e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document megawika
+5.596379470128795e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document megawika
+6.027824493191489e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document megawika
+5.5358270009931474e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document megawika
+5.9839051807685496e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document megawika
+5.1221077499249595e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document megawika
+5.517228560620279e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document megawika
+5.1687858285052305e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document megawika
+5.684188244145645e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document megawika
+5.212693275535878e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document megawika
+4.8551007022784084e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document megawika
+5.4888506639203145e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document megawika
+5.345098688527242e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document megawika
+4.8506420625516594e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document megawika
+5.132168603397676e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document megawika
+5.719476795114223e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document megawika
+5.7448621149792696e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document megawika
+4.9068410568059265e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document megawika
+5.382937299647678e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document megawika
+4.8288432136304634e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document megawika
+5.841703200305416e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document megawika
+5.1589611587885584e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document megawika
+6.031113829732574e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document megawika
+5.4558202844532094e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document megawika
+5.341852317196142e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document megawika
+5.1402942738369954e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document megawika
+5.735421384377395e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document megawika
+5.473629863586958e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document megawika
+5.4708993245733936e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document megawika
+4.931161863634078e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document megawika
+5.104173022127248e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document megawika
+5.510157161510824e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document megawika
+5.652501401782597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document megawika
+5.7273656573031666e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document megawika
+5.638363224821738e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document megawika
+5.6128115396668704e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document megawika
+5.00304877998141e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document megawika
+5.596120554779096e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document megawika
+5.5280923889040006e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document megawika
+5.223477917938408e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document megawika
+5.29472809986569e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document megawika
+2.205682378243213e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document megawika
+1.4367563720603185e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document megawika
+3.5506193487931076e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document megawika
+3.0442910855821778e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document megawika
+2.2540042508019627e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document megawika
+2.6880163202623216e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document megawika
+2.534473148048727e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document megawika
+2.6560945431318916e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document megawika
+2.547470248967691e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document megawika
+2.5248825388073738e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document megawika
+2.5828729575000054e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document megawika
+2.4026583817957736e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document megawika
+2.3930425429834413e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document megawika
+2.5037365362599724e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document megawika
+2.6696745470595603e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document megawika
+2.140323051341762e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document megawika
+2.617354786691592e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document megawika
+1.538359101762691e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document megawika
+1.2871029252377856e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document megawika
+2.255195411289217e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document megawika
+2.4832313897952067e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document megawika
+9.303873918189968e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document megawika
+2.179532302620228e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document megawika
+1.9750517506901206e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document megawika
+2.7740420380648435e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document megawika
+2.7813714782319335e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document megawika
+4.1595357937609806e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document megawika
+2.741365122389175e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document megawika
+2.117451071361901e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document megawika
+1.7132649760565998e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document megawika
+1.7492547092602047e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document megawika
+1.7499951097392276e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document megawika
+1.6632444789170958e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document megawika
+1.6678802252361607e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document megawika
+1.5519208704558896e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document megawika
+1.652420992967167e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document megawika
+1.6119931034508755e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document megawika
+1.6638882076736552e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document megawika
+1.7198076782652946e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document megawika
+1.572927860565175e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document megawika
+1.5194822618169918e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document megawika
+1.6677776832669846e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document megawika
+1.595612492245688e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document megawika
+1.682350633181197e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document megawika
+1.663983380609724e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document megawika
+1.710187842689243e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document megawika
+1.5733697527539038e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document megawika
+1.6972104757911438e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document megawika
+1.6610142847616577e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document megawika
+1.61094882403031e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document megawika
+1.4789207305138325e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document megawika
+1.639299617676302e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document megawika
+1.3241204512116132e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document megawika
+8.582260726625535e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document megawika
+8.213000975576739e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document megawika
+9.549247732811947e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document megawika
+9.17242785339013e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document megawika
+7.632868223725218e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document megawika
+8.674401118222175e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document megawika
+9.124384255505347e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document megawika
+8.344222222417358e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document megawika
+8.992299957499065e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document megawika
+8.76689497361025e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document megawika
+7.973396239586015e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document megawika
+9.006935606644125e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document megawika
+8.725545954955498e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document megawika
+1.215449694669174e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document megawika
+3.3041720284158646e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document megawika
+2.0593512412624502e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document megawika
+1.893608946986248e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document megawika
+1.737111666788535e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document megawika
+1.4915923449873955e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document megawika
+2.289370239067605e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document megawika
+2.8615335689614638e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document megawika
+8.847283630883125e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document megawika
+1.8175470362373804e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document megawika
+1.8152226683368038e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document megawika
+1.789149655314284e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document megawika
+1.7690523036477663e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document megawika
+1.8333732213753644e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document megawika
+1.8794105687718654e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document megawika
+1.721841156706417e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document megawika
+2.0612008685724796e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document megawika
+1.9297370681336376e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document megawika
+2.0188440409661018e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document megawika
+5.1741216329695265e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document megawika
+1.3417913926038429e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document megawika
+1.1010813016469651e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document megawika
+1.1252416134320087e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document megawika
+1.2801744104313002e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document megawika
+1.3041514955795817e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document megawika
+1.3428837580879075e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document megawika
+1.320809382267804e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document megawika
+1.3451566676555968e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document megawika
+1.228284926657501e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document megawika
+1.2410599573923043e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document megawika
+1.3815343367377182e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document megawika
+1.3895126265148832e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document megawika
+1.2306773644401741e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document megawika
+1.32981021906281e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document megawika
+1.101337469221607e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document megawika
+1.513094184404692e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document megawika
+1.1073759547073234e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document megawika
+1.2879348765857567e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document megawika
+9.619595770228435e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document megawika
+1.2384340836286436e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document megawika
+1.1766667232211577e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document megawika
+1.2871049236196452e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document megawika
+1.2010645926497744e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document megawika
+1.3971428231518597e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document megawika
+1.2283733550547932e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document megawika
+1.2659530508255308e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document megawika
+1.551775613074462e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document megawika
+1.1169413343776979e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document megawika
+1.1433700593712463e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document megawika
+4.964773647323492e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document megawika
+1.0995586595687313e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document megawika
+1.2957393071411267e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document megawika
+2.75899247407709e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document megawika
+2.8269344597344854e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document megawika
+2.329108187246831e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document megawika
+2.4231761430460284e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document megawika
+1.2434140512230442e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document megawika
+1.638718338352859e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document megawika
+3.272953556801187e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document megawika
+6.061314500486327e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document megawika
+1.2465979731210292e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document megawika
+1.2737557327967737e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document megawika
+1.038428658075627e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document megawika
+2.61666472045566e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document megawika
+3.6506873212272224e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document megawika
+1.5066359138295701e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document megawika
+1.1166290872121178e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document megawika
+1.5546966228590285e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document megawika
+1.2583434625014828e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document megawika
+1.3398826881300862e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document megawika
+1.2944933160515968e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document megawika
+1.0971437399901365e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document megawika
+1.2787922795775774e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document megawika
+1.404979227816985e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document megawika
+1.3344734431324463e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document megawika
+4.886031157107555e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document megawika
+3.277261443596394e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document megawika
+3.5057957685786495e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document megawika
+3.287625301718589e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document megawika
+3.1370056372668855e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document megawika
+3.186092015785841e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document megawika
+7.271819324142512e-06 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document megawika
diff --git a/ALCF/data-lists/aurora/nvidia-math1-code2.txt b/ALCF/data-lists/aurora/nvidia-math1-code2.txt
new file mode 100644
index 00000000000..9218c5e6674
--- /dev/null
+++ b/ALCF/data-lists/aurora/nvidia-math1-code2.txt
@@ -0,0 +1,210 @@
+0.0066041769 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0006_of_0014_text_document 4plus
+0.0064896352 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0001_of_0014_text_document 4plus
+0.0056249649 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0014_of_0014_text_document 4plus
+0.0065620092 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0011_of_0014_text_document 4plus
+0.0051356758 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0013_of_0014_text_document 4plus
+0.0050103722 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0007_of_0014_text_document 4plus
+0.0052755781 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0008_of_0014_text_document 4plus
+0.0050491088 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0005_of_0014_text_document 4plus
+0.0052196623 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0003_of_0014_text_document 4plus
+0.0049355830 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0009_of_0014_text_document 4plus
+0.0050814598 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0010_of_0014_text_document 4plus
+0.0051993360 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0004_of_0014_text_document 4plus
+0.0052450016 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0012_of_0014_text_document 4plus
+0.0050743459 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus/fused_0002_of_0014_text_document 4plus
+0.0059846329 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0004_of_0018_text_document 4plus_MIND
+0.0059845899 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0009_of_0018_text_document 4plus_MIND
+0.0059808878 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0016_of_0018_text_document 4plus_MIND
+0.0059890326 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0010_of_0018_text_document 4plus_MIND
+0.0059734562 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0003_of_0018_text_document 4plus_MIND
+0.0059810124 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0014_of_0018_text_document 4plus_MIND
+0.0059867130 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0001_of_0018_text_document 4plus_MIND
+0.0059810021 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0005_of_0018_text_document 4plus_MIND
+0.0059782283 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0008_of_0018_text_document 4plus_MIND
+0.0059782940 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0017_of_0018_text_document 4plus_MIND
+0.0059710269 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0013_of_0018_text_document 4plus_MIND
+0.0059844574 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0002_of_0018_text_document 4plus_MIND
+0.0059633344 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0015_of_0018_text_document 4plus_MIND
+0.0059780891 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0007_of_0018_text_document 4plus_MIND
+0.0059854627 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0011_of_0018_text_document 4plus_MIND
+0.0053505435 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0018_of_0018_text_document 4plus_MIND
+0.0059814337 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0012_of_0018_text_document 4plus_MIND
+0.0059837015 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/4plus_MIND/fused_0006_of_0018_text_document 4plus_MIND
+0.0041796606 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0007_of_0028_text_document 3
+0.0041769267 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0025_of_0028_text_document 3
+0.0041584894 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0022_of_0028_text_document 3
+0.0041582932 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0027_of_0028_text_document 3
+0.0041745608 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0014_of_0028_text_document 3
+0.0041765056 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0023_of_0028_text_document 3
+0.0041771952 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0026_of_0028_text_document 3
+0.0041790022 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0008_of_0028_text_document 3
+0.0041780952 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0002_of_0028_text_document 3
+0.0041744548 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0019_of_0028_text_document 3
+0.0041766825 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0015_of_0028_text_document 3
+0.0041795456 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0020_of_0028_text_document 3
+0.0041702190 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0004_of_0028_text_document 3
+0.0041877268 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0016_of_0028_text_document 3
+0.0041684592 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0003_of_0028_text_document 3
+0.0041732037 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0021_of_0028_text_document 3
+0.0047718597 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0028_of_0028_text_document 3
+0.0041760609 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0001_of_0028_text_document 3
+0.0041803800 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0018_of_0028_text_document 3
+0.0041766392 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0012_of_0028_text_document 3
+0.0041878393 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0006_of_0028_text_document 3
+0.0041838998 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0024_of_0028_text_document 3
+0.0041798020 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0011_of_0028_text_document 3
+0.0041927431 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0009_of_0028_text_document 3
+0.0041697497 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0013_of_0028_text_document 3
+0.0041929834 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0017_of_0028_text_document 3
+0.0041780669 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0010_of_0028_text_document 3
+0.0041583608 /flare/AuroraGPT/datasets/NVIDIA/NVIDIA-CC-MATH-V1-fused-tok/3/fused_0005_of_0028_text_document 3
+0.0038871792 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0021_of_0150_content_document Synthetic-Code
+0.0056804901 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0041_of_0150_content_document Synthetic-Code
+0.0038909922 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0017_of_0150_content_document Synthetic-Code
+0.0056810745 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0034_of_0150_content_document Synthetic-Code
+0.0056795634 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0074_of_0150_content_document Synthetic-Code
+0.0056790712 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0046_of_0150_content_document Synthetic-Code
+0.0056805038 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0086_of_0150_content_document Synthetic-Code
+0.0056793563 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0057_of_0150_content_document Synthetic-Code
+0.0038903737 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0014_of_0150_content_document Synthetic-Code
+0.0051452715 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0148_of_0150_content_document Synthetic-Code
+0.0056803707 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0096_of_0150_content_document Synthetic-Code
+0.0038861114 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0022_of_0150_content_document Synthetic-Code
+0.0056814237 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0066_of_0150_content_document Synthetic-Code
+0.0051442917 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0144_of_0150_content_document Synthetic-Code
+0.0038872163 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0009_of_0150_content_document Synthetic-Code
+0.0051453408 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0146_of_0150_content_document Synthetic-Code
+0.0056806584 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0045_of_0150_content_document Synthetic-Code
+0.0056803566 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0089_of_0150_content_document Synthetic-Code
+0.0056804375 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0094_of_0150_content_document Synthetic-Code
+0.0038751647 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0106_of_0150_content_document Synthetic-Code
+0.0056804373 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0064_of_0150_content_document Synthetic-Code
+0.0038742748 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0121_of_0150_content_document Synthetic-Code
+0.0056796959 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0052_of_0150_content_document Synthetic-Code
+0.0056797172 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0055_of_0150_content_document Synthetic-Code
+0.0056801534 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0060_of_0150_content_document Synthetic-Code
+0.0056800629 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0071_of_0150_content_document Synthetic-Code
+0.0056810417 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0059_of_0150_content_document Synthetic-Code
+0.0038883756 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0024_of_0150_content_document Synthetic-Code
+0.0038751090 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0114_of_0150_content_document Synthetic-Code
+0.0038862753 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0013_of_0150_content_document Synthetic-Code
+0.0038766522 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0112_of_0150_content_document Synthetic-Code
+0.0038864154 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0019_of_0150_content_document Synthetic-Code
+0.0038784007 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0122_of_0150_content_document Synthetic-Code
+0.0038891191 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0029_of_0150_content_document Synthetic-Code
+0.0038896526 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0012_of_0150_content_document Synthetic-Code
+0.0056811154 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0081_of_0150_content_document Synthetic-Code
+0.0038757149 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0127_of_0150_content_document Synthetic-Code
+0.0038879644 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0003_of_0150_content_document Synthetic-Code
+0.0056810409 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0039_of_0150_content_document Synthetic-Code
+0.0056802797 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0073_of_0150_content_document Synthetic-Code
+0.0031175146 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0133_of_0150_content_document Synthetic-Code
+0.0056801069 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0091_of_0150_content_document Synthetic-Code
+0.0038889065 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0026_of_0150_content_document Synthetic-Code
+0.0038861094 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0031_of_0150_content_document Synthetic-Code
+0.0056808751 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0095_of_0150_content_document Synthetic-Code
+0.0031174551 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0140_of_0150_content_document Synthetic-Code
+0.0056798206 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0079_of_0150_content_document Synthetic-Code
+0.0056806840 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0042_of_0150_content_document Synthetic-Code
+0.0031183970 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0138_of_0150_content_document Synthetic-Code
+0.0038883052 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0011_of_0150_content_document Synthetic-Code
+0.0056801098 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0088_of_0150_content_document Synthetic-Code
+0.0056795778 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0067_of_0150_content_document Synthetic-Code
+0.0038752524 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0126_of_0150_content_document Synthetic-Code
+0.0056808165 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0085_of_0150_content_document Synthetic-Code
+0.0038770843 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0125_of_0150_content_document Synthetic-Code
+0.0038900937 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0025_of_0150_content_document Synthetic-Code
+0.0038886996 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0015_of_0150_content_document Synthetic-Code
+0.0038772575 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0120_of_0150_content_document Synthetic-Code
+0.0038873478 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0018_of_0150_content_document Synthetic-Code
+0.0051452386 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0147_of_0150_content_document Synthetic-Code
+0.0056790260 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0087_of_0150_content_document Synthetic-Code
+0.0038854542 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0007_of_0150_content_document Synthetic-Code
+0.0056800477 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0082_of_0150_content_document Synthetic-Code
+0.0031174740 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0130_of_0150_content_document Synthetic-Code
+0.0038878863 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0010_of_0150_content_document Synthetic-Code
+0.0056799969 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0093_of_0150_content_document Synthetic-Code
+0.0056811633 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0077_of_0150_content_document Synthetic-Code
+0.0038867735 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0002_of_0150_content_document Synthetic-Code
+0.0056814006 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0049_of_0150_content_document Synthetic-Code
+0.0056812120 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0072_of_0150_content_document Synthetic-Code
+0.0038767087 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0115_of_0150_content_document Synthetic-Code
+0.0038912735 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0005_of_0150_content_document Synthetic-Code
+0.0056807723 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0048_of_0150_content_document Synthetic-Code
+0.0031171573 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0139_of_0150_content_document Synthetic-Code
+0.0056796890 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0043_of_0150_content_document Synthetic-Code
+0.0051439656 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0142_of_0150_content_document Synthetic-Code
+0.0038750602 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0100_of_0150_content_document Synthetic-Code
+0.0040740067 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0141_of_0150_content_document Synthetic-Code
+0.0056798520 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0056_of_0150_content_document Synthetic-Code
+0.0038745755 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0103_of_0150_content_document Synthetic-Code
+0.0038881197 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0023_of_0150_content_document Synthetic-Code
+0.0038756101 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0098_of_0150_content_document Synthetic-Code
+0.0038755106 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0110_of_0150_content_document Synthetic-Code
+0.0038884248 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0027_of_0150_content_document Synthetic-Code
+0.0038763646 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0107_of_0150_content_document Synthetic-Code
+0.0056809407 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0058_of_0150_content_document Synthetic-Code
+0.0056811519 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0078_of_0150_content_document Synthetic-Code
+0.0056811760 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0069_of_0150_content_document Synthetic-Code
+0.0031187430 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0136_of_0150_content_document Synthetic-Code
+0.0051432204 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0143_of_0150_content_document Synthetic-Code
+0.0051418979 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0149_of_0150_content_document Synthetic-Code
+0.0056808752 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0038_of_0150_content_document Synthetic-Code
+0.0038757175 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0124_of_0150_content_document Synthetic-Code
+0.0056817464 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0090_of_0150_content_document Synthetic-Code
+0.0031173594 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0132_of_0150_content_document Synthetic-Code
+0.0038888720 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0004_of_0150_content_document Synthetic-Code
+0.0038763645 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0116_of_0150_content_document Synthetic-Code
+0.0038766972 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0113_of_0150_content_document Synthetic-Code
+0.0056793052 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0036_of_0150_content_document Synthetic-Code
+0.0045001179 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0128_of_0150_content_document Synthetic-Code
+0.0056798868 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0092_of_0150_content_document Synthetic-Code
+0.0056808054 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0054_of_0150_content_document Synthetic-Code
+0.0056793768 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0044_of_0150_content_document Synthetic-Code
+0.0031175993 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0134_of_0150_content_document Synthetic-Code
+0.0038751691 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0109_of_0150_content_document Synthetic-Code
+0.0056809684 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0068_of_0150_content_document Synthetic-Code
+0.0038766209 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0099_of_0150_content_document Synthetic-Code
+0.0038881890 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0020_of_0150_content_document Synthetic-Code
+0.0056813348 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0065_of_0150_content_document Synthetic-Code
+0.0038746094 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0118_of_0150_content_document Synthetic-Code
+0.0038768599 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0104_of_0150_content_document Synthetic-Code
+0.0038772660 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0108_of_0150_content_document Synthetic-Code
+0.0036717869 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0150_of_0150_content_document Synthetic-Code
+0.0038880646 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0006_of_0150_content_document Synthetic-Code
+0.0056797327 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0047_of_0150_content_document Synthetic-Code
+0.0038767864 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0123_of_0150_content_document Synthetic-Code
+0.0038768383 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0097_of_0150_content_document Synthetic-Code
+0.0056799871 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0084_of_0150_content_document Synthetic-Code
+0.0056806478 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0051_of_0150_content_document Synthetic-Code
+0.0051445019 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0145_of_0150_content_document Synthetic-Code
+0.0056802167 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0075_of_0150_content_document Synthetic-Code
+0.0056805148 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0061_of_0150_content_document Synthetic-Code
+0.0056802122 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0053_of_0150_content_document Synthetic-Code
+0.0056802732 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0083_of_0150_content_document Synthetic-Code
+0.0056814370 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0080_of_0150_content_document Synthetic-Code
+0.0038761274 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0119_of_0150_content_document Synthetic-Code
+0.0038759382 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0111_of_0150_content_document Synthetic-Code
+0.0031181519 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0129_of_0150_content_document Synthetic-Code
+0.0038721431 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0102_of_0150_content_document Synthetic-Code
+0.0056796768 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0070_of_0150_content_document Synthetic-Code
+0.0038780303 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0105_of_0150_content_document Synthetic-Code
+0.0038889541 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0030_of_0150_content_document Synthetic-Code
+0.0038775153 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0101_of_0150_content_document Synthetic-Code
+0.0038857488 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0016_of_0150_content_document Synthetic-Code
+0.0056799540 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0076_of_0150_content_document Synthetic-Code
+0.0056799475 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0035_of_0150_content_document Synthetic-Code
+0.0056820564 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0037_of_0150_content_document Synthetic-Code
+0.0056815333 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0050_of_0150_content_document Synthetic-Code
+0.0056804766 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0063_of_0150_content_document Synthetic-Code
+0.0056806236 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0040_of_0150_content_document Synthetic-Code
+0.0038897764 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0028_of_0150_content_document Synthetic-Code
+0.0056798964 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0062_of_0150_content_document Synthetic-Code
+0.0038870109 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0032_of_0150_content_document Synthetic-Code
+0.0031185882 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0135_of_0150_content_document Synthetic-Code
+0.0056793760 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0033_of_0150_content_document Synthetic-Code
+0.0031172349 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0131_of_0150_content_document Synthetic-Code
+0.0031169274 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0137_of_0150_content_document Synthetic-Code
+0.0038881875 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0001_of_0150_content_document Synthetic-Code
+0.0038902657 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0008_of_0150_content_document Synthetic-Code
+0.0038778521 /flare/AuroraGPT/datasets/NVIDIA/Nemotron-Pretraining-Code-v2-fused-tok/Synthetic-Code/fused_0117_of_0150_content_document Synthetic-Code
diff --git a/ALCF/data-lists/aurora/olmo-mix-1124.txt b/ALCF/data-lists/aurora/olmo-mix-1124.txt
new file mode 100644
index 00000000000..69de81919aa
--- /dev/null
+++ b/ALCF/data-lists/aurora/olmo-mix-1124.txt
@@ -0,0 +1,1438 @@
+0.0016916184 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/wiki/fused_0001_of_0002_text_document wiki
+0.0008750710 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/wiki/fused_0002_of_0002_text_document wiki
+0.0035602442 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/algebraic-stack/fused_0001_of_0003_text_document algebraic-stack
+0.0040678996 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/algebraic-stack/fused_0002_of_0003_text_document algebraic-stack
+0.0009361344 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/algebraic-stack/fused_0003_of_0003_text_document algebraic-stack
+0.0020628192 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0022_of_0025_text_document pes2o
+0.0007015969 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0001_of_0025_text_document pes2o
+0.0006992163 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0006_of_0025_text_document pes2o
+0.0019571719 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0009_of_0025_text_document pes2o
+0.0019548375 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0014_of_0025_text_document pes2o
+0.0007066820 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0007_of_0025_text_document pes2o
+0.0020597481 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0016_of_0025_text_document pes2o
+0.0019533494 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0018_of_0025_text_document pes2o
+0.0019531326 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0017_of_0025_text_document pes2o
+0.0019628659 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0021_of_0025_text_document pes2o
+0.0019561544 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0015_of_0025_text_document pes2o
+0.0019617991 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0019_of_0025_text_document pes2o
+0.0019525277 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0010_of_0025_text_document pes2o
+0.0019572305 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0023_of_0025_text_document pes2o
+0.0020636509 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0011_of_0025_text_document pes2o
+0.0008565472 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0008_of_0025_text_document pes2o
+0.0019624300 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0024_of_0025_text_document pes2o
+0.0007039007 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0002_of_0025_text_document pes2o
+0.0020620877 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0012_of_0025_text_document pes2o
+0.0007031983 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0004_of_0025_text_document pes2o
+0.0007040202 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0003_of_0025_text_document pes2o
+0.0007034923 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0005_of_0025_text_document pes2o
+0.0022880258 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0025_of_0025_text_document pes2o
+0.0020648551 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0013_of_0025_text_document pes2o
+0.0020587847 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/pes2o/fused_0020_of_0025_text_document pes2o
+0.0032668430 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/open-web-math/fused_0001_of_0003_text_document open-web-math
+0.0026537500 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/open-web-math/fused_0002_of_0003_text_document open-web-math
+0.0028121815 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/open-web-math/fused_0003_of_0003_text_document open-web-math
+0.0014233454 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/arxiv/fused_0005_of_0005_text_document arxiv
+0.0026645337 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/arxiv/fused_0004_of_0005_text_document arxiv
+0.0033332955 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/arxiv/fused_0002_of_0005_text_document arxiv
+0.0038234059 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/arxiv/fused_0001_of_0005_text_document arxiv
+0.0032411595 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/arxiv/fused_0003_of_0005_text_document arxiv
+0.0018294835 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0514_of_1380_text_document dclm
+0.0018507614 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1245_of_1380_text_document dclm
+0.0019057482 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0657_of_1380_text_document dclm
+0.0018703259 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0402_of_1380_text_document dclm
+0.0018761172 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0193_of_1380_text_document dclm
+0.0018352288 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0081_of_1380_text_document dclm
+0.0018542042 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0747_of_1380_text_document dclm
+0.0019132349 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0893_of_1380_text_document dclm
+0.0018986856 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1103_of_1380_text_document dclm
+0.0018512106 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1214_of_1380_text_document dclm
+0.0019219147 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0479_of_1380_text_document dclm
+0.0018412034 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0427_of_1380_text_document dclm
+0.0018822748 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0194_of_1380_text_document dclm
+0.0018778341 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0379_of_1380_text_document dclm
+0.0018892680 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0679_of_1380_text_document dclm
+0.0017777129 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0247_of_1380_text_document dclm
+0.0018257472 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0332_of_1380_text_document dclm
+0.0018929278 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0164_of_1380_text_document dclm
+0.0018973543 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0772_of_1380_text_document dclm
+0.0018923846 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0007_of_1380_text_document dclm
+0.0019048418 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1312_of_1380_text_document dclm
+0.0018609074 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1167_of_1380_text_document dclm
+0.0019044918 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0042_of_1380_text_document dclm
+0.0018691585 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1185_of_1380_text_document dclm
+0.0019162346 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0771_of_1380_text_document dclm
+0.0018715739 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0586_of_1380_text_document dclm
+0.0018754377 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0197_of_1380_text_document dclm
+0.0018443191 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0053_of_1380_text_document dclm
+0.0019074914 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0992_of_1380_text_document dclm
+0.0018906962 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1235_of_1380_text_document dclm
+0.0018074489 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0476_of_1380_text_document dclm
+0.0018651080 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1054_of_1380_text_document dclm
+0.0019007134 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0468_of_1380_text_document dclm
+0.0018628169 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0792_of_1380_text_document dclm
+0.0018280937 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0581_of_1380_text_document dclm
+0.0018797597 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0235_of_1380_text_document dclm
+0.0018177165 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0416_of_1380_text_document dclm
+0.0018375578 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0575_of_1380_text_document dclm
+0.0018127794 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0313_of_1380_text_document dclm
+0.0018422362 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0856_of_1380_text_document dclm
+0.0018829563 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0201_of_1380_text_document dclm
+0.0018698975 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1206_of_1380_text_document dclm
+0.0018489451 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0212_of_1380_text_document dclm
+0.0018627014 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0060_of_1380_text_document dclm
+0.0018608744 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0330_of_1380_text_document dclm
+0.0018958050 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0038_of_1380_text_document dclm
+0.0018401793 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0523_of_1380_text_document dclm
+0.0018474051 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1213_of_1380_text_document dclm
+0.0018500122 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1290_of_1380_text_document dclm
+0.0018712428 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0128_of_1380_text_document dclm
+0.0018795686 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1130_of_1380_text_document dclm
+0.0019244501 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0371_of_1380_text_document dclm
+0.0018485262 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0185_of_1380_text_document dclm
+0.0018864832 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0547_of_1380_text_document dclm
+0.0018297940 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0526_of_1380_text_document dclm
+0.0018246380 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0444_of_1380_text_document dclm
+0.0018548483 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0812_of_1380_text_document dclm
+0.0018318399 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0321_of_1380_text_document dclm
+0.0018494539 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1025_of_1380_text_document dclm
+0.0018808494 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0275_of_1380_text_document dclm
+0.0019095425 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1374_of_1380_text_document dclm
+0.0018314888 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1176_of_1380_text_document dclm
+0.0019122305 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0824_of_1380_text_document dclm
+0.0018382881 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1226_of_1380_text_document dclm
+0.0018257026 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0425_of_1380_text_document dclm
+0.0018329238 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0529_of_1380_text_document dclm
+0.0019004427 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0998_of_1380_text_document dclm
+0.0018316324 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0354_of_1380_text_document dclm
+0.0018452801 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1236_of_1380_text_document dclm
+0.0018289322 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1358_of_1380_text_document dclm
+0.0018987828 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0066_of_1380_text_document dclm
+0.0018341039 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0609_of_1380_text_document dclm
+0.0018739570 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0565_of_1380_text_document dclm
+0.0018423487 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0232_of_1380_text_document dclm
+0.0018414757 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1180_of_1380_text_document dclm
+0.0018673039 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0821_of_1380_text_document dclm
+0.0018570268 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0478_of_1380_text_document dclm
+0.0018741098 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1260_of_1380_text_document dclm
+0.0018323693 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0787_of_1380_text_document dclm
+0.0019105024 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0177_of_1380_text_document dclm
+0.0018579480 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1244_of_1380_text_document dclm
+0.0018897371 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1280_of_1380_text_document dclm
+0.0018339781 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1341_of_1380_text_document dclm
+0.0018675967 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0887_of_1380_text_document dclm
+0.0018307571 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1173_of_1380_text_document dclm
+0.0019018056 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0474_of_1380_text_document dclm
+0.0018374219 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0045_of_1380_text_document dclm
+0.0018938192 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0489_of_1380_text_document dclm
+0.0019229224 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1267_of_1380_text_document dclm
+0.0018038026 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0895_of_1380_text_document dclm
+0.0018717950 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0743_of_1380_text_document dclm
+0.0018873804 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0828_of_1380_text_document dclm
+0.0018665323 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0837_of_1380_text_document dclm
+0.0018968838 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0372_of_1380_text_document dclm
+0.0018963942 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0466_of_1380_text_document dclm
+0.0018541771 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0151_of_1380_text_document dclm
+0.0018698711 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0732_of_1380_text_document dclm
+0.0018894950 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0127_of_1380_text_document dclm
+0.0018452070 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1331_of_1380_text_document dclm
+0.0019083166 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0257_of_1380_text_document dclm
+0.0018727883 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0470_of_1380_text_document dclm
+0.0017949268 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0495_of_1380_text_document dclm
+0.0018674750 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0681_of_1380_text_document dclm
+0.0018820689 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0475_of_1380_text_document dclm
+0.0018341200 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0113_of_1380_text_document dclm
+0.0018382941 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0764_of_1380_text_document dclm
+0.0018817227 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0944_of_1380_text_document dclm
+0.0018771059 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0117_of_1380_text_document dclm
+0.0018942741 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0079_of_1380_text_document dclm
+0.0019245775 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0342_of_1380_text_document dclm
+0.0018553394 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0760_of_1380_text_document dclm
+0.0018901312 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0315_of_1380_text_document dclm
+0.0018214595 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0757_of_1380_text_document dclm
+0.0018886267 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0030_of_1380_text_document dclm
+0.0018862606 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0373_of_1380_text_document dclm
+0.0018750463 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1067_of_1380_text_document dclm
+0.0019085327 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0825_of_1380_text_document dclm
+0.0018545905 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0670_of_1380_text_document dclm
+0.0019265063 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1195_of_1380_text_document dclm
+0.0018365273 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0671_of_1380_text_document dclm
+0.0018228662 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0460_of_1380_text_document dclm
+0.0018484202 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0173_of_1380_text_document dclm
+0.0018331162 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0929_of_1380_text_document dclm
+0.0018968216 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0433_of_1380_text_document dclm
+0.0018728489 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1107_of_1380_text_document dclm
+0.0018190723 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1175_of_1380_text_document dclm
+0.0018297789 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0170_of_1380_text_document dclm
+0.0018905247 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1355_of_1380_text_document dclm
+0.0018346736 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0126_of_1380_text_document dclm
+0.0018700717 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0222_of_1380_text_document dclm
+0.0018687740 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1187_of_1380_text_document dclm
+0.0018427712 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0623_of_1380_text_document dclm
+0.0018915909 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0286_of_1380_text_document dclm
+0.0018636094 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0031_of_1380_text_document dclm
+0.0018468998 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0997_of_1380_text_document dclm
+0.0018560440 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1184_of_1380_text_document dclm
+0.0018214870 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1293_of_1380_text_document dclm
+0.0018172191 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0218_of_1380_text_document dclm
+0.0018290169 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0237_of_1380_text_document dclm
+0.0018288824 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0990_of_1380_text_document dclm
+0.0018716118 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1281_of_1380_text_document dclm
+0.0018794268 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0242_of_1380_text_document dclm
+0.0017881114 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1006_of_1380_text_document dclm
+0.0018695477 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0092_of_1380_text_document dclm
+0.0018693027 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0889_of_1380_text_document dclm
+0.0018972631 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0638_of_1380_text_document dclm
+0.0018356020 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0509_of_1380_text_document dclm
+0.0018897586 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0511_of_1380_text_document dclm
+0.0018384992 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0410_of_1380_text_document dclm
+0.0018880726 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0391_of_1380_text_document dclm
+0.0018235586 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0299_of_1380_text_document dclm
+0.0018914402 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0736_of_1380_text_document dclm
+0.0018816617 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0213_of_1380_text_document dclm
+0.0018569127 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1313_of_1380_text_document dclm
+0.0018725271 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0602_of_1380_text_document dclm
+0.0018843571 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0290_of_1380_text_document dclm
+0.0019073376 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1322_of_1380_text_document dclm
+0.0018417191 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0680_of_1380_text_document dclm
+0.0018980609 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1254_of_1380_text_document dclm
+0.0018677054 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1345_of_1380_text_document dclm
+0.0018367428 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1026_of_1380_text_document dclm
+0.0018378824 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0699_of_1380_text_document dclm
+0.0018058036 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1076_of_1380_text_document dclm
+0.0018855970 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1138_of_1380_text_document dclm
+0.0018880120 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0241_of_1380_text_document dclm
+0.0018245854 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0898_of_1380_text_document dclm
+0.0018701538 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0224_of_1380_text_document dclm
+0.0018432957 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0276_of_1380_text_document dclm
+0.0018598787 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0037_of_1380_text_document dclm
+0.0018639489 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0229_of_1380_text_document dclm
+0.0019173725 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0124_of_1380_text_document dclm
+0.0018594884 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0810_of_1380_text_document dclm
+0.0018095439 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0574_of_1380_text_document dclm
+0.0018622776 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1259_of_1380_text_document dclm
+0.0018825616 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0603_of_1380_text_document dclm
+0.0019246269 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0137_of_1380_text_document dclm
+0.0018795127 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0147_of_1380_text_document dclm
+0.0018866601 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1105_of_1380_text_document dclm
+0.0018796094 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0262_of_1380_text_document dclm
+0.0018433990 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0166_of_1380_text_document dclm
+0.0018457154 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0921_of_1380_text_document dclm
+0.0019166336 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0966_of_1380_text_document dclm
+0.0018425678 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0651_of_1380_text_document dclm
+0.0018472643 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0314_of_1380_text_document dclm
+0.0019260864 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0924_of_1380_text_document dclm
+0.0018877908 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0530_of_1380_text_document dclm
+0.0018549938 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0308_of_1380_text_document dclm
+0.0018447361 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0401_of_1380_text_document dclm
+0.0018817288 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1328_of_1380_text_document dclm
+0.0018576826 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1288_of_1380_text_document dclm
+0.0018401439 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1163_of_1380_text_document dclm
+0.0018631989 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0236_of_1380_text_document dclm
+0.0018444213 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1093_of_1380_text_document dclm
+0.0018741967 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0421_of_1380_text_document dclm
+0.0018937940 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0942_of_1380_text_document dclm
+0.0018935839 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0393_of_1380_text_document dclm
+0.0019134968 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1338_of_1380_text_document dclm
+0.0018675200 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0084_of_1380_text_document dclm
+0.0018772070 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0762_of_1380_text_document dclm
+0.0018705388 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0618_of_1380_text_document dclm
+0.0019011909 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0492_of_1380_text_document dclm
+0.0018746500 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0244_of_1380_text_document dclm
+0.0019221765 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1366_of_1380_text_document dclm
+0.0018651238 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1253_of_1380_text_document dclm
+0.0018843114 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1072_of_1380_text_document dclm
+0.0018259995 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0727_of_1380_text_document dclm
+0.0018340976 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0210_of_1380_text_document dclm
+0.0018469574 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0525_of_1380_text_document dclm
+0.0018479453 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0563_of_1380_text_document dclm
+0.0019242407 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0270_of_1380_text_document dclm
+0.0018455479 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0426_of_1380_text_document dclm
+0.0018325862 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1334_of_1380_text_document dclm
+0.0018742951 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0065_of_1380_text_document dclm
+0.0018697997 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0078_of_1380_text_document dclm
+0.0018619267 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0111_of_1380_text_document dclm
+0.0018554206 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0874_of_1380_text_document dclm
+0.0019154249 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0412_of_1380_text_document dclm
+0.0018443356 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0008_of_1380_text_document dclm
+0.0018229357 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1129_of_1380_text_document dclm
+0.0018899491 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1296_of_1380_text_document dclm
+0.0018432649 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0841_of_1380_text_document dclm
+0.0018257777 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0848_of_1380_text_document dclm
+0.0019001873 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0076_of_1380_text_document dclm
+0.0018478680 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0519_of_1380_text_document dclm
+0.0018009501 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0822_of_1380_text_document dclm
+0.0018640925 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0721_of_1380_text_document dclm
+0.0018674438 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0600_of_1380_text_document dclm
+0.0018682718 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1043_of_1380_text_document dclm
+0.0018427549 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0264_of_1380_text_document dclm
+0.0018558621 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0215_of_1380_text_document dclm
+0.0018258300 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0388_of_1380_text_document dclm
+0.0019065056 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1115_of_1380_text_document dclm
+0.0019003209 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0773_of_1380_text_document dclm
+0.0018347884 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0406_of_1380_text_document dclm
+0.0018857147 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1090_of_1380_text_document dclm
+0.0018655813 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0767_of_1380_text_document dclm
+0.0018389277 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0793_of_1380_text_document dclm
+0.0018738371 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0039_of_1380_text_document dclm
+0.0018362008 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0570_of_1380_text_document dclm
+0.0018686516 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0303_of_1380_text_document dclm
+0.0018206997 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0776_of_1380_text_document dclm
+0.0019071614 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0712_of_1380_text_document dclm
+0.0018008154 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0945_of_1380_text_document dclm
+0.0018590650 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0477_of_1380_text_document dclm
+0.0019155993 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0658_of_1380_text_document dclm
+0.0017769544 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0731_of_1380_text_document dclm
+0.0018799115 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0195_of_1380_text_document dclm
+0.0018888472 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1292_of_1380_text_document dclm
+0.0018334075 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0029_of_1380_text_document dclm
+0.0019020180 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0488_of_1380_text_document dclm
+0.0018281964 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1102_of_1380_text_document dclm
+0.0019314419 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0963_of_1380_text_document dclm
+0.0018519837 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0755_of_1380_text_document dclm
+0.0018099277 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0876_of_1380_text_document dclm
+0.0018738874 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0860_of_1380_text_document dclm
+0.0018872350 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0490_of_1380_text_document dclm
+0.0018479014 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0621_of_1380_text_document dclm
+0.0019091327 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0304_of_1380_text_document dclm
+0.0018965531 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0389_of_1380_text_document dclm
+0.0018653304 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1223_of_1380_text_document dclm
+0.0018987721 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1309_of_1380_text_document dclm
+0.0018112236 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0935_of_1380_text_document dclm
+0.0018703577 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0077_of_1380_text_document dclm
+0.0018987462 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0939_of_1380_text_document dclm
+0.0018412652 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0109_of_1380_text_document dclm
+0.0018774230 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0016_of_1380_text_document dclm
+0.0018200938 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1155_of_1380_text_document dclm
+0.0019167423 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0014_of_1380_text_document dclm
+0.0018941669 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0327_of_1380_text_document dclm
+0.0019016732 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1192_of_1380_text_document dclm
+0.0018013874 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1104_of_1380_text_document dclm
+0.0018199958 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0011_of_1380_text_document dclm
+0.0018604353 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0959_of_1380_text_document dclm
+0.0018784838 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1215_of_1380_text_document dclm
+0.0018696938 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0748_of_1380_text_document dclm
+0.0019072044 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0405_of_1380_text_document dclm
+0.0018818575 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0099_of_1380_text_document dclm
+0.0018652260 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1327_of_1380_text_document dclm
+0.0018861993 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0885_of_1380_text_document dclm
+0.0018843313 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0559_of_1380_text_document dclm
+0.0019018207 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0217_of_1380_text_document dclm
+0.0018654141 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0720_of_1380_text_document dclm
+0.0018124821 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0551_of_1380_text_document dclm
+0.0018984222 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0894_of_1380_text_document dclm
+0.0018407002 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1199_of_1380_text_document dclm
+0.0018946082 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0331_of_1380_text_document dclm
+0.0019001650 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0859_of_1380_text_document dclm
+0.0018670612 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1057_of_1380_text_document dclm
+0.0018990572 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0300_of_1380_text_document dclm
+0.0018995237 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1377_of_1380_text_document dclm
+0.0019236742 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0380_of_1380_text_document dclm
+0.0018612864 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1121_of_1380_text_document dclm
+0.0018673395 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0116_of_1380_text_document dclm
+0.0018792485 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1337_of_1380_text_document dclm
+0.0018394065 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1091_of_1380_text_document dclm
+0.0018532436 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0447_of_1380_text_document dclm
+0.0018405922 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0415_of_1380_text_document dclm
+0.0018444330 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0006_of_1380_text_document dclm
+0.0018940195 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0063_of_1380_text_document dclm
+0.0018463930 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0231_of_1380_text_document dclm
+0.0018866914 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0360_of_1380_text_document dclm
+0.0018457370 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0735_of_1380_text_document dclm
+0.0018782653 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0711_of_1380_text_document dclm
+0.0018847284 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0438_of_1380_text_document dclm
+0.0018423815 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0900_of_1380_text_document dclm
+0.0019027074 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0035_of_1380_text_document dclm
+0.0018361075 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0064_of_1380_text_document dclm
+0.0018940670 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0413_of_1380_text_document dclm
+0.0018215708 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0130_of_1380_text_document dclm
+0.0019162600 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0204_of_1380_text_document dclm
+0.0019061173 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1153_of_1380_text_document dclm
+0.0018285422 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1108_of_1380_text_document dclm
+0.0018497699 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1301_of_1380_text_document dclm
+0.0018720661 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0046_of_1380_text_document dclm
+0.0018240812 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0834_of_1380_text_document dclm
+0.0018709973 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0953_of_1380_text_document dclm
+0.0018484622 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0734_of_1380_text_document dclm
+0.0018749492 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0205_of_1380_text_document dclm
+0.0018585468 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0872_of_1380_text_document dclm
+0.0018993125 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0174_of_1380_text_document dclm
+0.0019160923 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1212_of_1380_text_document dclm
+0.0018417181 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0808_of_1380_text_document dclm
+0.0018621153 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0814_of_1380_text_document dclm
+0.0019240997 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0923_of_1380_text_document dclm
+0.0018483985 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0869_of_1380_text_document dclm
+0.0019309032 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0642_of_1380_text_document dclm
+0.0019061166 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0260_of_1380_text_document dclm
+0.0019049171 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0971_of_1380_text_document dclm
+0.0018080877 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1242_of_1380_text_document dclm
+0.0018669705 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0816_of_1380_text_document dclm
+0.0018270375 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0504_of_1380_text_document dclm
+0.0018689676 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0975_of_1380_text_document dclm
+0.0018854989 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1335_of_1380_text_document dclm
+0.0019021632 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1266_of_1380_text_document dclm
+0.0019086154 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1348_of_1380_text_document dclm
+0.0019105257 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0149_of_1380_text_document dclm
+0.0018688622 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0467_of_1380_text_document dclm
+0.0018549201 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1342_of_1380_text_document dclm
+0.0018687808 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0362_of_1380_text_document dclm
+0.0018876964 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0073_of_1380_text_document dclm
+0.0018852231 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0967_of_1380_text_document dclm
+0.0018651567 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0381_of_1380_text_document dclm
+0.0019156936 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1036_of_1380_text_document dclm
+0.0018134282 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0683_of_1380_text_document dclm
+0.0018715365 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0930_of_1380_text_document dclm
+0.0018856602 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1203_of_1380_text_document dclm
+0.0019018166 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0102_of_1380_text_document dclm
+0.0018596122 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0349_of_1380_text_document dclm
+0.0018970324 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0880_of_1380_text_document dclm
+0.0018596011 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0363_of_1380_text_document dclm
+0.0018404441 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0206_of_1380_text_document dclm
+0.0018731259 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0846_of_1380_text_document dclm
+0.0018680015 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1111_of_1380_text_document dclm
+0.0018484725 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0995_of_1380_text_document dclm
+0.0018462672 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0418_of_1380_text_document dclm
+0.0018043945 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1032_of_1380_text_document dclm
+0.0018768238 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0424_of_1380_text_document dclm
+0.0018691867 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1196_of_1380_text_document dclm
+0.0018549773 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0448_of_1380_text_document dclm
+0.0018428781 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1238_of_1380_text_document dclm
+0.0018526826 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1332_of_1380_text_document dclm
+0.0018763549 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0142_of_1380_text_document dclm
+0.0018312940 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0180_of_1380_text_document dclm
+0.0019130115 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1228_of_1380_text_document dclm
+0.0018356139 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1169_of_1380_text_document dclm
+0.0018757080 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0566_of_1380_text_document dclm
+0.0018922094 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1252_of_1380_text_document dclm
+0.0018696378 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1216_of_1380_text_document dclm
+0.0018564618 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0358_of_1380_text_document dclm
+0.0018747817 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0596_of_1380_text_document dclm
+0.0018037933 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1056_of_1380_text_document dclm
+0.0018842334 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1152_of_1380_text_document dclm
+0.0018880962 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0908_of_1380_text_document dclm
+0.0018852454 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0863_of_1380_text_document dclm
+0.0019258935 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0826_of_1380_text_document dclm
+0.0018664390 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0703_of_1380_text_document dclm
+0.0018539604 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0754_of_1380_text_document dclm
+0.0018820039 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0374_of_1380_text_document dclm
+0.0018706501 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0156_of_1380_text_document dclm
+0.0018738398 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1239_of_1380_text_document dclm
+0.0018520938 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0344_of_1380_text_document dclm
+0.0018583268 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1246_of_1380_text_document dclm
+0.0018461179 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0862_of_1380_text_document dclm
+0.0018591204 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1321_of_1380_text_document dclm
+0.0018448338 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1037_of_1380_text_document dclm
+0.0018482994 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0697_of_1380_text_document dclm
+0.0018396398 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0541_of_1380_text_document dclm
+0.0018373273 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0104_of_1380_text_document dclm
+0.0018566847 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0234_of_1380_text_document dclm
+0.0018398595 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0430_of_1380_text_document dclm
+0.0019139834 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0082_of_1380_text_document dclm
+0.0018918316 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0840_of_1380_text_document dclm
+0.0018297887 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0831_of_1380_text_document dclm
+0.0018751209 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1066_of_1380_text_document dclm
+0.0019008854 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0796_of_1380_text_document dclm
+0.0018463936 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0051_of_1380_text_document dclm
+0.0018536237 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0274_of_1380_text_document dclm
+0.0018667058 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0211_of_1380_text_document dclm
+0.0018575307 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1171_of_1380_text_document dclm
+0.0018484386 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1272_of_1380_text_document dclm
+0.0018953383 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0622_of_1380_text_document dclm
+0.0018708542 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0763_of_1380_text_document dclm
+0.0018657670 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0782_of_1380_text_document dclm
+0.0018778205 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1160_of_1380_text_document dclm
+0.0019147164 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0369_of_1380_text_document dclm
+0.0018866640 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0129_of_1380_text_document dclm
+0.0018386811 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0982_of_1380_text_document dclm
+0.0018644587 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1357_of_1380_text_document dclm
+0.0018384335 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0909_of_1380_text_document dclm
+0.0018256657 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0115_of_1380_text_document dclm
+0.0018910288 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0112_of_1380_text_document dclm
+0.0018587420 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1211_of_1380_text_document dclm
+0.0019021554 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0738_of_1380_text_document dclm
+0.0019206735 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1336_of_1380_text_document dclm
+0.0018502001 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1095_of_1380_text_document dclm
+0.0018063843 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0392_of_1380_text_document dclm
+0.0018237877 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1282_of_1380_text_document dclm
+0.0019197506 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1365_of_1380_text_document dclm
+0.0018727967 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1136_of_1380_text_document dclm
+0.0018451986 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0616_of_1380_text_document dclm
+0.0019028778 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0301_of_1380_text_document dclm
+0.0018476846 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0382_of_1380_text_document dclm
+0.0018481131 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0590_of_1380_text_document dclm
+0.0018638395 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0100_of_1380_text_document dclm
+0.0018998986 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0568_of_1380_text_document dclm
+0.0019052566 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1333_of_1380_text_document dclm
+0.0018851817 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0238_of_1380_text_document dclm
+0.0018500819 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0390_of_1380_text_document dclm
+0.0018419942 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0663_of_1380_text_document dclm
+0.0019299515 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0949_of_1380_text_document dclm
+0.0019178310 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0162_of_1380_text_document dclm
+0.0018356134 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1209_of_1380_text_document dclm
+0.0019312048 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0798_of_1380_text_document dclm
+0.0018258568 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0710_of_1380_text_document dclm
+0.0018399533 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0779_of_1380_text_document dclm
+0.0018744345 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0669_of_1380_text_document dclm
+0.0018714698 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1339_of_1380_text_document dclm
+0.0018402046 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0273_of_1380_text_document dclm
+0.0018690259 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1002_of_1380_text_document dclm
+0.0018847487 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1170_of_1380_text_document dclm
+0.0018862909 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0594_of_1380_text_document dclm
+0.0019025441 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1362_of_1380_text_document dclm
+0.0019048226 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0899_of_1380_text_document dclm
+0.0018855320 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1118_of_1380_text_document dclm
+0.0018571632 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0655_of_1380_text_document dclm
+0.0018777523 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0740_of_1380_text_document dclm
+0.0018563269 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0759_of_1380_text_document dclm
+0.0018749821 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0161_of_1380_text_document dclm
+0.0018737137 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0972_of_1380_text_document dclm
+0.0018223511 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1277_of_1380_text_document dclm
+0.0018959707 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0271_of_1380_text_document dclm
+0.0018631523 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0664_of_1380_text_document dclm
+0.0018903911 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1190_of_1380_text_document dclm
+0.0018795364 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0800_of_1380_text_document dclm
+0.0018495524 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0093_of_1380_text_document dclm
+0.0018536896 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0399_of_1380_text_document dclm
+0.0018852574 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0774_of_1380_text_document dclm
+0.0018923357 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1074_of_1380_text_document dclm
+0.0018677450 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0400_of_1380_text_document dclm
+0.0018851258 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0346_of_1380_text_document dclm
+0.0018657540 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0297_of_1380_text_document dclm
+0.0018592106 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0095_of_1380_text_document dclm
+0.0018371471 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0431_of_1380_text_document dclm
+0.0018825750 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0561_of_1380_text_document dclm
+0.0018942577 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0907_of_1380_text_document dclm
+0.0018909400 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0620_of_1380_text_document dclm
+0.0018524695 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0564_of_1380_text_document dclm
+0.0018366115 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0181_of_1380_text_document dclm
+0.0018658956 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0445_of_1380_text_document dclm
+0.0018637280 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0943_of_1380_text_document dclm
+0.0018970477 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0560_of_1380_text_document dclm
+0.0018422840 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0106_of_1380_text_document dclm
+0.0018856931 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0484_of_1380_text_document dclm
+0.0019042016 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0165_of_1380_text_document dclm
+0.0018824662 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0849_of_1380_text_document dclm
+0.0018718026 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0615_of_1380_text_document dclm
+0.0018404168 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0751_of_1380_text_document dclm
+0.0018955843 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0357_of_1380_text_document dclm
+0.0018471907 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0897_of_1380_text_document dclm
+0.0018880475 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0608_of_1380_text_document dclm
+0.0018064113 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0171_of_1380_text_document dclm
+0.0018639737 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0198_of_1380_text_document dclm
+0.0018501609 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0105_of_1380_text_document dclm
+0.0018406059 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0090_of_1380_text_document dclm
+0.0018670782 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0553_of_1380_text_document dclm
+0.0018515311 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0601_of_1380_text_document dclm
+0.0018740600 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0148_of_1380_text_document dclm
+0.0018436897 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0913_of_1380_text_document dclm
+0.0018810607 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1087_of_1380_text_document dclm
+0.0018601461 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1207_of_1380_text_document dclm
+0.0019126128 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1222_of_1380_text_document dclm
+0.0018865197 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0347_of_1380_text_document dclm
+0.0018545476 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0141_of_1380_text_document dclm
+0.0018278502 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0802_of_1380_text_document dclm
+0.0018790521 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0648_of_1380_text_document dclm
+0.0019087638 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1306_of_1380_text_document dclm
+0.0019086703 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1289_of_1380_text_document dclm
+0.0018534333 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0279_of_1380_text_document dclm
+0.0018818039 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0994_of_1380_text_document dclm
+0.0018907756 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0203_of_1380_text_document dclm
+0.0018608936 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0682_of_1380_text_document dclm
+0.0018718580 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0458_of_1380_text_document dclm
+0.0019088074 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1055_of_1380_text_document dclm
+0.0018609412 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0854_of_1380_text_document dclm
+0.0018038430 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0364_of_1380_text_document dclm
+0.0018779187 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0852_of_1380_text_document dclm
+0.0018505518 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1049_of_1380_text_document dclm
+0.0018825681 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0292_of_1380_text_document dclm
+0.0018881821 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0883_of_1380_text_document dclm
+0.0018472746 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0597_of_1380_text_document dclm
+0.0018767929 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1039_of_1380_text_document dclm
+0.0019068838 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0550_of_1380_text_document dclm
+0.0018862796 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1315_of_1380_text_document dclm
+0.0019214525 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0687_of_1380_text_document dclm
+0.0019226715 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0925_of_1380_text_document dclm
+0.0018606431 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0158_of_1380_text_document dclm
+0.0018327872 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0503_of_1380_text_document dclm
+0.0018977414 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0062_of_1380_text_document dclm
+0.0018820707 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1127_of_1380_text_document dclm
+0.0018641175 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1088_of_1380_text_document dclm
+0.0018767167 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0486_of_1380_text_document dclm
+0.0018701187 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0805_of_1380_text_document dclm
+0.0018505233 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0922_of_1380_text_document dclm
+0.0018337531 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1197_of_1380_text_document dclm
+0.0018126747 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1034_of_1380_text_document dclm
+0.0018500296 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0962_of_1380_text_document dclm
+0.0018505906 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0708_of_1380_text_document dclm
+0.0018617534 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0698_of_1380_text_document dclm
+0.0018345821 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1264_of_1380_text_document dclm
+0.0019188646 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0980_of_1380_text_document dclm
+0.0018932106 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0809_of_1380_text_document dclm
+0.0018837969 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1148_of_1380_text_document dclm
+0.0018539522 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1161_of_1380_text_document dclm
+0.0018197167 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0320_of_1380_text_document dclm
+0.0018690040 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0309_of_1380_text_document dclm
+0.0018256024 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1178_of_1380_text_document dclm
+0.0018480117 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1349_of_1380_text_document dclm
+0.0018681399 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0520_of_1380_text_document dclm
+0.0019021710 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0376_of_1380_text_document dclm
+0.0018895428 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1023_of_1380_text_document dclm
+0.0019047181 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0613_of_1380_text_document dclm
+0.0018855437 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0282_of_1380_text_document dclm
+0.0018964219 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1356_of_1380_text_document dclm
+0.0018921764 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0435_of_1380_text_document dclm
+0.0018316352 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0146_of_1380_text_document dclm
+0.0018516763 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0277_of_1380_text_document dclm
+0.0018652002 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0463_of_1380_text_document dclm
+0.0018523233 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0163_of_1380_text_document dclm
+0.0018743603 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0659_of_1380_text_document dclm
+0.0018567925 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0864_of_1380_text_document dclm
+0.0019080064 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0690_of_1380_text_document dclm
+0.0018301721 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0208_of_1380_text_document dclm
+0.0018249580 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1013_of_1380_text_document dclm
+0.0018813171 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1016_of_1380_text_document dclm
+0.0018551290 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0202_of_1380_text_document dclm
+0.0018646581 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1230_of_1380_text_document dclm
+0.0019080001 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1249_of_1380_text_document dclm
+0.0018805160 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1344_of_1380_text_document dclm
+0.0018719004 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0527_of_1380_text_document dclm
+0.0018422914 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0143_of_1380_text_document dclm
+0.0018576947 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0248_of_1380_text_document dclm
+0.0018826346 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0813_of_1380_text_document dclm
+0.0018202996 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0098_of_1380_text_document dclm
+0.0018687034 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0928_of_1380_text_document dclm
+0.0018283517 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0455_of_1380_text_document dclm
+0.0018666737 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0187_of_1380_text_document dclm
+0.0018458003 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0101_of_1380_text_document dclm
+0.0018784618 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0160_of_1380_text_document dclm
+0.0019165496 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0591_of_1380_text_document dclm
+0.0019150472 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0580_of_1380_text_document dclm
+0.0019096007 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0338_of_1380_text_document dclm
+0.0018951413 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0619_of_1380_text_document dclm
+0.0018636033 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0532_of_1380_text_document dclm
+0.0018801762 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0091_of_1380_text_document dclm
+0.0018595926 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0341_of_1380_text_document dclm
+0.0018285462 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1361_of_1380_text_document dclm
+0.0018661147 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0643_of_1380_text_document dclm
+0.0018321209 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0871_of_1380_text_document dclm
+0.0018238375 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0507_of_1380_text_document dclm
+0.0018473142 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0579_of_1380_text_document dclm
+0.0018929779 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1124_of_1380_text_document dclm
+0.0018922866 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1256_of_1380_text_document dclm
+0.0019020674 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0351_of_1380_text_document dclm
+0.0018574034 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1123_of_1380_text_document dclm
+0.0019023583 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1274_of_1380_text_document dclm
+0.0018658007 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0582_of_1380_text_document dclm
+0.0019263296 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1363_of_1380_text_document dclm
+0.0018838421 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0253_of_1380_text_document dclm
+0.0019077058 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0794_of_1380_text_document dclm
+0.0018677016 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0937_of_1380_text_document dclm
+0.0019069591 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1325_of_1380_text_document dclm
+0.0018757994 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0976_of_1380_text_document dclm
+0.0018876071 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0836_of_1380_text_document dclm
+0.0019093391 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0387_of_1380_text_document dclm
+0.0018224155 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0319_of_1380_text_document dclm
+0.0018011020 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0337_of_1380_text_document dclm
+0.0018788858 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0249_of_1380_text_document dclm
+0.0019211780 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0284_of_1380_text_document dclm
+0.0018378218 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1316_of_1380_text_document dclm
+0.0018793777 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0868_of_1380_text_document dclm
+0.0018629749 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0481_of_1380_text_document dclm
+0.0018727372 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1237_of_1380_text_document dclm
+0.0018654836 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1128_of_1380_text_document dclm
+0.0018548777 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0159_of_1380_text_document dclm
+0.0018802148 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0577_of_1380_text_document dclm
+0.0018415794 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0305_of_1380_text_document dclm
+0.0018377748 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0407_of_1380_text_document dclm
+0.0018932316 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0521_of_1380_text_document dclm
+0.0018911868 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1134_of_1380_text_document dclm
+0.0018601946 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0153_of_1380_text_document dclm
+0.0018897654 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0052_of_1380_text_document dclm
+0.0019276232 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1113_of_1380_text_document dclm
+0.0018543013 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0957_of_1380_text_document dclm
+0.0018555126 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0350_of_1380_text_document dclm
+0.0018464948 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0877_of_1380_text_document dclm
+0.0018784567 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0979_of_1380_text_document dclm
+0.0019212272 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0890_of_1380_text_document dclm
+0.0018642543 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0915_of_1380_text_document dclm
+0.0018558482 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0567_of_1380_text_document dclm
+0.0018940979 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0167_of_1380_text_document dclm
+0.0019153170 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0696_of_1380_text_document dclm
+0.0018768687 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0556_of_1380_text_document dclm
+0.0018919257 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0186_of_1380_text_document dclm
+0.0018648516 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1372_of_1380_text_document dclm
+0.0018452263 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1069_of_1380_text_document dclm
+0.0018684198 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1174_of_1380_text_document dclm
+0.0018715785 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0089_of_1380_text_document dclm
+0.0018522881 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0628_of_1380_text_document dclm
+0.0019094008 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1255_of_1380_text_document dclm
+0.0018534555 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0986_of_1380_text_document dclm
+0.0018895471 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0272_of_1380_text_document dclm
+0.0018354636 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0745_of_1380_text_document dclm
+0.0018805944 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0817_of_1380_text_document dclm
+0.0018905448 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0318_of_1380_text_document dclm
+0.0018725921 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0169_of_1380_text_document dclm
+0.0018584122 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1369_of_1380_text_document dclm
+0.0018651832 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0891_of_1380_text_document dclm
+0.0018413498 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1323_of_1380_text_document dclm
+0.0018522595 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0500_of_1380_text_document dclm
+0.0018844116 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0298_of_1380_text_document dclm
+0.0018423878 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0343_of_1380_text_document dclm
+0.0018416312 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0036_of_1380_text_document dclm
+0.0018998049 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0437_of_1380_text_document dclm
+0.0019015746 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0617_of_1380_text_document dclm
+0.0018470154 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1077_of_1380_text_document dclm
+0.0018599366 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1046_of_1380_text_document dclm
+0.0018664504 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0633_of_1380_text_document dclm
+0.0018885638 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0624_of_1380_text_document dclm
+0.0018454824 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0984_of_1380_text_document dclm
+0.0018818185 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0395_of_1380_text_document dclm
+0.0018313168 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0219_of_1380_text_document dclm
+0.0018218889 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1291_of_1380_text_document dclm
+0.0018999432 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0022_of_1380_text_document dclm
+0.0019185357 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1319_of_1380_text_document dclm
+0.0018569415 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0544_of_1380_text_document dclm
+0.0019293328 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0408_of_1380_text_document dclm
+0.0018673488 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0108_of_1380_text_document dclm
+0.0018792552 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1261_of_1380_text_document dclm
+0.0017608926 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0261_of_1380_text_document dclm
+0.0019094092 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0677_of_1380_text_document dclm
+0.0018957909 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0904_of_1380_text_document dclm
+0.0018309363 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1070_of_1380_text_document dclm
+0.0018999699 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0280_of_1380_text_document dclm
+0.0018319594 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1116_of_1380_text_document dclm
+0.0018659322 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0044_of_1380_text_document dclm
+0.0018272376 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0709_of_1380_text_document dclm
+0.0019090018 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0780_of_1380_text_document dclm
+0.0018782011 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1015_of_1380_text_document dclm
+0.0018343919 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1022_of_1380_text_document dclm
+0.0018620814 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0356_of_1380_text_document dclm
+0.0018239137 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0312_of_1380_text_document dclm
+0.0018059976 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0423_of_1380_text_document dclm
+0.0018659400 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0480_of_1380_text_document dclm
+0.0018811025 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1320_of_1380_text_document dclm
+0.0018734525 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0291_of_1380_text_document dclm
+0.0018705430 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1092_of_1380_text_document dclm
+0.0019021394 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0685_of_1380_text_document dclm
+0.0018662783 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0879_of_1380_text_document dclm
+0.0018731764 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0768_of_1380_text_document dclm
+0.0018381929 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0459_of_1380_text_document dclm
+0.0018418093 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1156_of_1380_text_document dclm
+0.0018819648 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0323_of_1380_text_document dclm
+0.0018709593 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0853_of_1380_text_document dclm
+0.0019046035 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0138_of_1380_text_document dclm
+0.0018207018 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0001_of_1380_text_document dclm
+0.0018316259 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0958_of_1380_text_document dclm
+0.0018685142 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1109_of_1380_text_document dclm
+0.0019281788 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1168_of_1380_text_document dclm
+0.0018718903 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0316_of_1380_text_document dclm
+0.0018933502 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1200_of_1380_text_document dclm
+0.0018703207 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0646_of_1380_text_document dclm
+0.0018869175 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0906_of_1380_text_document dclm
+0.0019297890 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0797_of_1380_text_document dclm
+0.0019086814 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0639_of_1380_text_document dclm
+0.0019054407 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0200_of_1380_text_document dclm
+0.0018253523 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0293_of_1380_text_document dclm
+0.0019325438 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1047_of_1380_text_document dclm
+0.0018535922 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0827_of_1380_text_document dclm
+0.0018795320 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1194_of_1380_text_document dclm
+0.0018664075 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0464_of_1380_text_document dclm
+0.0018638728 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0353_of_1380_text_document dclm
+0.0018938379 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1308_of_1380_text_document dclm
+0.0018581932 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1009_of_1380_text_document dclm
+0.0019003641 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0422_of_1380_text_document dclm
+0.0018672961 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0061_of_1380_text_document dclm
+0.0018721213 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0355_of_1380_text_document dclm
+0.0018897893 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0191_of_1380_text_document dclm
+0.0019072332 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0572_of_1380_text_document dclm
+0.0018717260 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0641_of_1380_text_document dclm
+0.0018893794 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1303_of_1380_text_document dclm
+0.0018788473 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1305_of_1380_text_document dclm
+0.0018263065 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0226_of_1380_text_document dclm
+0.0018719328 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1343_of_1380_text_document dclm
+0.0018706147 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0571_of_1380_text_document dclm
+0.0018575036 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1218_of_1380_text_document dclm
+0.0018117550 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0713_of_1380_text_document dclm
+0.0018461351 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0881_of_1380_text_document dclm
+0.0019151428 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0419_of_1380_text_document dclm
+0.0018963694 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0845_of_1380_text_document dclm
+0.0018953954 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0838_of_1380_text_document dclm
+0.0018710534 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0742_of_1380_text_document dclm
+0.0018381884 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0790_of_1380_text_document dclm
+0.0018460766 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0605_of_1380_text_document dclm
+0.0018723902 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0487_of_1380_text_document dclm
+0.0018503678 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0396_of_1380_text_document dclm
+0.0018922701 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0770_of_1380_text_document dclm
+0.0018646071 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0361_of_1380_text_document dclm
+0.0018700677 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0094_of_1380_text_document dclm
+0.0018446412 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0629_of_1380_text_document dclm
+0.0018318657 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1204_of_1380_text_document dclm
+0.0018352471 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0728_of_1380_text_document dclm
+0.0018594037 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0548_of_1380_text_document dclm
+0.0018919110 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0988_of_1380_text_document dclm
+0.0018139825 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0555_of_1380_text_document dclm
+0.0018434120 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0221_of_1380_text_document dclm
+0.0019119555 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0675_of_1380_text_document dclm
+0.0018293943 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1028_of_1380_text_document dclm
+0.0018296420 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0513_of_1380_text_document dclm
+0.0018766019 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0652_of_1380_text_document dclm
+0.0018414808 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1001_of_1380_text_document dclm
+0.0018544155 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0240_of_1380_text_document dclm
+0.0018448547 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0088_of_1380_text_document dclm
+0.0019223865 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1283_of_1380_text_document dclm
+0.0019081765 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1165_of_1380_text_document dclm
+0.0018333250 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0269_of_1380_text_document dclm
+0.0018740564 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0121_of_1380_text_document dclm
+0.0018446218 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1234_of_1380_text_document dclm
+0.0018794959 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0182_of_1380_text_document dclm
+0.0018745029 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1232_of_1380_text_document dclm
+0.0018699782 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0517_of_1380_text_document dclm
+0.0019191539 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1279_of_1380_text_document dclm
+0.0018386079 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0496_of_1380_text_document dclm
+0.0018387638 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1020_of_1380_text_document dclm
+0.0018373025 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0225_of_1380_text_document dclm
+0.0019115299 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0296_of_1380_text_document dclm
+0.0019236015 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0950_of_1380_text_document dclm
+0.0018362277 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0183_of_1380_text_document dclm
+0.0018382665 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1151_of_1380_text_document dclm
+0.0018467086 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1314_of_1380_text_document dclm
+0.0019108435 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0781_of_1380_text_document dclm
+0.0018309001 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0645_of_1380_text_document dclm
+0.0018464568 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0019_of_1380_text_document dclm
+0.0018659468 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1373_of_1380_text_document dclm
+0.0018564427 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0348_of_1380_text_document dclm
+0.0018290265 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0888_of_1380_text_document dclm
+0.0018887476 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0733_of_1380_text_document dclm
+0.0018908862 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0074_of_1380_text_document dclm
+0.0018989668 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0970_of_1380_text_document dclm
+0.0018731163 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1221_of_1380_text_document dclm
+0.0018726913 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0494_of_1380_text_document dclm
+0.0018762932 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1141_of_1380_text_document dclm
+0.0018616122 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0482_of_1380_text_document dclm
+0.0018384335 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0546_of_1380_text_document dclm
+0.0018721451 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0806_of_1380_text_document dclm
+0.0018336444 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0326_of_1380_text_document dclm
+0.0018022324 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1041_of_1380_text_document dclm
+0.0018892364 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0386_of_1380_text_document dclm
+0.0018068131 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0027_of_1380_text_document dclm
+0.0018059579 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0666_of_1380_text_document dclm
+0.0018788448 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0612_of_1380_text_document dclm
+0.0018875379 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0746_of_1380_text_document dclm
+0.0018070240 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0136_of_1380_text_document dclm
+0.0019029995 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0409_of_1380_text_document dclm
+0.0018992707 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1278_of_1380_text_document dclm
+0.0018725762 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1018_of_1380_text_document dclm
+0.0018195643 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0179_of_1380_text_document dclm
+0.0018575007 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0429_of_1380_text_document dclm
+0.0018636686 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1112_of_1380_text_document dclm
+0.0018861857 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0636_of_1380_text_document dclm
+0.0018586092 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0540_of_1380_text_document dclm
+0.0019173146 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1164_of_1380_text_document dclm
+0.0018523085 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1024_of_1380_text_document dclm
+0.0018651616 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0598_of_1380_text_document dclm
+0.0018472634 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1188_of_1380_text_document dclm
+0.0018293119 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0365_of_1380_text_document dclm
+0.0018731080 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1219_of_1380_text_document dclm
+0.0018717051 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0758_of_1380_text_document dclm
+0.0019042224 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0428_of_1380_text_document dclm
+0.0018791471 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0968_of_1380_text_document dclm
+0.0018706125 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1295_of_1380_text_document dclm
+0.0019271516 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0552_of_1380_text_document dclm
+0.0018768360 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0454_of_1380_text_document dclm
+0.0019057967 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1370_of_1380_text_document dclm
+0.0018982943 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0875_of_1380_text_document dclm
+0.0018702588 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0456_of_1380_text_document dclm
+0.0018730837 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0339_of_1380_text_document dclm
+0.0019032527 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0132_of_1380_text_document dclm
+0.0018687659 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0896_of_1380_text_document dclm
+0.0018468720 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0420_of_1380_text_document dclm
+0.0018363290 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0015_of_1380_text_document dclm
+0.0018724510 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0383_of_1380_text_document dclm
+0.0018765133 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1350_of_1380_text_document dclm
+0.0018115212 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1068_of_1380_text_document dclm
+0.0018322939 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0587_of_1380_text_document dclm
+0.0018320414 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0145_of_1380_text_document dclm
+0.0018701311 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0804_of_1380_text_document dclm
+0.0018346909 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0446_of_1380_text_document dclm
+0.0018959318 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1149_of_1380_text_document dclm
+0.0018327166 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0956_of_1380_text_document dclm
+0.0018820050 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1119_of_1380_text_document dclm
+0.0019257100 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0135_of_1380_text_document dclm
+0.0018291171 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0914_of_1380_text_document dclm
+0.0018545792 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0788_of_1380_text_document dclm
+0.0018306372 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0989_of_1380_text_document dclm
+0.0018728107 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1251_of_1380_text_document dclm
+0.0018453362 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0335_of_1380_text_document dclm
+0.0018835295 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0144_of_1380_text_document dclm
+0.0018326795 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0287_of_1380_text_document dclm
+0.0018952474 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0278_of_1380_text_document dclm
+0.0018521983 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0522_of_1380_text_document dclm
+0.0018435895 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0531_of_1380_text_document dclm
+0.0018293725 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0668_of_1380_text_document dclm
+0.0019058004 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0152_of_1380_text_document dclm
+0.0018597526 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0516_of_1380_text_document dclm
+0.0018145097 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0569_of_1380_text_document dclm
+0.0018574845 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1202_of_1380_text_document dclm
+0.0018855389 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0919_of_1380_text_document dclm
+0.0018196574 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0985_of_1380_text_document dclm
+0.0018754655 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0125_of_1380_text_document dclm
+0.0018526184 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1154_of_1380_text_document dclm
+0.0018227247 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0947_of_1380_text_document dclm
+0.0019110234 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0216_of_1380_text_document dclm
+0.0019028642 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1019_of_1380_text_document dclm
+0.0018307843 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0010_of_1380_text_document dclm
+0.0018761834 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0196_of_1380_text_document dclm
+0.0019017444 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0799_of_1380_text_document dclm
+0.0018921847 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0266_of_1380_text_document dclm
+0.0018524751 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0604_of_1380_text_document dclm
+0.0018873638 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0403_of_1380_text_document dclm
+0.0019336533 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0878_of_1380_text_document dclm
+0.0018969305 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1027_of_1380_text_document dclm
+0.0018454210 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1075_of_1380_text_document dclm
+0.0018277482 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1353_of_1380_text_document dclm
+0.0019110484 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1276_of_1380_text_document dclm
+0.0019130451 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0307_of_1380_text_document dclm
+0.0018646888 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0873_of_1380_text_document dclm
+0.0018567673 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0545_of_1380_text_document dclm
+0.0018662453 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1031_of_1380_text_document dclm
+0.0018656394 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1172_of_1380_text_document dclm
+0.0018649889 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0228_of_1380_text_document dclm
+0.0018662391 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0650_of_1380_text_document dclm
+0.0018269771 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1227_of_1380_text_document dclm
+0.0018400189 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0705_of_1380_text_document dclm
+0.0018380056 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0584_of_1380_text_document dclm
+0.0018586877 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1040_of_1380_text_document dclm
+0.0018307351 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0440_of_1380_text_document dclm
+0.0018436218 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0469_of_1380_text_document dclm
+0.0018494088 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0634_of_1380_text_document dclm
+0.0018663997 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0692_of_1380_text_document dclm
+0.0018553709 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0578_of_1380_text_document dclm
+0.0018538059 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1243_of_1380_text_document dclm
+0.0018697949 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1120_of_1380_text_document dclm
+0.0019140026 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0537_of_1380_text_document dclm
+0.0018495141 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1285_of_1380_text_document dclm
+0.0019233718 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0718_of_1380_text_document dclm
+0.0018355907 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0903_of_1380_text_document dclm
+0.0018316432 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1347_of_1380_text_document dclm
+0.0019007437 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1084_of_1380_text_document dclm
+0.0018480700 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0918_of_1380_text_document dclm
+0.0018536385 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1241_of_1380_text_document dclm
+0.0018639914 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0258_of_1380_text_document dclm
+0.0018918419 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0933_of_1380_text_document dclm
+0.0018128165 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0439_of_1380_text_document dclm
+0.0019036799 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0562_of_1380_text_document dclm
+0.0018682514 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1284_of_1380_text_document dclm
+0.0018649201 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0192_of_1380_text_document dclm
+0.0018341436 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0209_of_1380_text_document dclm
+0.0018441648 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0119_of_1380_text_document dclm
+0.0019171286 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0965_of_1380_text_document dclm
+0.0018700420 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0245_of_1380_text_document dclm
+0.0019162796 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1044_of_1380_text_document dclm
+0.0018376284 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1089_of_1380_text_document dclm
+0.0018205568 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0072_of_1380_text_document dclm
+0.0018682892 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0750_of_1380_text_document dclm
+0.0018344781 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0704_of_1380_text_document dclm
+0.0018464707 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0867_of_1380_text_document dclm
+0.0018128792 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0067_of_1380_text_document dclm
+0.0018341206 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0637_of_1380_text_document dclm
+0.0019213774 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0835_of_1380_text_document dclm
+0.0019163265 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0589_of_1380_text_document dclm
+0.0018789254 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0255_of_1380_text_document dclm
+0.0018295082 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0457_of_1380_text_document dclm
+0.0019007284 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0684_of_1380_text_document dclm
+0.0018145506 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0676_of_1380_text_document dclm
+0.0018787394 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1364_of_1380_text_document dclm
+0.0018961785 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1058_of_1380_text_document dclm
+0.0018739282 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0978_of_1380_text_document dclm
+0.0018843646 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0259_of_1380_text_document dclm
+0.0018706314 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0083_of_1380_text_document dclm
+0.0019030468 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1298_of_1380_text_document dclm
+0.0018728270 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1231_of_1380_text_document dclm
+0.0018217090 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0691_of_1380_text_document dclm
+0.0018916742 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0188_of_1380_text_document dclm
+0.0018652824 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1376_of_1380_text_document dclm
+0.0018627009 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0695_of_1380_text_document dclm
+0.0018687061 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0345_of_1380_text_document dclm
+0.0018533328 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0730_of_1380_text_document dclm
+0.0019004980 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0725_of_1380_text_document dclm
+0.0018622517 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0025_of_1380_text_document dclm
+0.0018693479 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1177_of_1380_text_document dclm
+0.0018304992 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0719_of_1380_text_document dclm
+0.0018413407 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0801_of_1380_text_document dclm
+0.0018956016 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1179_of_1380_text_document dclm
+0.0018875657 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1082_of_1380_text_document dclm
+0.0018760859 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0370_of_1380_text_document dclm
+0.0018528936 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0483_of_1380_text_document dclm
+0.0018902015 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1038_of_1380_text_document dclm
+0.0018992719 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1210_of_1380_text_document dclm
+0.0018759828 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0268_of_1380_text_document dclm
+0.0018957802 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1191_of_1380_text_document dclm
+0.0019038385 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0505_of_1380_text_document dclm
+0.0019127512 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1061_of_1380_text_document dclm
+0.0018618835 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0717_of_1380_text_document dclm
+0.0018380410 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0003_of_1380_text_document dclm
+0.0019240799 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0741_of_1380_text_document dclm
+0.0018973885 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1106_of_1380_text_document dclm
+0.0018298568 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0791_of_1380_text_document dclm
+0.0018280632 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0674_of_1380_text_document dclm
+0.0018523376 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1162_of_1380_text_document dclm
+0.0018935350 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1367_of_1380_text_document dclm
+0.0018699494 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0783_of_1380_text_document dclm
+0.0018406304 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1053_of_1380_text_document dclm
+0.0018462301 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0855_of_1380_text_document dclm
+0.0018628542 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0557_of_1380_text_document dclm
+0.0018558770 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0071_of_1380_text_document dclm
+0.0019083828 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0285_of_1380_text_document dclm
+0.0018779468 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1351_of_1380_text_document dclm
+0.0018862027 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1258_of_1380_text_document dclm
+0.0018473214 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0815_of_1380_text_document dclm
+0.0018340737 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0333_of_1380_text_document dclm
+0.0018951646 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0649_of_1380_text_document dclm
+0.0018489962 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0538_of_1380_text_document dclm
+0.0018601429 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0214_of_1380_text_document dclm
+0.0018791392 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0524_of_1380_text_document dclm
+0.0018882402 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0223_of_1380_text_document dclm
+0.0019133154 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1240_of_1380_text_document dclm
+0.0019106616 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0311_of_1380_text_document dclm
+0.0018907078 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0917_of_1380_text_document dclm
+0.0018709038 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1063_of_1380_text_document dclm
+0.0018672721 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1268_of_1380_text_document dclm
+0.0018452050 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0176_of_1380_text_document dclm
+0.0019023331 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0626_of_1380_text_document dclm
+0.0018317003 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1125_of_1380_text_document dclm
+0.0018189946 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0103_of_1380_text_document dclm
+0.0018143876 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1158_of_1380_text_document dclm
+0.0018802984 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0434_of_1380_text_document dclm
+0.0019031458 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0441_of_1380_text_document dclm
+0.0018101783 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1083_of_1380_text_document dclm
+0.0018730260 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1273_of_1380_text_document dclm
+0.0018800628 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1007_of_1380_text_document dclm
+0.0018043363 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1265_of_1380_text_document dclm
+0.0018559722 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0938_of_1380_text_document dclm
+0.0018863892 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0220_of_1380_text_document dclm
+0.0019165899 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0635_of_1380_text_document dclm
+0.0018666864 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0175_of_1380_text_document dclm
+0.0018543807 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0693_of_1380_text_document dclm
+0.0018573839 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1052_of_1380_text_document dclm
+0.0018465772 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0769_of_1380_text_document dclm
+0.0018344368 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1114_of_1380_text_document dclm
+0.0018954131 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1029_of_1380_text_document dclm
+0.0019024576 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1004_of_1380_text_document dclm
+0.0019065884 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0640_of_1380_text_document dclm
+0.0018558021 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0352_of_1380_text_document dclm
+0.0018752061 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0485_of_1380_text_document dclm
+0.0018435877 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0155_of_1380_text_document dclm
+0.0018677608 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0983_of_1380_text_document dclm
+0.0018477022 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0789_of_1380_text_document dclm
+0.0019131420 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0359_of_1380_text_document dclm
+0.0018529167 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0034_of_1380_text_document dclm
+0.0018418107 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0134_of_1380_text_document dclm
+0.0018396155 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0905_of_1380_text_document dclm
+0.0018380837 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0414_of_1380_text_document dclm
+0.0018640920 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0040_of_1380_text_document dclm
+0.0018261607 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0941_of_1380_text_document dclm
+0.0018857729 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1233_of_1380_text_document dclm
+0.0018316924 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0964_of_1380_text_document dclm
+0.0018420481 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0041_of_1380_text_document dclm
+0.0018601815 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1135_of_1380_text_document dclm
+0.0018700967 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0996_of_1380_text_document dclm
+0.0018627433 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1012_of_1380_text_document dclm
+0.0018009095 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1142_of_1380_text_document dclm
+0.0018334964 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0795_of_1380_text_document dclm
+0.0018562517 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1271_of_1380_text_document dclm
+0.0018952945 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0325_of_1380_text_document dclm
+0.0018957471 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1146_of_1380_text_document dclm
+0.0018903193 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0294_of_1380_text_document dclm
+0.0018986124 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0832_of_1380_text_document dclm
+0.0019126951 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0068_of_1380_text_document dclm
+0.0019127986 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1250_of_1380_text_document dclm
+0.0018696966 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1205_of_1380_text_document dclm
+0.0018881237 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0020_of_1380_text_document dclm
+0.0017916565 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1062_of_1380_text_document dclm
+0.0018345644 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0535_of_1380_text_document dclm
+0.0018888820 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0775_of_1380_text_document dclm
+0.0018799015 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0473_of_1380_text_document dclm
+0.0018454800 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0934_of_1380_text_document dclm
+0.0018375825 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0157_of_1380_text_document dclm
+0.0018717515 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0884_of_1380_text_document dclm
+0.0018815580 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0368_of_1380_text_document dclm
+0.0019132873 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0417_of_1380_text_document dclm
+0.0018934204 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0585_of_1380_text_document dclm
+0.0019136916 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0450_of_1380_text_document dclm
+0.0018699063 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0955_of_1380_text_document dclm
+0.0018369088 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0239_of_1380_text_document dclm
+0.0018287061 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1297_of_1380_text_document dclm
+0.0018853511 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1317_of_1380_text_document dclm
+0.0018578264 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1140_of_1380_text_document dclm
+0.0018424915 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0614_of_1380_text_document dclm
+0.0018394723 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1144_of_1380_text_document dclm
+0.0018183789 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0184_of_1380_text_document dclm
+0.0018618538 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0981_of_1380_text_document dclm
+0.0018667756 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1150_of_1380_text_document dclm
+0.0019030219 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0017_of_1380_text_document dclm
+0.0018259681 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0654_of_1380_text_document dclm
+0.0018739132 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0595_of_1380_text_document dclm
+0.0018222264 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0004_of_1380_text_document dclm
+0.0018736658 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1359_of_1380_text_document dclm
+0.0018530615 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0974_of_1380_text_document dclm
+0.0018521730 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0714_of_1380_text_document dclm
+0.0018611794 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0283_of_1380_text_document dclm
+0.0018944609 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0973_of_1380_text_document dclm
+0.0018578283 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1378_of_1380_text_document dclm
+0.0018029391 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0295_of_1380_text_document dclm
+0.0018312668 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1368_of_1380_text_document dclm
+0.0018807775 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0678_of_1380_text_document dclm
+0.0018636517 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0807_of_1380_text_document dclm
+0.0019068081 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1310_of_1380_text_document dclm
+0.0019258320 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0936_of_1380_text_document dclm
+0.0018522632 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1220_of_1380_text_document dclm
+0.0018690306 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0702_of_1380_text_document dclm
+0.0018727699 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0910_of_1380_text_document dclm
+0.0018761633 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0765_of_1380_text_document dclm
+0.0018557141 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0865_of_1380_text_document dclm
+0.0018426367 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0661_of_1380_text_document dclm
+0.0018212726 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0716_of_1380_text_document dclm
+0.0018648054 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0172_of_1380_text_document dclm
+0.0018635705 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0499_of_1380_text_document dclm
+0.0018975485 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0662_of_1380_text_document dclm
+0.0018864033 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1014_of_1380_text_document dclm
+0.0018194497 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0722_of_1380_text_document dclm
+0.0018362078 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1182_of_1380_text_document dclm
+0.0018441557 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0830_of_1380_text_document dclm
+0.0018994381 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0055_of_1380_text_document dclm
+0.0018714778 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0366_of_1380_text_document dclm
+0.0018945506 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0432_of_1380_text_document dclm
+0.0019243890 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0012_of_1380_text_document dclm
+0.0018800951 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1045_of_1380_text_document dclm
+0.0019435971 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1311_of_1380_text_document dclm
+0.0019086007 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1201_of_1380_text_document dclm
+0.0019204008 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1270_of_1380_text_document dclm
+0.0018784517 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1101_of_1380_text_document dclm
+0.0018350019 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0097_of_1380_text_document dclm
+0.0018868562 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0660_of_1380_text_document dclm
+0.0018664000 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0281_of_1380_text_document dclm
+0.0018480388 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0843_of_1380_text_document dclm
+0.0018700870 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1010_of_1380_text_document dclm
+0.0019040717 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0398_of_1380_text_document dclm
+0.0018281358 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0573_of_1380_text_document dclm
+0.0018726366 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0926_of_1380_text_document dclm
+0.0018866492 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0302_of_1380_text_document dclm
+0.0018704301 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0987_of_1380_text_document dclm
+0.0018360013 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1340_of_1380_text_document dclm
+0.0019166229 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0230_of_1380_text_document dclm
+0.0018513733 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0576_of_1380_text_document dclm
+0.0018881498 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0140_of_1380_text_document dclm
+0.0018998363 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0715_of_1380_text_document dclm
+0.0018288808 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1287_of_1380_text_document dclm
+0.0018881156 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0267_of_1380_text_document dclm
+0.0018536323 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0009_of_1380_text_document dclm
+0.0018629059 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0023_of_1380_text_document dclm
+0.0018432812 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1286_of_1380_text_document dclm
+0.0018400956 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0018_of_1380_text_document dclm
+0.0018551258 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1099_of_1380_text_document dclm
+0.0018292019 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1122_of_1380_text_document dclm
+0.0019052066 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0549_of_1380_text_document dclm
+0.0018124314 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1183_of_1380_text_document dclm
+0.0019203051 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1059_of_1380_text_document dclm
+0.0018611505 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0139_of_1380_text_document dclm
+0.0018228522 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1275_of_1380_text_document dclm
+0.0018927100 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0189_of_1380_text_document dclm
+0.0018809545 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0607_of_1380_text_document dclm
+0.0019163395 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0656_of_1380_text_document dclm
+0.0018001775 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0882_of_1380_text_document dclm
+0.0018499106 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1048_of_1380_text_document dclm
+0.0018298680 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0252_of_1380_text_document dclm
+0.0018626866 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0724_of_1380_text_document dclm
+0.0019173997 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0993_of_1380_text_document dclm
+0.0019082887 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1110_of_1380_text_document dclm
+0.0018842003 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0057_of_1380_text_document dclm
+0.0018275759 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0317_of_1380_text_document dclm
+0.0019105271 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0858_of_1380_text_document dclm
+0.0018689440 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0902_of_1380_text_document dclm
+0.0019097096 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0384_of_1380_text_document dclm
+0.0018894948 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0766_of_1380_text_document dclm
+0.0018722010 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1181_of_1380_text_document dclm
+0.0018393599 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1217_of_1380_text_document dclm
+0.0019215106 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1008_of_1380_text_document dclm
+0.0018856141 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1021_of_1380_text_document dclm
+0.0018344503 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1081_of_1380_text_document dclm
+0.0018452596 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1064_of_1380_text_document dclm
+0.0018991159 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1117_of_1380_text_document dclm
+0.0018409474 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0107_of_1380_text_document dclm
+0.0018528107 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0940_of_1380_text_document dclm
+0.0019104344 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0911_of_1380_text_document dclm
+0.0018508138 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0829_of_1380_text_document dclm
+0.0018938719 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0870_of_1380_text_document dclm
+0.0019055884 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1003_of_1380_text_document dclm
+0.0018262329 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0778_of_1380_text_document dclm
+0.0019044814 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0630_of_1380_text_document dclm
+0.0018780267 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0442_of_1380_text_document dclm
+0.0018556998 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0508_of_1380_text_document dclm
+0.0018416994 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0599_of_1380_text_document dclm
+0.0018357545 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0927_of_1380_text_document dclm
+0.0018289552 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0803_of_1380_text_document dclm
+0.0018643323 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1159_of_1380_text_document dclm
+0.0019093068 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0013_of_1380_text_document dclm
+0.0018680102 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0647_of_1380_text_document dclm
+0.0018321037 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0472_of_1380_text_document dclm
+0.0018372995 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0002_of_1380_text_document dclm
+0.0018486256 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0122_of_1380_text_document dclm
+0.0018753150 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0026_of_1380_text_document dclm
+0.0018463011 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0058_of_1380_text_document dclm
+0.0018159565 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0606_of_1380_text_document dclm
+0.0018920931 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0991_of_1380_text_document dclm
+0.0018238402 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1193_of_1380_text_document dclm
+0.0019041197 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0839_of_1380_text_document dclm
+0.0018366312 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0322_of_1380_text_document dclm
+0.0018964137 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0047_of_1380_text_document dclm
+0.0018767660 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0451_of_1380_text_document dclm
+0.0018774793 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0462_of_1380_text_document dclm
+0.0019210375 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0672_of_1380_text_document dclm
+0.0018335542 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1302_of_1380_text_document dclm
+0.0018389962 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1133_of_1380_text_document dclm
+0.0018160760 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0706_of_1380_text_document dclm
+0.0019033018 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0960_of_1380_text_document dclm
+0.0018342059 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0461_of_1380_text_document dclm
+0.0018564667 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0554_of_1380_text_document dclm
+0.0018739383 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0744_of_1380_text_document dclm
+0.0018696068 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0542_of_1380_text_document dclm
+0.0018329030 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0506_of_1380_text_document dclm
+0.0018842180 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0847_of_1380_text_document dclm
+0.0018560068 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0818_of_1380_text_document dclm
+0.0018828525 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0375_of_1380_text_document dclm
+0.0018164048 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0627_of_1380_text_document dclm
+0.0018812121 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1011_of_1380_text_document dclm
+0.0018451559 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0246_of_1380_text_document dclm
+0.0018439416 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0588_of_1380_text_document dclm
+0.0018702442 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0543_of_1380_text_document dclm
+0.0018854307 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0631_of_1380_text_document dclm
+0.0018731889 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0593_of_1380_text_document dclm
+0.0018913032 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0329_of_1380_text_document dclm
+0.0019165026 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1139_of_1380_text_document dclm
+0.0018767340 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1126_of_1380_text_document dclm
+0.0018513167 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0749_of_1380_text_document dclm
+0.0013288917 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1380_of_1380_text_document dclm
+0.0019268002 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1030_of_1380_text_document dclm
+0.0018655835 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0288_of_1380_text_document dclm
+0.0019331632 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0069_of_1380_text_document dclm
+0.0018665087 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1147_of_1380_text_document dclm
+0.0018897743 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1371_of_1380_text_document dclm
+0.0018568955 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0823_of_1380_text_document dclm
+0.0018608965 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1060_of_1380_text_document dclm
+0.0018052057 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1100_of_1380_text_document dclm
+0.0019168952 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1224_of_1380_text_document dclm
+0.0018969237 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0861_of_1380_text_document dclm
+0.0018507702 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0753_of_1380_text_document dclm
+0.0018363308 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1080_of_1380_text_document dclm
+0.0018710553 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0150_of_1380_text_document dclm
+0.0019180508 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0449_of_1380_text_document dclm
+0.0018590105 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0916_of_1380_text_document dclm
+0.0018829422 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1262_of_1380_text_document dclm
+0.0018299199 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0951_of_1380_text_document dclm
+0.0018592116 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0336_of_1380_text_document dclm
+0.0018753699 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0227_of_1380_text_document dclm
+0.0018461572 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0168_of_1380_text_document dclm
+0.0018626886 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1098_of_1380_text_document dclm
+0.0018880948 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0075_of_1380_text_document dclm
+0.0018513032 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1071_of_1380_text_document dclm
+0.0019101075 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1035_of_1380_text_document dclm
+0.0018488416 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1300_of_1380_text_document dclm
+0.0018387096 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0844_of_1380_text_document dclm
+0.0018411846 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0251_of_1380_text_document dclm
+0.0018560705 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0688_of_1380_text_document dclm
+0.0018966691 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1304_of_1380_text_document dclm
+0.0018517051 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1225_of_1380_text_document dclm
+0.0019122017 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0178_of_1380_text_document dclm
+0.0018400110 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0043_of_1380_text_document dclm
+0.0018445836 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1330_of_1380_text_document dclm
+0.0018305015 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0443_of_1380_text_document dclm
+0.0018504420 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0518_of_1380_text_document dclm
+0.0018718299 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0501_of_1380_text_document dclm
+0.0018689653 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0493_of_1380_text_document dclm
+0.0018512911 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0033_of_1380_text_document dclm
+0.0018523347 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0819_of_1380_text_document dclm
+0.0018361083 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0999_of_1380_text_document dclm
+0.0019189143 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1073_of_1380_text_document dclm
+0.0018254051 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1299_of_1380_text_document dclm
+0.0018493121 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1145_of_1380_text_document dclm
+0.0018933666 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0786_of_1380_text_document dclm
+0.0018562733 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0701_of_1380_text_document dclm
+0.0019099767 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0465_of_1380_text_document dclm
+0.0018343736 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1097_of_1380_text_document dclm
+0.0018478744 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0842_of_1380_text_document dclm
+0.0018712990 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0866_of_1380_text_document dclm
+0.0019012623 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0096_of_1380_text_document dclm
+0.0018564848 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0080_of_1380_text_document dclm
+0.0018480257 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0644_of_1380_text_document dclm
+0.0018974671 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1086_of_1380_text_document dclm
+0.0019069569 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1166_of_1380_text_document dclm
+0.0018763692 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1137_of_1380_text_document dclm
+0.0018294833 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0377_of_1380_text_document dclm
+0.0018053846 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0689_of_1380_text_document dclm
+0.0018741190 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1157_of_1380_text_document dclm
+0.0018972744 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0700_of_1380_text_document dclm
+0.0018822438 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0583_of_1380_text_document dclm
+0.0018986565 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0324_of_1380_text_document dclm
+0.0019118250 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0784_of_1380_text_document dclm
+0.0018623439 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0539_of_1380_text_document dclm
+0.0018409868 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1078_of_1380_text_document dclm
+0.0018239198 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1131_of_1380_text_document dclm
+0.0018390830 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0114_of_1380_text_document dclm
+0.0019021054 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1360_of_1380_text_document dclm
+0.0019275959 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0110_of_1380_text_document dclm
+0.0018478533 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0048_of_1380_text_document dclm
+0.0018989246 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0059_of_1380_text_document dclm
+0.0018626284 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0049_of_1380_text_document dclm
+0.0019245024 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0367_of_1380_text_document dclm
+0.0018410363 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0471_of_1380_text_document dclm
+0.0018887022 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0021_of_1380_text_document dclm
+0.0018917279 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0070_of_1380_text_document dclm
+0.0018892320 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0397_of_1380_text_document dclm
+0.0018450127 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0820_of_1380_text_document dclm
+0.0018273267 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0056_of_1380_text_document dclm
+0.0018991843 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0673_of_1380_text_document dclm
+0.0018330377 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0961_of_1380_text_document dclm
+0.0018961392 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0289_of_1380_text_document dclm
+0.0019015425 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0686_of_1380_text_document dclm
+0.0018246617 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0892_of_1380_text_document dclm
+0.0018598920 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0005_of_1380_text_document dclm
+0.0018133762 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0385_of_1380_text_document dclm
+0.0018510191 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0912_of_1380_text_document dclm
+0.0018743293 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1247_of_1380_text_document dclm
+0.0018841601 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0123_of_1380_text_document dclm
+0.0018805927 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1257_of_1380_text_document dclm
+0.0018531046 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0739_of_1380_text_document dclm
+0.0018023724 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1352_of_1380_text_document dclm
+0.0019157325 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0340_of_1380_text_document dclm
+0.0018709676 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0610_of_1380_text_document dclm
+0.0018973913 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1307_of_1380_text_document dclm
+0.0018997579 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0667_of_1380_text_document dclm
+0.0019311211 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0024_of_1380_text_document dclm
+0.0018997666 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0653_of_1380_text_document dclm
+0.0018220302 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0254_of_1380_text_document dclm
+0.0018152469 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0625_of_1380_text_document dclm
+0.0018506938 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0498_of_1380_text_document dclm
+0.0019001601 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0977_of_1380_text_document dclm
+0.0018195061 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0404_of_1380_text_document dclm
+0.0018705565 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1269_of_1380_text_document dclm
+0.0018666372 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0932_of_1380_text_document dclm
+0.0018169995 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1143_of_1380_text_document dclm
+0.0018995026 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0190_of_1380_text_document dclm
+0.0018519940 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1375_of_1380_text_document dclm
+0.0018299149 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1263_of_1380_text_document dclm
+0.0018292637 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1248_of_1380_text_document dclm
+0.0018635921 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0334_of_1380_text_document dclm
+0.0018578501 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0054_of_1380_text_document dclm
+0.0018712484 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1294_of_1380_text_document dclm
+0.0018945984 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1065_of_1380_text_document dclm
+0.0018837219 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0761_of_1380_text_document dclm
+0.0018220231 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1051_of_1380_text_document dclm
+0.0018621332 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0952_of_1380_text_document dclm
+0.0019129078 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1033_of_1380_text_document dclm
+0.0019037357 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0510_of_1380_text_document dclm
+0.0018756068 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1346_of_1380_text_document dclm
+0.0019094743 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0533_of_1380_text_document dclm
+0.0018721656 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0086_of_1380_text_document dclm
+0.0018816698 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0931_of_1380_text_document dclm
+0.0018757105 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0199_of_1380_text_document dclm
+0.0018952671 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0726_of_1380_text_document dclm
+0.0019038353 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0263_of_1380_text_document dclm
+0.0018808379 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1000_of_1380_text_document dclm
+0.0018386710 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0886_of_1380_text_document dclm
+0.0018970044 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0378_of_1380_text_document dclm
+0.0019222774 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0811_of_1380_text_document dclm
+0.0018347427 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0694_of_1380_text_document dclm
+0.0018388299 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1329_of_1380_text_document dclm
+0.0018682032 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0452_of_1380_text_document dclm
+0.0018959927 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1189_of_1380_text_document dclm
+0.0019111375 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0785_of_1380_text_document dclm
+0.0018677360 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0028_of_1380_text_document dclm
+0.0018080180 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0946_of_1380_text_document dclm
+0.0018979817 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0954_of_1380_text_document dclm
+0.0019163596 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0394_of_1380_text_document dclm
+0.0018537028 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1094_of_1380_text_document dclm
+0.0018283748 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1042_of_1380_text_document dclm
+0.0018865309 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0534_of_1380_text_document dclm
+0.0018478335 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1017_of_1380_text_document dclm
+0.0018401747 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1354_of_1380_text_document dclm
+0.0018439807 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1379_of_1380_text_document dclm
+0.0019266766 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0233_of_1380_text_document dclm
+0.0018271878 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0528_of_1380_text_document dclm
+0.0019024668 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1324_of_1380_text_document dclm
+0.0018617232 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0032_of_1380_text_document dclm
+0.0018705730 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0723_of_1380_text_document dclm
+0.0018917349 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0133_of_1380_text_document dclm
+0.0018421526 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1005_of_1380_text_document dclm
+0.0018307939 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0920_of_1380_text_document dclm
+0.0018145374 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0250_of_1380_text_document dclm
+0.0018993194 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0756_of_1380_text_document dclm
+0.0018558510 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0154_of_1380_text_document dclm
+0.0018245510 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0243_of_1380_text_document dclm
+0.0018541129 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0207_of_1380_text_document dclm
+0.0018381114 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0632_of_1380_text_document dclm
+0.0018369944 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0085_of_1380_text_document dclm
+0.0018167475 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0752_of_1380_text_document dclm
+0.0019214007 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0436_of_1380_text_document dclm
+0.0018599216 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0850_of_1380_text_document dclm
+0.0018746494 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0087_of_1380_text_document dclm
+0.0018742702 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1208_of_1380_text_document dclm
+0.0018381546 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0851_of_1380_text_document dclm
+0.0018768773 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0265_of_1380_text_document dclm
+0.0018459132 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0611_of_1380_text_document dclm
+0.0017998809 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0502_of_1380_text_document dclm
+0.0018642597 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0729_of_1380_text_document dclm
+0.0019009944 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0833_of_1380_text_document dclm
+0.0018496478 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0256_of_1380_text_document dclm
+0.0018449845 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0497_of_1380_text_document dclm
+0.0018484815 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0901_of_1380_text_document dclm
+0.0018590916 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0737_of_1380_text_document dclm
+0.0018728336 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1079_of_1380_text_document dclm
+0.0018133155 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0592_of_1380_text_document dclm
+0.0018928901 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1096_of_1380_text_document dclm
+0.0018508042 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0948_of_1380_text_document dclm
+0.0018770165 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0491_of_1380_text_document dclm
+0.0018890555 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1132_of_1380_text_document dclm
+0.0018427916 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1186_of_1380_text_document dclm
+0.0018575144 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1229_of_1380_text_document dclm
+0.0018888786 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0120_of_1380_text_document dclm
+0.0018826666 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0453_of_1380_text_document dclm
+0.0019024099 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0536_of_1380_text_document dclm
+0.0018794673 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0118_of_1380_text_document dclm
+0.0018493040 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0969_of_1380_text_document dclm
+0.0018469335 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1050_of_1380_text_document dclm
+0.0019069849 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0050_of_1380_text_document dclm
+0.0018294520 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1326_of_1380_text_document dclm
+0.0018946885 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0857_of_1380_text_document dclm
+0.0018363991 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0777_of_1380_text_document dclm
+0.0018198899 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0411_of_1380_text_document dclm
+0.0018488040 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0328_of_1380_text_document dclm
+0.0018904332 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1318_of_1380_text_document dclm
+0.0018323413 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0131_of_1380_text_document dclm
+0.0018800347 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0665_of_1380_text_document dclm
+0.0018705095 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0558_of_1380_text_document dclm
+0.0018775255 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0515_of_1380_text_document dclm
+0.0018695225 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0512_of_1380_text_document dclm
+0.0018233862 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0306_of_1380_text_document dclm
+0.0018852382 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0310_of_1380_text_document dclm
+0.0019036863 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1198_of_1380_text_document dclm
+0.0018753493 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_0707_of_1380_text_document dclm
+0.0018671430 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/dclm/fused_1085_of_1380_text_document dclm
+0.0033006672 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0012_of_0020_text_document starcoder
+0.0037221571 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0003_of_0020_text_document starcoder
+0.0042851441 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0002_of_0020_text_document starcoder
+0.0030614735 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0017_of_0020_text_document starcoder
+0.0024361940 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0007_of_0020_text_document starcoder
+0.0024365761 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0006_of_0020_text_document starcoder
+0.0042101924 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0011_of_0020_text_document starcoder
+0.0031415370 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0015_of_0020_text_document starcoder
+0.0024398634 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0005_of_0020_text_document starcoder
+0.0051185163 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0010_of_0020_text_document starcoder
+0.0042972443 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0001_of_0020_text_document starcoder
+0.0025242806 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0004_of_0020_text_document starcoder
+0.0018291745 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0020_of_0020_text_document starcoder
+0.0034469649 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0013_of_0020_text_document starcoder
+0.0035435419 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0019_of_0020_text_document starcoder
+0.0026357893 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0008_of_0020_text_document starcoder
+0.0025316778 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0016_of_0020_text_document starcoder
+0.0036148148 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0018_of_0020_text_document starcoder
+0.0051109371 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0009_of_0020_text_document starcoder
+0.0032581175 /flare/AuroraGPT/datasets/olmo-mix-1124/data_fused_gemma_eod/starcoder/fused_0014_of_0020_text_document starcoder
diff --git a/ALCF/data-lists/aurora/open-web-math-train.txt b/ALCF/data-lists/aurora/open-web-math-train.txt
new file mode 100644
index 00000000000..e0dfc30bd77
--- /dev/null
+++ b/ALCF/data-lists/aurora/open-web-math-train.txt
@@ -0,0 +1,13 @@
+0.001451215788905126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document open-web-math-train
+0.0014486847196258788 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document open-web-math-train
+0.0008861032722895899 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document open-web-math-train
+0.0018119590809459816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document open-web-math-train
+0.0008916937917547129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document open-web-math-train
+6.960128832809415e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document open-web-math-train
+0.002008403651063623 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document open-web-math-train
+0.0014374900742131454 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document open-web-math-train
+0.00180213596996716 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document open-web-math-train
+0.001956178877532413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document open-web-math-train
+0.0008829547017667033 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document open-web-math-train
+0.0008910853619157279 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document open-web-math-train
+0.0018260998845299973 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document open-web-math-train
diff --git a/ALCF/data-lists/aurora/pes2o.txt b/ALCF/data-lists/aurora/pes2o.txt
new file mode 100644
index 00000000000..3d0cdbe4790
--- /dev/null
+++ b/ALCF/data-lists/aurora/pes2o.txt
@@ -0,0 +1,26 @@
+0.0012499632072059553 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document pes2o
+0.00125398260359913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document pes2o
+0.0012541704774729071 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document pes2o
+0.0012527268234360602 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document pes2o
+0.0012532925243737164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document pes2o
+0.0012456396241204315 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document pes2o
+0.0012589894424352072 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document pes2o
+0.001508020123999618 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document pes2o
+0.00333096950781965 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document pes2o
+0.0033233414614415547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document pes2o
+0.003512387990689828 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document pes2o
+0.0035091382940513126 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document pes2o
+0.003514155927147005 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document pes2o
+0.003327108000579638 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document pes2o
+0.003329106196589836 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document pes2o
+0.003505604148738077 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document pes2o
+0.003324825759567855 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document pes2o
+0.0033248240149804913 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document pes2o
+0.0033385962112851358 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document pes2o
+0.0035043186296553615 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document pes2o
+0.003340469505431529 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document pes2o
+0.0035106889084796276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document pes2o
+0.0033309469281030167 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document pes2o
+0.003340337858029757 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document pes2o
+0.003505919861097801 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document pes2o
+0.0003882924098240512 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document pes2o
diff --git a/ALCF/data-lists/aurora/reddit.txt b/ALCF/data-lists/aurora/reddit.txt
new file mode 100644
index 00000000000..ebc1e15ada8
--- /dev/null
+++ b/ALCF/data-lists/aurora/reddit.txt
@@ -0,0 +1,78 @@
+0.0005759963691850877 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document reddit
+0.0005959971675332674 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document reddit
+0.0006026179290353799 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document reddit
+0.0005824184320784846 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document reddit
+0.0005854598548616037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document reddit
+0.0005903767055633473 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document reddit
+0.0005930306490982049 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document reddit
+0.000569425602700746 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document reddit
+0.0005675060415179408 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document reddit
+0.0005772431621253389 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document reddit
+0.0005678026053826858 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document reddit
+0.0005700398263483378 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document reddit
+0.0005669467963528824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document reddit
+0.0005701015953324305 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document reddit
+0.0005795907287413296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document reddit
+0.0005735602737531164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document reddit
+0.0005749862745842101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document reddit
+0.0005693257015931971 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document reddit
+0.0005716568794795563 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document reddit
+0.0005761083919774021 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document reddit
+0.0005688343169797355 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document reddit
+0.0005807913190929842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document reddit
+0.0005710229258078636 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document reddit
+0.0005704083039826862 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document reddit
+0.0005862132348308056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document reddit
+0.0005717662049559556 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document reddit
+0.0005858155213694451 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document reddit
+0.0005812012281792392 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document reddit
+0.0005803981414588498 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document reddit
+0.0005700102108287723 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document reddit
+0.0005719243459052329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document reddit
+0.0005867253401661752 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document reddit
+0.0005731087218860733 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document reddit
+0.0005712197789109317 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document reddit
+0.0005702376926310089 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document reddit
+0.0005700411527742972 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document reddit
+0.0005828090098178196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document reddit
+0.0005770140826168056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document reddit
+0.0005723509664597896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document reddit
+0.0005755499231836962 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document reddit
+0.0005636407438471367 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document reddit
+0.0005640281556500104 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document reddit
+0.0005633159058766496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document reddit
+0.0005638034311151449 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document reddit
+0.0005630066273073224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document reddit
+0.0005631803831128559 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document reddit
+0.0005631228881679657 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document reddit
+0.0005628178701487633 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document reddit
+0.0005624448092256196 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document reddit
+0.0005620957024062329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document reddit
+0.0005614201504177484 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document reddit
+0.0005616890951464056 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document reddit
+0.0005611348559279058 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document reddit
+0.0005604238061828518 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document reddit
+0.0005603301490194237 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document reddit
+0.0005607291294548833 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document reddit
+0.0005605234569930727 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document reddit
+0.0005613778566640694 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document reddit
+0.0005610248539992471 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document reddit
+0.0005599977416780475 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document reddit
+0.0005603632562116935 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document reddit
+0.0005599177479509897 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document reddit
+0.0005595202318298379 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document reddit
+0.0005600975633499175 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document reddit
+0.0005614075491213365 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document reddit
+0.000612563885043477 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document reddit
+0.0005515469909644413 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document reddit
+0.0005526782014946906 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document reddit
+0.0005472463408095445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document reddit
+0.0005502284746004587 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document reddit
+0.0005414514790555363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document reddit
+0.0005513499500134784 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document reddit
+0.0005391391454105187 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document reddit
+0.0005415836910001838 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document reddit
+0.0005208132468536551 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document reddit
+0.0005889827143132871 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document reddit
+0.0005822520817765276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document reddit
+0.0004173155230758696 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document reddit
diff --git a/ALCF/data-lists/aurora/stack.txt b/ALCF/data-lists/aurora/stack.txt
new file mode 100644
index 00000000000..d99516f5fb3
--- /dev/null
+++ b/ALCF/data-lists/aurora/stack.txt
@@ -0,0 +1,26 @@
+0.0009994361338078242 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document stackexchange
+0.001087156194657966 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document stackexchange
+0.0010667737163656816 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document stackexchange
+0.0009602877882124873 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document stackexchange
+0.0008968956271971105 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document stackexchange
+0.0009198034843762967 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document stackexchange
+0.0009423901016715341 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document stackexchange
+0.0009674094553686345 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document stackexchange
+0.0009858331322519164 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document stackexchange
+0.0009970593645879198 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document stackexchange
+0.0010027035193731686 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document stackexchange
+0.0010128291154221853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document stackexchange
+0.0010215631382631918 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document stackexchange
+0.0010288663771461238 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document stackexchange
+0.0010346219929285867 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document stackexchange
+0.00104544019940344 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document stackexchange
+0.0010525172676724333 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document stackexchange
+0.0010609529620775127 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document stackexchange
+0.0010725892748610153 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document stackexchange
+0.0010818563598181568 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document stackexchange
+0.0010992760196793917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document stackexchange
+0.0011178992762079917 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document stackexchange
+0.001124687532085676 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document stackexchange
+0.001118303661267191 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document stackexchange
+0.0010206825575416534 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document stackexchange
+0.0005512280117499715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document stackexchange
diff --git a/ALCF/data-lists/aurora/starcoder.txt b/ALCF/data-lists/aurora/starcoder.txt
new file mode 100644
index 00000000000..2a5be0cf72d
--- /dev/null
+++ b/ALCF/data-lists/aurora/starcoder.txt
@@ -0,0 +1,50 @@
+0.004474659408857016 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document starcoder
+0.00409944473890653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document starcoder
+0.005137179939941845 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document starcoder
+0.005143172251066109 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document starcoder
+0.005206134363352808 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document starcoder
+0.004892747858974329 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document starcoder
+0.004844731352552902 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document starcoder
+0.005308320169123755 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document starcoder
+0.005124709815666577 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document starcoder
+0.005424710744483826 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document starcoder
+0.00538244648861977 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document starcoder
+0.0029107284679086853 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document starcoder
+0.0026825258998444705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document starcoder
+0.0026904503191419243 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document starcoder
+0.002687906577174073 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document starcoder
+0.002850165346048818 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document starcoder
+0.005322698571717847 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document starcoder
+0.004450334290869719 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document starcoder
+0.004700990083440683 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document starcoder
+0.003903568556500995 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document starcoder
+0.00390561515396931 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document starcoder
+0.0039046402900912262 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document starcoder
+0.003907454839379547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document starcoder
+0.0038583224578603824 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document starcoder
+0.0037914116657695 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document starcoder
+0.003786665266798682 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document starcoder
+0.003792000802430658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document starcoder
+0.00319266847466091 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document starcoder
+0.0032658716699838944 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document starcoder
+0.0034801959532460023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document starcoder
+0.0028307012092022594 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document starcoder
+0.0028420360878146276 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document starcoder
+0.0028410455248484914 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document starcoder
+0.00283497183526842 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document starcoder
+0.002840187195459487 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document starcoder
+0.0028398709431369834 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document starcoder
+0.004364722843422023 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document starcoder
+0.004093255713117101 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document starcoder
+0.004092331079566252 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document starcoder
+0.004005326985579649 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document starcoder
+0.0036205502856964207 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document starcoder
+0.003625316793034984 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document starcoder
+0.003604743435602363 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document starcoder
+0.0035405823343673125 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document starcoder
+0.0041601413517253945 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document starcoder
+0.005886303658937057 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document starcoder
+0.003600909532810332 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document starcoder
+0.0034941365817168658 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document starcoder
+0.0004992164842980224 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document starcoder
+
diff --git a/ALCF/data-lists/aurora/tulu.txt b/ALCF/data-lists/aurora/tulu.txt
new file mode 100644
index 00000000000..46b3a91a40c
--- /dev/null
+++ b/ALCF/data-lists/aurora/tulu.txt
@@ -0,0 +1,66 @@
+0.00032927705604725614 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document tulu
+0.0002860154190878753 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document tulu
+0.0002845217585425619 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document tulu
+0.0002743528685497456 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document tulu
+0.00026025323737738766 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document tulu
+0.00023493876414603155 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document tulu
+0.00029665994994226705 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document tulu
+0.00031808102075993956 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document tulu
+0.00031813573046011285 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document tulu
+0.0002711905171855542 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document tulu
+0.00028892513401817095 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document tulu
+0.00030003908676979083 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document tulu
+0.00026839878771944684 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document tulu
+0.00029155935002690497 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document tulu
+0.0002998624927624209 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document tulu
+0.0003091705447974841 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document tulu
+0.00026873195794309786 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document tulu
+0.00027721873498527547 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document tulu
+0.0002841662554024377 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document tulu
+0.0002839461156551537 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document tulu
+0.0002861705604659811 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document tulu
+0.0002460995649635886 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document tulu
+0.00019420142619795496 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document tulu
+0.00021967677816173628 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document tulu
+0.0002620283200480949 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document tulu
+0.0002433390542188936 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document tulu
+0.00021254976608350767 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document tulu
+0.00022094815569522115 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document tulu
+0.000342862378668244 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document tulu
+0.00033784225259118157 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document tulu
+0.0003367278459543952 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document tulu
+0.00029843279042852765 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document tulu
+0.0002926583661257988 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document tulu
+0.00029320337282010673 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document tulu
+0.00029281450669483455 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document tulu
+0.0002915338187002653 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document tulu
+0.0002864226923084572 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document tulu
+0.00028643439083586396 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document tulu
+0.00028253710956299054 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document tulu
+0.0002810856078805806 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document tulu
+0.00031474941344656715 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document tulu
+0.0002139130222205655 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document tulu
+0.0003084648871862831 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document tulu
+0.0003309477872140129 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document tulu
+0.0003360096824695161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document tulu
+0.0003355452655196557 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document tulu
+0.00038119390366386037 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document tulu
+0.00038078927630086064 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document tulu
+0.0003386200917551554 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document tulu
+0.0002158905159938882 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document tulu
+0.00021621682877018768 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document tulu
+0.00021553306942740535 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document tulu
+0.00021581563462722296 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document tulu
+0.0002157694110556169 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document tulu
+0.000215643699847159 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document tulu
+0.00021532716715168094 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document tulu
+0.00021531221326022472 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document tulu
+0.0002831801179028896 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document tulu
+0.0002514844936507595 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document tulu
+0.00031638782778107964 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document tulu
+0.0002749197545278445 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document tulu
+0.00026159721512464495 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document tulu
+0.0002630052420096968 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document tulu
+0.00031106811228913666 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document tulu
+0.0002852973415334161 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document tulu
+3.7555372465932136e-05 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document tulu
diff --git a/ALCF/data-lists/aurora/wiki.txt b/ALCF/data-lists/aurora/wiki.txt
new file mode 100644
index 00000000000..c70a54f5987
--- /dev/null
+++ b/ALCF/data-lists/aurora/wiki.txt
@@ -0,0 +1,2 @@
+0.003548077173506675 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document wiki
+0.0018372203137874265 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document wiki
diff --git a/ALCF/data-lists/polaris/algebraic.txt b/ALCF/data-lists/polaris/algebraic.txt
new file mode 100644
index 00000000000..394649fcf45
--- /dev/null
+++ b/ALCF/data-lists/polaris/algebraic.txt
@@ -0,0 +1,16 @@
+0.0018520780893211373 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document algebraic-stack-train
+0.0017591050606817512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document algebraic-stack-train
+0.001459052794333798 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document algebraic-stack-train
+0.0007405667281569194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document algebraic-stack-train
+0.00019420030110896795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document algebraic-stack-train
+0.0009008668715801845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document algebraic-stack-train
+0.00015115827957143057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document algebraic-stack-train
+0.0014552844319220648 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document algebraic-stack-train
+0.0012469861325685161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document algebraic-stack-train
+0.00136412011372413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document algebraic-stack-train
+0.0007064279699221103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document algebraic-stack-train
+0.0008472240000687427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document algebraic-stack-train
+0.0001984375713341955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document algebraic-stack-train
+0.0005472773881697123 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document algebraic-stack-train
+0.001815779629850992 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document algebraic-stack-train
+0.0018313600689757324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document algebraic-stack-train
diff --git a/ALCF/data-lists/polaris/arxiv.txt b/ALCF/data-lists/polaris/arxiv.txt
new file mode 100644
index 00000000000..85e59adacd0
--- /dev/null
+++ b/ALCF/data-lists/polaris/arxiv.txt
@@ -0,0 +1,100 @@
+0.0002583902668716813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document arxiv
+0.0002646575141232155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document arxiv
+0.0003165521247456758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document arxiv
+0.0002920706460176214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document arxiv
+0.00028396813182810215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document arxiv
+0.00030445161883108107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document arxiv
+0.00031628781276576474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document arxiv
+0.0003083776568189157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document arxiv
+0.0003176359471472902 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document arxiv
+0.0002536009369131698 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document arxiv
+0.0003067491424681363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document arxiv
+0.0002597217257557784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document arxiv
+0.0003788556450109768 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document arxiv
+0.0002796563272052598 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document arxiv
+0.00033573826524290287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document arxiv
+0.00030523658022800287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document arxiv
+0.00032211552192240096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document arxiv
+0.0003329295675164247 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document arxiv
+0.0003101982186639862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document arxiv
+0.00032361798234223355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document arxiv
+0.0003495541581652915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document arxiv
+0.0002821637448858042 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document arxiv
+0.00030399523537629673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document arxiv
+0.0002955658968247219 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document arxiv
+0.00028942158502924254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document arxiv
+0.00028769546171490733 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document arxiv
+0.0002938111057234182 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document arxiv
+0.0002711150403010948 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document arxiv
+0.00031130095874747565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document arxiv
+0.0003002996118160777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document arxiv
+0.0003732757901604459 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document arxiv
+0.00026784205751795894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document arxiv
+0.0002799626521661984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document arxiv
+0.00034334276069078164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document arxiv
+0.0003582469803674965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document arxiv
+0.00031094844818418623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document arxiv
+0.0002766228384977191 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document arxiv
+0.00030297116159471485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document arxiv
+0.00027033888377464685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document arxiv
+0.00030090862368377933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document arxiv
+0.00028543875802490955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document arxiv
+0.00027559768459074204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document arxiv
+0.0003182185533962886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document arxiv
+0.0003311392971435837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document arxiv
+0.00028751652060804325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document arxiv
+0.000303466863212589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document arxiv
+0.00033400462801277524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document arxiv
+0.0002589234031777426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document arxiv
+0.0002913508598466723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document arxiv
+0.0002670572450004856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document arxiv
+0.00032027399105647656 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document arxiv
+0.00032188376258379377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document arxiv
+0.0003161585784100882 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document arxiv
+0.0003184249182974135 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document arxiv
+0.00030381336664000807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document arxiv
+0.0003190437442184283 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document arxiv
+0.0002537961798200545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document arxiv
+0.0003017817117223326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document arxiv
+0.00028685268513240224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document arxiv
+0.00031265179094451165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document arxiv
+0.00034708319096986816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document arxiv
+0.00026650837943080664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document arxiv
+0.00034588832248507335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document arxiv
+0.0002416982248399037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document arxiv
+0.0003089296918222243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document arxiv
+0.00029137184185700827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document arxiv
+0.00026464226846800774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document arxiv
+0.00030545397919456627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document arxiv
+0.0003206778460448875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document arxiv
+0.00030968971641110967 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document arxiv
+0.00023325653928600864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document arxiv
+0.00030526899198338555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document arxiv
+0.00035376719076633584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document arxiv
+0.000290224385981026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document arxiv
+0.000294650083382008 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document arxiv
+0.00028768858128616436 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document arxiv
+0.00030856965235527843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document arxiv
+0.00030579942447879054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document arxiv
+0.0002863101084704357 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document arxiv
+0.0002870032092492213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document arxiv
+0.000264182727569885 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document arxiv
+0.0002974012367036449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document arxiv
+0.00032238412143059203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document arxiv
+0.00031683716893819036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document arxiv
+0.00031157434937617524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document arxiv
+0.0003411742735695989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document arxiv
+0.00026778444816570715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document arxiv
+0.0003037045797275201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document arxiv
+0.00027746114370081314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document arxiv
+0.00027148285946862043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document arxiv
+0.00028042950114678207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document arxiv
+0.0003235607816590721 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document arxiv
+0.0003086692227306295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document arxiv
+0.00033990349455148105 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document arxiv
+0.00030945053208470265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document arxiv
+0.00027309074552265303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document arxiv
+0.00028737393506316194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document arxiv
+0.0003098868328009879 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document arxiv
+0.0002614229162588409 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document arxiv
+0.0002884388407820923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document arxiv
diff --git a/ALCF/data-lists/polaris/books.txt b/ALCF/data-lists/polaris/books.txt
new file mode 100644
index 00000000000..c222c32c071
--- /dev/null
+++ b/ALCF/data-lists/polaris/books.txt
@@ -0,0 +1,3 @@
+0.0031025147279277244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document books
+0.003102019887362634 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document books
+0.0009996745994661548 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document books
diff --git a/ALCF/data-lists/polaris/c4.txt b/ALCF/data-lists/polaris/c4.txt
new file mode 100644
index 00000000000..512556eafba
--- /dev/null
+++ b/ALCF/data-lists/polaris/c4.txt
@@ -0,0 +1,171 @@
+0.0002406272620255565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document c4
+0.0002404825539493424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document c4
+0.00024062296575435581 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document c4
+0.00024069315766818953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document c4
+0.00024055829162263452 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document c4
+0.00024062053397343032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document c4
+0.0002410715545206964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document c4
+0.00024024881846087368 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document c4
+0.0002407074700790688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document c4
+0.00024072141428809043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document c4
+0.00024027710230872736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document c4
+0.0002409111299205489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document c4
+0.00024081954058275009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document c4
+0.00024086076794990912 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document c4
+0.00024098672620832446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document c4
+0.00024068622303333862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document c4
+0.00024140627024291824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document c4
+0.0002414512033594384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document c4
+0.00024028742594941463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document c4
+0.00024018036089269645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document c4
+0.0002398347365034979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document c4
+0.00024006780153485276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document c4
+0.00024015620270419213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document c4
+0.0002408848259695227 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document c4
+0.0002408023185278831 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document c4
+0.00024021196580140326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document c4
+0.00024077677271297493 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document c4
+0.00024087392454668027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document c4
+0.0002408071293824126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document c4
+0.00024042223828845715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document c4
+0.0002411484752360495 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document c4
+0.00023605263746465907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document c4
+0.00023471222158326908 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document c4
+0.00023432138580287644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document c4
+0.00023407385623382327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document c4
+0.00023487504174367091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document c4
+0.0002341843704976313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document c4
+0.00023421993170282486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document c4
+0.00023445057969132037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document c4
+0.0002337681680073047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document c4
+0.000234627964808109 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document c4
+0.0002338942211888584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document c4
+0.00023403849286843386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document c4
+0.00023405641310796305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document c4
+0.00023349169562397965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document c4
+0.00023381157386048856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document c4
+0.00023388742993790587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document c4
+0.00023363103829469813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document c4
+0.00023421141834630477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document c4
+0.00023420564352232565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document c4
+0.00023367463699173143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document c4
+0.00023344969163567033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document c4
+0.00023372196941547188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document c4
+0.00023399207645297834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document c4
+0.00023357915605505856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document c4
+0.00023337585642190864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document c4
+0.00023385005470157914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document c4
+0.00023301533534493465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document c4
+0.00023377864302541782 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document c4
+0.00023323745848621437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document c4
+0.0002330594611151835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document c4
+0.0002334149675026783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document c4
+0.00023198945902291534 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document c4
+0.00023023784834634142 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document c4
+0.00022985623060187217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document c4
+0.0002292605284569516 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document c4
+0.00022926593333048894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document c4
+0.00022922766406807777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document c4
+0.00022898153911167426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document c4
+0.0002292473111593315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document c4
+0.000228804579400424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document c4
+0.00022865485613513526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document c4
+0.00022937426835887895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document c4
+0.00022917388311587372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document c4
+0.0002291660582019043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document c4
+0.00022907895248360543 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document c4
+0.0002294617879920205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document c4
+0.0002290452150516566 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document c4
+0.00022943405619715553 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document c4
+0.0002296271421006204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document c4
+0.00022854791372910372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document c4
+0.00022923123467686557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document c4
+0.00022852404355738494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document c4
+0.00022847798660086642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document c4
+0.0002289604586810316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document c4
+0.00022835479834950643 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document c4
+0.0002289149402884243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document c4
+0.00022806655474763446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document c4
+0.00022826296420992974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document c4
+0.00022906829636213627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document c4
+0.0002287628414466998 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document c4
+0.0002282673911253445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document c4
+0.00022869309841939134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document c4
+0.0002281540116815451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document c4
+0.0002259755756162738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document c4
+0.00022562331285233504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document c4
+0.0002259061146106053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document c4
+0.00022567670836663787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document c4
+0.00022573165387587061 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document c4
+0.00022508514961670572 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document c4
+0.00022564642513773356 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document c4
+0.00022563088621998788 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document c4
+0.0002250438755373707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document c4
+0.00022524465346241134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document c4
+0.00022531737657666812 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document c4
+0.00022444687519363458 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document c4
+0.00022460397498596298 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document c4
+0.00022454218976501763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document c4
+0.00022447528843671366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document c4
+0.00022501666332178926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document c4
+0.00022453752304377972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document c4
+0.00022484451871163002 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document c4
+0.00022465678847154914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document c4
+0.00022453180917044732 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document c4
+0.0002247278486823009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document c4
+0.00022465794828242097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document c4
+0.00022431000701925386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document c4
+0.00022476020248460963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document c4
+0.00022467531771795015 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document c4
+0.0002236391309945234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document c4
+0.00022458764920536007 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document c4
+0.00022430877426744415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document c4
+0.0002247047786127192 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document c4
+0.0002245298090400035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document c4
+0.0002245648831396188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document c4
+0.00022292894729820784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document c4
+0.00022236668082957533 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document c4
+0.0002217622659895442 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document c4
+0.00022252452726732609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document c4
+0.00022135333211363678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document c4
+0.0002214571757787971 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document c4
+0.0002217188139237798 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document c4
+0.00022144214894640303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document c4
+0.00022100172806631854 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document c4
+0.00022156392409199052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document c4
+0.00022134830143710272 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document c4
+0.00022158598922529453 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document c4
+0.00022142932483041377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document c4
+0.00022120980907786554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document c4
+0.00022117917738112441 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document c4
+0.00022077089397851235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document c4
+0.00022093265074996711 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document c4
+0.00022091299741377004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document c4
+0.0002205849150703338 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document c4
+0.0002210648204787979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document c4
+0.0002214235747364102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document c4
+0.00022083907302221787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document c4
+0.0002206334237915964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document c4
+0.00022065193929912214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document c4
+0.00022079775597767288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document c4
+0.00022091492909963518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document c4
+0.00022095009987097293 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document c4
+0.0002208150577180165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document c4
+0.00022085759102772088 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document c4
+0.00022073789170129016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document c4
+0.00022049322781182384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document c4
+0.00022083270617761285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document c4
+0.00021982452827473632 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document c4
+0.00021899870446514259 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document c4
+0.00021890358773356361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document c4
+0.00021875556609042841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document c4
+0.00021861195987201226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document c4
+0.00021856782186167455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document c4
+0.00021912837771543515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document c4
+0.00021900213768517756 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document c4
+0.00021871675851390374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document c4
+0.0002180537056545586 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document c4
+0.0002188196714327129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document c4
+0.00021851362624523464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document c4
+0.0002183236795498736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document c4
+7.291153618675672e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document c4
diff --git a/ALCF/data-lists/polaris/cc.txt b/ALCF/data-lists/polaris/cc.txt
new file mode 100644
index 00000000000..75485866e61
--- /dev/null
+++ b/ALCF/data-lists/polaris/cc.txt
@@ -0,0 +1,1108 @@
+0.0003742481815405742 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document cc
+0.00038204855962733055 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document cc
+0.00038821818392663593 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document cc
+0.00038723332988783727 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document cc
+0.00038916141142149904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document cc
+0.00038049542523949033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document cc
+0.0003854755539534284 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document cc
+0.00024202756466512517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document cc
+0.0003915405155008087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document cc
+0.0003927382151931033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document cc
+0.0003839151202260479 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document cc
+0.00040006817468967907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document cc
+0.00040318965964443476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document cc
+0.0003831013019452741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document cc
+0.00039166638383204036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document cc
+0.00039962784023961004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document cc
+0.00039536707853602614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document cc
+0.0004204304698247758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document cc
+0.00041538899178693555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document cc
+0.00039186953333675306 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document cc
+0.00038945837196504305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document cc
+0.0003919951238929062 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document cc
+0.00044377065718528966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document cc
+0.0004407759068603017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document cc
+0.0002487811895843715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document cc
+0.00039349432045556636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document cc
+0.00041223198559462343 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document cc
+0.0004036573014830213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document cc
+0.0003825982215521807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document cc
+0.00040386867133151386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document cc
+0.00024460575279105167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document cc
+0.000269029789531335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document cc
+0.0003573757493252864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document cc
+0.0004600876681392076 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document cc
+0.0002605354166397086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document cc
+0.0003882502452157999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document cc
+0.0002466747612126512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document cc
+0.0004024726105072402 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document cc
+0.00040820631128483644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document cc
+0.0002691094350403538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document cc
+0.00026916830387277267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document cc
+0.0004204663297880574 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document cc
+0.00042379698687085554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document cc
+0.0004502169227311871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document cc
+0.0002661708937015295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document cc
+0.00031239486948031334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document cc
+0.0003109054589936201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document cc
+0.00045873053079760646 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document cc
+0.00022904931423244635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document cc
+0.0003813462028433663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document cc
+0.00039188129256500874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document cc
+0.00045124222276983765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document cc
+0.00048138658436853695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document cc
+0.0003944178776279866 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document cc
+0.00039941569676754006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document cc
+0.00037952761190240494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document cc
+0.0003944870860881476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document cc
+0.0003891842411856621 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document cc
+0.000387688981934861 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document cc
+0.00039197953876258005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document cc
+0.00039007915280311206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document cc
+0.0003995520363699188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document cc
+0.00039230985654592406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document cc
+0.0003929472067173851 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document cc
+0.0003924096172671473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document cc
+0.0003881636143629905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document cc
+0.000389790617937084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document cc
+0.00037351762309221023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document cc
+0.0003630196170929407 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document cc
+0.00033532465765142113 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document cc
+0.0003076088685761823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document cc
+0.00039463850897720803 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document cc
+0.0002843816115231449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document cc
+0.0002909175709416474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document cc
+0.00028867170997202486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document cc
+0.0002838644617723659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document cc
+0.00029027869525543416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document cc
+0.0002821339567560056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document cc
+0.0002922988877045601 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document cc
+0.0002866955958315786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document cc
+0.0002865271754558126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document cc
+0.0002861247475618473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document cc
+0.0002826681072408606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document cc
+0.0002849746458282827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document cc
+0.0002816966633435316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document cc
+0.00026255342235948463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document cc
+0.0002552895098829678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document cc
+0.00025990194083107813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document cc
+0.0002524062657685835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document cc
+0.0002538577379748611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document cc
+0.0002561415177406761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document cc
+0.00026206253059694905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document cc
+0.00026168095406910565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document cc
+0.0002601305742008613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document cc
+0.00025200823006814814 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document cc
+0.0003229951981263502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document cc
+0.00037289448266476045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document cc
+0.0003807825862179898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document cc
+0.0003616333738191483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document cc
+0.0003665117918907636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document cc
+0.0003684186453633228 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document cc
+0.0003589330610806066 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document cc
+0.00036383861418030395 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document cc
+0.000359841363355303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document cc
+0.00036431044063050464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document cc
+0.0003668574090358279 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document cc
+0.000362768263620199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document cc
+0.0003501888032771077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document cc
+0.000352401968221528 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document cc
+0.0003541019701869794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document cc
+0.0003628121865546891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document cc
+0.0003752582953758773 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document cc
+0.00037902046230424966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document cc
+0.0003777927146925147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document cc
+0.0003760676130509053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document cc
+0.00034046049078755405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document cc
+0.0003338847563259091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document cc
+0.00033294499102761794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document cc
+0.0004912026198265864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document cc
+0.00032064363474664014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document cc
+0.00032154190389541214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document cc
+0.00032309660151746207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document cc
+0.00031181143365304544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document cc
+0.00031046092294569104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document cc
+0.00031150165249068046 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document cc
+0.0003041314265988224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document cc
+0.0003024834909739394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document cc
+0.0003019936835833604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document cc
+0.000292329665283177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document cc
+0.0002867061143144972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document cc
+0.00028443615610701707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document cc
+0.00028462291013755945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document cc
+0.0002793538601205013 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document cc
+0.00027306573977044246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document cc
+0.00027097155673336525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document cc
+0.0002752934202112985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document cc
+0.00043042012694697647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document cc
+0.00047495648822986177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document cc
+0.00047755032493473855 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document cc
+0.0004706974343933747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document cc
+0.00046682163297771817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document cc
+0.0004616765425874178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document cc
+0.00030644496751628097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document cc
+0.0002909492555358308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document cc
+0.00027272036068261724 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document cc
+0.0004101070217315588 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document cc
+0.0003728914338834357 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document cc
+0.00036546911442305647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document cc
+0.0003669945482407483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document cc
+0.0003715902407424017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document cc
+0.00035837486406683366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document cc
+0.0003573318538685469 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document cc
+0.0003553784893071916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document cc
+0.0004920659809912352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document cc
+0.0004533619411303183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document cc
+0.00045067066057818706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document cc
+0.00044396985139270645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document cc
+0.00043198288204468477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document cc
+0.00043005174223738454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document cc
+0.00041847118430776784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document cc
+0.00042952036375796664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document cc
+0.00043420594647324267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document cc
+0.0003461123241053012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document cc
+0.0003408581597849182 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document cc
+0.00033172705422182547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document cc
+0.0003392566490686136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document cc
+0.00033578341518385483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document cc
+0.0003439196710518844 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document cc
+0.00034559163447085543 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document cc
+0.00033762478642902825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document cc
+0.00033215210055107224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document cc
+0.00033423579608014966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document cc
+0.0004963355016025102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document cc
+0.0004996862761456923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document cc
+0.0005000551829325451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document cc
+0.0005004212610098755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document cc
+0.00027768695585500585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document cc
+0.00028395983854338433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document cc
+0.00027835826303062254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document cc
+0.0002740073176010804 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document cc
+0.0002791830529274016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document cc
+0.0002796863816194411 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document cc
+0.00026697453022672804 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document cc
+0.0002594197440280141 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document cc
+0.0003779565697649222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document cc
+0.00041835823476586606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document cc
+0.00043788493575265915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document cc
+0.0002731731970096006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document cc
+0.000276305847423402 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document cc
+0.0002704955773958623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document cc
+0.0002629635944827518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document cc
+0.000260070956974436 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document cc
+0.00025661553791456334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document cc
+0.00025794727207576157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document cc
+0.00025295733980001527 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document cc
+0.0003788106407021029 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document cc
+0.0004882344027669431 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document cc
+0.0003275324309642705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document cc
+0.0004803401856640094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document cc
+0.00046720138323433943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document cc
+0.00043527810307095335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document cc
+0.00043905395741627827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document cc
+0.00048774175867331425 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document cc
+0.00048380704121346737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document cc
+0.0004779011848346118 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document cc
+0.00046255587581908036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document cc
+0.00045127922880511576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document cc
+0.0004503891485256095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document cc
+0.0004450142332303422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document cc
+0.00044630282482516654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document cc
+0.00044325014465743616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document cc
+0.0004263874842796447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document cc
+0.0004217530913646938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document cc
+0.000415120314341852 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document cc
+0.00040987168279144537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document cc
+0.00033468337266607834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document cc
+0.0003353094464683005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document cc
+0.0004833936821707294 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document cc
+0.00047194878988920935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document cc
+0.0004648324126996427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document cc
+0.0004562345003964941 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document cc
+0.0004933203505465098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document cc
+0.0003530166075325466 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document cc
+0.00035368548192804685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document cc
+0.0004872620828289663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document cc
+0.00048293889392426456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document cc
+0.00047936768462267655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document cc
+0.00047821013991587545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document cc
+0.0004660610308564753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document cc
+0.000394683430103437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document cc
+0.00039165053441571324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document cc
+0.0003906936040164381 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document cc
+0.00038074803919159006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document cc
+0.0003686529291578143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document cc
+0.00035832920428870976 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document cc
+0.00035929024535947033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document cc
+0.0003538226556050544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document cc
+0.0003584167868708799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document cc
+0.0003480507542594234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document cc
+0.0003413709023543034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document cc
+0.00034001304759361455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document cc
+0.00033430532902756514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document cc
+0.00046519252660631277 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document cc
+0.0002938876402514769 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document cc
+0.00028676090994509047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document cc
+0.00027296150117506716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document cc
+0.00026513502621960483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document cc
+0.0002680081327926125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document cc
+0.00025831225828720344 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document cc
+0.00026647037295561 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document cc
+0.0002525733734572654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document cc
+0.00025831708887575375 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document cc
+0.00042487627444443476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document cc
+0.0004951213245023891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document cc
+0.0004804051413177752 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document cc
+0.0004662397611340532 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document cc
+0.0004550138655253933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document cc
+0.00044494909122746795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document cc
+0.0002899112253051385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document cc
+0.0004372879736279761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document cc
+0.0004529568099252922 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document cc
+0.00045127826158829573 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document cc
+0.0004436558176737439 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document cc
+0.0004419233237678378 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document cc
+0.000434589215880319 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document cc
+0.00029153613207706566 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document cc
+0.0004312458058738854 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document cc
+0.00028741854968757313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document cc
+0.00046853200754421234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document cc
+0.0004949145252030074 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document cc
+0.00044459683920483167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document cc
+0.0003836095306696336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document cc
+0.0003789760237872398 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document cc
+0.0003749227438304427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document cc
+0.0003628558277173369 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document cc
+0.00039468301394041474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document cc
+0.00038874701821614864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document cc
+0.0004158492456077867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document cc
+0.00042360504554060077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document cc
+0.00040386729844317623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document cc
+0.00027595096702902474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document cc
+0.00043638766787829135 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document cc
+0.0002218691596850179 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document cc
+0.0004437566108089954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document cc
+0.0003889996411609667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document cc
+0.00043454421906537704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document cc
+0.0004522564392830988 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document cc
+0.00041517835659357416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document cc
+0.0002614360863446896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document cc
+0.00037543522111463596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document cc
+0.0004386190133514781 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document cc
+0.00046358333286115075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document cc
+0.00043186261317942404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document cc
+0.0002377581602097957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document cc
+0.00025973334085074254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document cc
+0.00040139099332000796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document cc
+0.00043674860686687174 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document cc
+0.00040853289309329373 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document cc
+0.000242910191729688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document cc
+0.0004431071731750582 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document cc
+0.0004388092670482523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document cc
+0.000381418866255965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document cc
+0.0004100117296419717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document cc
+0.00042469230366022745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document cc
+0.00041744151905374254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document cc
+0.00022835699906752945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document cc
+0.0004380161085387397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document cc
+0.00044803212381807456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document cc
+0.00040554932796137236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document cc
+0.0004234508646347761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document cc
+0.00043341209652360653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document cc
+0.00023966604734537185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document cc
+0.000259165907316014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document cc
+0.0004270653021833602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document cc
+0.0004341547032162028 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document cc
+0.0004111478117275994 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document cc
+0.0004299383567984396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document cc
+0.0004241899124590779 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document cc
+0.0004502719349364145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document cc
+0.00038994621469645615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document cc
+0.0003859912398894952 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document cc
+0.0004247535950310557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document cc
+0.000386982084327716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document cc
+0.0004196451040053251 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document cc
+0.0004096278509782259 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document cc
+0.0004373334932695721 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document cc
+0.0004180889975240641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document cc
+0.00042079636929672745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document cc
+0.00038063574611812913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document cc
+0.0003817505891515542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document cc
+0.0004420096268860222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document cc
+0.00039182670726410623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document cc
+0.0003635667850372299 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document cc
+0.00041564996472055667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document cc
+0.000400529358757286 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document cc
+0.0003939113874958451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document cc
+0.00039066622068940996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document cc
+0.0004290098538807143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document cc
+0.0004240739958197099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document cc
+0.00040775392659215333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document cc
+0.0004091634200396925 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document cc
+0.00042299190476617914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document cc
+0.0003701492680344151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document cc
+0.0003807353844384635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document cc
+0.00038813507771983156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document cc
+0.00040072346558408346 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document cc
+0.0003603595180423597 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document cc
+0.00038799421353112465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document cc
+0.00037575235582264926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document cc
+0.0004239190342959713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document cc
+0.0004606044799136546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document cc
+0.00045107950652529253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document cc
+0.0004391947201871058 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document cc
+0.0004457516661123035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document cc
+0.0004301297170991686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document cc
+0.00044661704164586694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document cc
+0.0004438849846114837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document cc
+0.0004444205734316823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document cc
+0.0004190924165303394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document cc
+0.00043942581131677875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document cc
+0.00021568459798090663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document cc
+0.0003814929225407199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document cc
+0.0003217453179359235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document cc
+0.00031719591470267974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document cc
+0.00032434115726922137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document cc
+0.0004079911120371051 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document cc
+0.000329492766381148 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document cc
+0.0003845916162001633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document cc
+0.0003835208964390098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document cc
+0.00037847334157173194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document cc
+0.00038296039903791865 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document cc
+0.00037896336828472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document cc
+0.00037620974396391355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document cc
+0.00037420590727111843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document cc
+0.000340490625886403 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document cc
+0.0003078314411035827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document cc
+0.00034153990750656097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document cc
+0.0003308858103982067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document cc
+0.0003452640607156025 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document cc
+0.00033095276418403455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document cc
+0.0003116308995860414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document cc
+0.00032446713226408477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document cc
+0.0003015816821912984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document cc
+0.00031612418775706894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document cc
+0.0003278516344971041 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document cc
+0.00033079446736097217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document cc
+0.00032278977146550837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document cc
+0.00032065272988207914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document cc
+0.0003936696452406576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document cc
+0.0003450109536627789 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document cc
+0.0003339787189919641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document cc
+0.0003284303856176974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document cc
+0.00033652677276843477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document cc
+0.0003257822443845694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document cc
+0.0003293985569149334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document cc
+0.0003310360260148262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document cc
+0.0003233770986418526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document cc
+0.0003172280092149422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document cc
+0.0003160674744292835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document cc
+0.00030931090289598506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document cc
+0.0003093173886443107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document cc
+0.00033167847081104083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document cc
+0.00031131501311729723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document cc
+0.00031046608876279845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document cc
+0.00030569235942207244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document cc
+0.00030777943671285197 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document cc
+0.00029303314290956683 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document cc
+0.0003045824546400205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document cc
+0.00030360880677729793 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document cc
+0.00031646239964835433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document cc
+0.0003129122300603785 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document cc
+0.00031060464956661433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document cc
+0.000311819032500067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document cc
+0.0002977872483902282 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document cc
+0.0003009448600922438 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document cc
+0.00028610292098537774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document cc
+0.0002988326876216654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document cc
+0.00028550828372819075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document cc
+0.0002830381750875739 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document cc
+0.0002848495855927156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document cc
+0.0002856443760308144 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document cc
+0.00027442895344188584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document cc
+0.0002681160554049462 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document cc
+0.0003421482544126989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document cc
+0.0004005872948449718 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document cc
+0.0003930123959320308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document cc
+0.0003867271832275778 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document cc
+0.000380805140455254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document cc
+0.0003814769861947819 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document cc
+0.00038025170883282324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document cc
+0.0003738026647867475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document cc
+0.00018960856915036276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document cc
+0.0003697177501953134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document cc
+0.00036674194328136693 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document cc
+0.00036447406838697555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document cc
+0.00036686410861101255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document cc
+0.00035915267825103423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document cc
+0.0003624758404026675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document cc
+0.0002822812140180794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document cc
+0.00030620512946920813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document cc
+0.000294249776520589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document cc
+0.00030238536967523434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document cc
+0.00029509593361580754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document cc
+0.0002906912701830899 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document cc
+0.0002921944165474959 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document cc
+0.00028358919691127954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document cc
+0.0002813182772323272 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document cc
+0.00027442640800299205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document cc
+0.0002747820342933984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document cc
+0.0002747584403979717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document cc
+0.00027499129634862444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document cc
+0.0002712050404257197 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document cc
+0.0002616256943143254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document cc
+0.00026769938929002815 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document cc
+0.00038396081322727017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document cc
+0.0003863140490027991 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document cc
+0.00037702277513203237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document cc
+0.0003633274156107032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document cc
+0.0003587473889240435 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document cc
+0.0003507672084278415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document cc
+0.00033776425499780385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document cc
+0.0003377914127574796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document cc
+0.00032948015659161326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document cc
+0.00033245638541392985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document cc
+0.00031080707640648695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document cc
+0.0002976903331149755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document cc
+0.0002965121463725523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document cc
+0.0002933849695266647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document cc
+0.0002837035078508233 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document cc
+0.00028684569079589323 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document cc
+0.0003145192320802359 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document cc
+0.0003566937253273515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document cc
+0.0003470199109592918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document cc
+0.0003060245312041868 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document cc
+0.0002650817213818789 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document cc
+0.0002643604938780134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document cc
+0.000299350876031416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document cc
+0.0003178540797697938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document cc
+0.000271850367887767 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document cc
+0.00031349896596549 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document cc
+0.00031749734412765755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document cc
+0.0003791137842391209 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document cc
+0.0003742334169957992 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document cc
+0.0003705639757351107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document cc
+0.0003126986769797042 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document cc
+0.00031038132814561196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document cc
+0.00036464437173804883 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document cc
+0.0003569480488951322 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document cc
+0.0003541239221619106 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document cc
+0.00035315297411308053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document cc
+0.0003572451925404141 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document cc
+0.0003514986129411253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document cc
+0.0003521798298425866 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document cc
+0.00034553677439244716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document cc
+0.000349004719809412 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document cc
+0.0003468247484872769 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document cc
+0.0003465822608356558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document cc
+0.00035410983132162007 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document cc
+0.0003487908354969444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document cc
+0.0003479024763238147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document cc
+0.000341412530646823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document cc
+0.00034451316273667034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document cc
+0.0002618849993484869 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document cc
+0.00026788679978901144 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document cc
+0.00027450670773227214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document cc
+0.0002661273129899329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document cc
+0.00026836569676402957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document cc
+0.00026155876975483236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document cc
+0.0002609276830117151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document cc
+0.0002644161630512771 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document cc
+0.00036789208972872557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document cc
+0.00037829849439990513 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document cc
+0.0003788894943523098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document cc
+0.0003617207777959397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document cc
+0.0002541334487248998 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document cc
+0.0002707945538071073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document cc
+0.00027046282716455214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document cc
+0.0002652443167243215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document cc
+0.0002685859923850986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document cc
+0.00025734961751176414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document cc
+0.000259041720872915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document cc
+0.00025340107274823446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document cc
+0.00025757135121837893 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document cc
+0.00025617700500574084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document cc
+0.0002566931670562857 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document cc
+0.0002543871190716101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document cc
+0.00024997565589481713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document cc
+0.0002954079779456287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document cc
+0.00034890741135252835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document cc
+0.0003473298137731525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document cc
+0.0003296959618486435 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document cc
+0.0003304520061604598 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document cc
+0.00032377956175729824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document cc
+0.00031700696295168713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document cc
+0.0003060382346081943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document cc
+0.0003012003005056863 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document cc
+0.0002981074073993884 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document cc
+0.0002922128825950705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document cc
+0.000348901087722931 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document cc
+0.0003408286289467841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document cc
+0.0003410649680770183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document cc
+0.0003358524215576502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document cc
+0.0003343661874989231 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document cc
+0.00032810573699389156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document cc
+0.00032261449539097497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document cc
+0.0003162694866049203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document cc
+0.0003158381156468853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document cc
+0.000317376061083603 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document cc
+0.0003125788639953052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document cc
+0.0003010105041885602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document cc
+0.0003065865059090678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document cc
+0.0003084275726508053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document cc
+0.00030966560718296085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document cc
+0.0002957728057853081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document cc
+0.00029904164542325336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document cc
+0.0002955358888729187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document cc
+0.00028692976446931544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document cc
+0.0002923476214935797 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document cc
+0.0002893691697212419 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document cc
+0.0002855895211981585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document cc
+0.00027968347097626246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document cc
+0.0002810783462604979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document cc
+0.00027794080455729715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document cc
+0.00034784376461416953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document cc
+0.0003488347959010943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document cc
+0.00034790583710250724 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document cc
+0.000345913166618151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document cc
+0.00033801936268066675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document cc
+0.0003290591130212315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document cc
+0.00034051399521366823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document cc
+0.00032470943131841784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document cc
+0.00031679540050914276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document cc
+0.00031814596342422325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document cc
+0.0003156466289485036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document cc
+0.00029985010879003633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document cc
+0.0002905176377776361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document cc
+0.0004206836775460856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document cc
+0.00020660449162246918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document cc
+0.0003461727254468087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document cc
+0.00020592870907067763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document cc
+0.00034173505299233005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document cc
+0.0004052437256652738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document cc
+0.0004080650901351697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document cc
+0.00039778184149144276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document cc
+0.00039046311464950275 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document cc
+0.00039043444911071384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document cc
+0.000388575704932843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document cc
+0.00019737533145666597 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document cc
+0.00037610755595812403 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document cc
+0.00037315400127598317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document cc
+0.00037415028580922163 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document cc
+0.00036694041707212337 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document cc
+0.00018947219857306515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document cc
+0.00037046050826533545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document cc
+0.0003587440768559087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document cc
+0.00034623936498708903 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document cc
+0.0003502289592617922 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document cc
+0.00034692398063649823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document cc
+0.000339340809421849 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document cc
+0.0003360510394816983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document cc
+0.0003354673850814145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document cc
+0.00032937682875877047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document cc
+0.00032844505049317715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document cc
+0.00028287199339908627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document cc
+0.0002795217197003578 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document cc
+0.00028048955601883463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document cc
+0.0002769326396439027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document cc
+0.0002727090021299243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document cc
+0.0002726577841024554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document cc
+0.00026663619593455374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document cc
+0.00026068042672138127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document cc
+0.0002637704114326801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document cc
+0.0002593043567100412 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document cc
+0.0002599897110113453 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document cc
+0.0002435078682758859 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document cc
+0.0002450530071379054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document cc
+0.00024233331983743606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document cc
+0.0002934750947999535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document cc
+0.00033241226364044474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document cc
+0.00032938406090272075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document cc
+0.00032778705403953246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document cc
+0.00032184551480398754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document cc
+0.00031874002264945737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document cc
+0.0003165319685666433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document cc
+0.00031307071173376295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document cc
+0.00031119524184911957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document cc
+0.0003102253344576429 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document cc
+0.0003088976240383192 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document cc
+0.0002951410823077708 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document cc
+0.00029772657676757413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document cc
+0.0003056048989909935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document cc
+0.00031991305381648026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document cc
+0.00030890256978362426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document cc
+0.0003109382904091933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document cc
+0.00031035798529690644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document cc
+0.00030741666395911753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document cc
+0.0002989918594861846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document cc
+0.00029569635443989434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document cc
+0.0002973992445667285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document cc
+0.000293397351001072 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document cc
+0.00028737817438047954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document cc
+0.00028252738144009747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document cc
+0.0002805511898623541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document cc
+0.0003718020784620472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document cc
+0.0003499713845765235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document cc
+0.00034283547445326676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document cc
+0.00031464759888838765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document cc
+0.00033188946446414833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document cc
+0.000326084432195463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document cc
+0.0003764568303917893 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document cc
+0.0003604955598858414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document cc
+0.0003655654554133222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document cc
+0.00035762304033750504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document cc
+0.00038478883950347103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document cc
+0.00027735714341247454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document cc
+0.00028139534607773563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document cc
+0.00019777292251713763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document cc
+0.000285571704874486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document cc
+0.00028543482146244363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document cc
+0.00019434234484256758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document cc
+0.00027854908176986763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document cc
+0.0002847068039566143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document cc
+0.00028672356943064853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document cc
+0.00027782687605808177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document cc
+0.0002843539634105203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document cc
+0.0002894748379090401 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document cc
+0.0002868852440186493 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document cc
+0.0002818504885373851 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document cc
+0.00028680112812941034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document cc
+0.00019258978168723977 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document cc
+0.00028760637934715155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document cc
+0.0002820439443912918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document cc
+0.0002831001054410018 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document cc
+0.00029001901552467397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document cc
+0.00027779449377883156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document cc
+0.00019949837437516796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document cc
+0.0002907306472984446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document cc
+0.00027814858381318327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document cc
+0.00019472790889161432 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document cc
+0.00020472626596924125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document cc
+0.0002870045081974301 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document cc
+0.00019812241927078482 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document cc
+0.0002817553333369554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document cc
+0.00027829782796642117 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document cc
+0.00028289431732284113 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document cc
+0.0002795526296717729 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document cc
+0.00027682829988044574 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document cc
+0.0002895432402719184 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document cc
+0.0002823174903941811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document cc
+0.00028170972351837796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document cc
+0.00027807915877838826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document cc
+0.00028588515681452956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document cc
+0.00028112324090816726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document cc
+0.00020636178289985485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document cc
+0.00019447255290980535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document cc
+0.0002850824220591452 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document cc
+0.00027856429520116784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document cc
+0.0002820880676635633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document cc
+0.00028943902215995714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document cc
+0.0002676366291085329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document cc
+0.00023806333809954687 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document cc
+0.00024526460430233455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document cc
+0.00023876876664622726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document cc
+0.00023379770334179805 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document cc
+0.00024175151269138382 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document cc
+0.00023386583242595706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document cc
+0.00023771797150160827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document cc
+0.0002262748967483896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document cc
+0.0002408148346432682 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document cc
+0.00023398651720444235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document cc
+0.00022989433874474592 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document cc
+0.00023948500543957772 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document cc
+0.0002331594076859196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document cc
+0.00023375132439600242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document cc
+0.00023923410909668642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document cc
+0.00023952796315562954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document cc
+0.0002327466076905069 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document cc
+0.00023082758956797212 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document cc
+0.0002240509275524448 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document cc
+0.00022798879995765268 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document cc
+0.000221172516774386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document cc
+0.00021767045123534623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document cc
+0.00021982832794804484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document cc
+0.00021971626543789102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document cc
+0.00022566565206920132 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document cc
+0.0002181984894194856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document cc
+0.00021831417549554653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document cc
+0.00021601405421187145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document cc
+0.00022275733725519607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document cc
+0.00021847734911973986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document cc
+0.0002243591012664014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document cc
+0.00021688758139483833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document cc
+0.0002182953624789215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document cc
+0.00020475155724026002 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document cc
+0.00021498078062960065 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document cc
+0.0002157914337233064 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document cc
+0.00021781838494967963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document cc
+0.00021723242266814558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document cc
+0.0002176782686553837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document cc
+0.0003486179404943968 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document cc
+0.00034882846352857634 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document cc
+0.00031400868448352596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document cc
+0.00030273484020011963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document cc
+0.00029895889118145404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document cc
+0.00029770764609621714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document cc
+0.0002990181332116852 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document cc
+0.00029653733972285996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document cc
+0.00029624649222942476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document cc
+0.00029625609720203576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document cc
+0.00029731928930852147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document cc
+0.00029011721326148513 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document cc
+0.00028849788197494655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document cc
+0.00021601278623858145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document cc
+0.00021319599281739178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document cc
+0.0002153325290600083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document cc
+0.00018566946174516558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document cc
+0.00020736824394291617 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document cc
+0.00020857419820128004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document cc
+0.00020058526129536423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document cc
+0.00020745812166665217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document cc
+0.00020652171015271702 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document cc
+0.00020643808911278608 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document cc
+0.00020040513914482103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document cc
+0.00020598050188272898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document cc
+0.0001969184139343296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document cc
+0.0001972748812937012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document cc
+0.0002038556751586195 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document cc
+0.00020245186011313464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document cc
+0.00019950381422038783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document cc
+0.00020837055459665258 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document cc
+0.00020371856218246096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document cc
+0.00019537612301625791 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document cc
+0.00019914984508813857 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document cc
+0.0002053787713691309 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document cc
+0.00019082100541008637 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document cc
+0.00020397153334531813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document cc
+0.0002021462693077317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document cc
+0.00019609357008124035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document cc
+0.00019693256622486236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document cc
+0.00020007239732428112 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document cc
+0.00020467075741591954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document cc
+0.00019584883400022932 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document cc
+0.00019135050391176972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document cc
+0.0003362829834208298 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document cc
+0.00034013691154784095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document cc
+0.00033215887031941976 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document cc
+0.00032681189065396707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document cc
+0.0003149138485493094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document cc
+0.00030179177307540077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document cc
+0.0002923278437581119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document cc
+0.00029470052278994486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document cc
+0.0002994095093045731 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document cc
+0.00029033525096085037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document cc
+0.00029390798852496565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document cc
+0.0002916230924130842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document cc
+0.00029419886374594913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document cc
+0.0002865469756730764 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document cc
+0.00021191292549942086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document cc
+0.00021369664817409847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document cc
+0.00021612485624266726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document cc
+0.00022242192634588478 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document cc
+0.00014605095659989698 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document cc
+0.00022070626106341693 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document cc
+0.0002174420774054071 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document cc
+0.00021325858963116995 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document cc
+0.0002124322999488052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document cc
+0.0002081218896969054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document cc
+0.0002108710211556957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document cc
+0.00020686867095978426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document cc
+0.00020895752681041895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document cc
+0.00020741922266415738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document cc
+0.0002069112657197308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document cc
+0.00020644627473468118 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document cc
+0.00020332991338121604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document cc
+0.0003560895677789848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document cc
+0.00032915779111908214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document cc
+0.00033810613317040864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document cc
+0.00033729626594036923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document cc
+0.00033550342864602944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document cc
+0.00034173474024556906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document cc
+0.000331505340748827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document cc
+0.0003270050330117195 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document cc
+0.00032585275329172556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document cc
+0.0003143383203190604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document cc
+0.00031655199110388894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document cc
+0.00030738872158476413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document cc
+0.00030838388352699285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document cc
+0.0003053596995351888 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document cc
+0.00031836304739584593 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document cc
+0.000315315435873905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document cc
+0.0003087116248965243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document cc
+0.00030396790625537645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document cc
+0.0003335812246032149 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document cc
+0.00034570956323095843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document cc
+0.00034563035636675786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document cc
+0.00033411265479076335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document cc
+0.00034439191141692787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document cc
+0.0003364483125496565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document cc
+0.0003299500453608033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document cc
+0.00033163377700074837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document cc
+0.00032638649660627673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document cc
+0.00032616167939645234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document cc
+0.0003205289298760723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document cc
+0.00031939393740815355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document cc
+0.00031593164066731296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document cc
+0.00031928871111254405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document cc
+0.00029670189073175004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document cc
+0.00020517703846735904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document cc
+0.00020128418186172073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document cc
+0.00019662723895606717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document cc
+0.0001981157042081407 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document cc
+0.00019703489037041608 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document cc
+0.00019079796331785068 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document cc
+0.0001909352306690079 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document cc
+0.00018824662295261396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document cc
+0.00019864275319325954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document cc
+0.00018818516521649587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document cc
+0.00018875694972812844 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document cc
+0.00018231621170645482 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document cc
+0.00018349407845798273 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document cc
+0.00018088971427746906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document cc
+0.00018296284236327237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document cc
+0.0001876011825819916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document cc
+0.000329052068725176 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document cc
+0.00032223616273648536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document cc
+0.00031272564089633955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document cc
+0.00031621609908414494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document cc
+0.0003117213560911235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document cc
+0.00030218064069945934 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document cc
+0.00030658916600512085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document cc
+0.0002915863534115821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document cc
+0.0002940280138374372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document cc
+0.00029067860468866085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document cc
+0.00028529228063135635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document cc
+0.00028336893301452256 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document cc
+0.0002794668089130099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document cc
+0.00021681361378827842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document cc
+0.0001484664674497246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document cc
+0.00021950558378215133 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document cc
+0.00021806860758808645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document cc
+0.00021819568718852282 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document cc
+0.00021626925931585001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document cc
+0.0001464536143077762 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document cc
+0.00021432777088808917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document cc
+0.000213473805865147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document cc
+0.00021397067253964538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document cc
+0.00020758957647437263 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document cc
+0.00020687124337683314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document cc
+0.00020630057046511005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document cc
+0.0002091166859352538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document cc
+0.00020777355025615267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document cc
+0.00020709287641496176 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document cc
+0.00020736464660577094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document cc
+0.00020062246741862607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document cc
+0.00020693207561942915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document cc
+0.00021151004871893024 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document cc
+0.00019930249098689716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document cc
+0.00021589710041231824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document cc
+0.00021369204789905741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document cc
+0.0002147099923936778 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document cc
+0.00021077531190389536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document cc
+0.0002100509829113836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document cc
+0.00021185362601571124 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document cc
+0.00020722136637339565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document cc
+0.00020300093701169531 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document cc
+0.00019859737993313477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document cc
+0.00019971314372100164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document cc
+0.00019549908270269278 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document cc
+0.00019649820843534028 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document cc
+0.00019619415513498067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document cc
+0.00019493006120377898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document cc
+0.00019499409035775506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document cc
+0.00019252988593634277 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document cc
+0.00019440768268686405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document cc
+0.00018747161324755577 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document cc
+0.0001879575932372779 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document cc
+0.00019040707058357506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document cc
+0.0001871931095090703 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document cc
+0.00020112966223017096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document cc
+0.00020516878165311017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document cc
+0.00020664735191740533 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document cc
+0.00021041398572882962 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document cc
+0.00020397992929690396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document cc
+0.0002039978580295561 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document cc
+0.00020592785601142126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document cc
+0.0001990755527445265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document cc
+0.00019729564847798732 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document cc
+0.00019958182230527032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document cc
+0.0001985037302636386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document cc
+0.00020204130355115716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document cc
+0.0002000296401958085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document cc
+0.0001983064832295463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document cc
+0.00019663108484195617 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document cc
+0.00019510678560556523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document cc
+0.0001873284057063206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document cc
+0.00019311553072495885 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document cc
+0.00034652137288816547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document cc
+0.0002813690318850024 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document cc
+0.00027697649713138685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document cc
+0.0002755419092534421 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document cc
+0.0002681583054440219 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document cc
+0.00026945753192750824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document cc
+0.00026169470768245737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document cc
+0.00026437008960810825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document cc
+0.0002637294838228 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document cc
+0.00026491867965088836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document cc
+0.00025504483625138986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document cc
+0.0002545040623796586 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document cc
+0.0002546682814073622 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document cc
+0.00025545439487142615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document cc
+0.0002626896557978271 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document cc
+0.00025092040940402784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document cc
+0.0002589154885863872 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document cc
+0.00024106160482721467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document cc
+0.0002483289690087987 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document cc
+0.0002388930282784437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document cc
+0.00024006340759273874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document cc
+0.00023765248178029045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document cc
+0.00023061351965578936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document cc
+0.00024954224883546477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document cc
+0.00017861017233018525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document cc
+0.00017810832743667658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document cc
+0.00017599709170759497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document cc
+0.00017462723516505223 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document cc
+0.0002906316527068669 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document cc
+0.00033762141066247166 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document cc
+0.00017170670574152494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document cc
+0.00017258674515137717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document cc
+0.0002815386173173926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document cc
+0.0002996845935618989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document cc
+0.0002735268488987296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document cc
+0.0002971738713071517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document cc
+0.0002942690674002763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document cc
+0.0003322222207729567 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document cc
+0.0003378721656198464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document cc
+0.00018307262621851067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document cc
+0.00033956081502775057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document cc
+0.00031604820927876276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document cc
+0.00028805657681088917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document cc
+0.00026312293321215633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document cc
+0.00034366936722921455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document cc
+0.0002865256504406559 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document cc
+0.0003063615195861786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document cc
+0.00028412791619666136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document cc
+0.00028060835132727154 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document cc
+0.00032544974761560506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document cc
+0.0002647177833217225 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document cc
+0.0003152621884896575 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document cc
+0.0003054625140336913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document cc
+0.00031183308312292263 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document cc
+0.00018175026696621178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document cc
+0.00017699918328872 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document cc
+0.00018222339261441908 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document cc
+0.00018348005930964137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document cc
+0.0001810735993810541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document cc
+0.00030846441282038914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document cc
+0.0002972326889310354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document cc
+0.00017433421318235594 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document cc
+0.00032799458649525895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document cc
+0.00032482130048512673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document cc
+0.00031943465668672475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document cc
+0.00029615593630484517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document cc
+0.0002893126939511001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document cc
+0.0002849288351723284 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document cc
+0.00028383906633569267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document cc
+0.00028072526091262615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document cc
+0.000284239564292377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document cc
+0.0002778903109432523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document cc
+0.0002771644389501471 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document cc
+0.0002733316182319337 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document cc
+0.00026362539185869363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document cc
+0.0002636325383220217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document cc
+0.00026740622442302886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document cc
+0.0002646771971853427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document cc
+0.0002628566720605389 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document cc
+0.0002644760695434766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document cc
+0.0002623837702310999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document cc
+0.00026088722976772894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document cc
+0.0002567065374799158 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document cc
+0.00018857382101207726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document cc
+0.00019036580399817203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document cc
+0.00018348828065261222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document cc
+0.00018491851780345073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document cc
+0.00018904887260080187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document cc
+0.0001875609304251801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document cc
+0.00018393034720015817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document cc
+0.00018419795526114903 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document cc
+0.00018699955623404795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document cc
+0.00018276256902965128 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document cc
+0.00017698045695190812 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document cc
+0.00018104650132303642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document cc
+0.00017758206731279688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document cc
+0.00017131402995103497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document cc
+0.000175944428350446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document cc
+0.0003416745727147391 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document cc
+0.0003163259373952889 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document cc
+0.0002804489269172448 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document cc
+0.00028748272397403175 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document cc
+0.00027603318345630605 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document cc
+0.000271638824679648 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document cc
+0.0002763761210210942 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document cc
+0.00026501984873172717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document cc
+0.00026422486894694714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document cc
+0.0002686339100849262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document cc
+0.0002610837453940606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document cc
+0.000260974343729353 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document cc
+0.0002599403837029134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document cc
+0.0002937273113238609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document cc
+0.0003341790732600504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document cc
+0.0002620661576600244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document cc
+0.0003027929169239288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document cc
+0.00031944039129326894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document cc
+0.00019025676304139009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document cc
+0.00018680910145009907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document cc
+0.00034215840419416437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document cc
+0.00018618120812119364 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document cc
+0.00018605853095599425 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document cc
+0.00018120712626096538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document cc
+0.00018315079292495327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document cc
+0.00018362556449041974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document cc
+0.0001780024456718171 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document cc
+0.00033296526436178697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document cc
+0.0001802398632282846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document cc
+0.00017340263100798256 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document cc
+0.00017755840547238697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document cc
+0.00018419413735260606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document cc
+0.00017869518174591322 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document cc
+0.00017526271460129484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document cc
+0.00017852168597981907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document cc
+0.00017566536156787157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document cc
+0.00017589867964432936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document cc
+0.00017831487394075305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document cc
+0.00017837310528935862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document cc
+0.00018200908814216548 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document cc
+0.0001795136627511612 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document cc
+0.0003414021775300033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document cc
+0.00017177291787788502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document cc
+0.0003441900648571877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document cc
+0.0003394534597060673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document cc
+0.0003236887233114832 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document cc
+0.0001639544129688747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document cc
+0.00019137443753211255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document cc
+0.00018575146284680153 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document cc
+0.00019184792863440243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document cc
+0.00018966043065679055 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document cc
+0.00017968851317035848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document cc
+0.00018479881897661546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document cc
+0.0001813642692683015 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document cc
+0.0001686449798983066 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document cc
+0.00018516104592230446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document cc
+0.00031283726601066385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document cc
+0.0003248607542883853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document cc
+0.00031583241601202365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document cc
+0.00031238270857730376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document cc
+0.000307150592403979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document cc
+0.00029443829986847044 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document cc
+0.0002942723732234677 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document cc
+0.00023514930666443422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document cc
+0.0020776328951453444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document cc
+0.0021768234410538883 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document cc
+0.002106973549276289 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document cc
+0.002110915756171751 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document cc
+0.0017032382109816464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document cc
+0.0019047944877712286 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document cc
+0.0019402711744016077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document cc
+0.0006264790011223686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document cc
+0.0017885401938106643 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document cc
+
diff --git a/ALCF/data-lists/polaris/dolma.txt b/ALCF/data-lists/polaris/dolma.txt
new file mode 100644
index 00000000000..f2f98ab12c6
--- /dev/null
+++ b/ALCF/data-lists/polaris/dolma.txt
@@ -0,0 +1,2419 @@
+0.0018520780893211373 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document algebraic-stack-train
+0.0017591050606817512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document algebraic-stack-train
+0.001459052794333798 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document algebraic-stack-train
+0.0007405667281569194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document algebraic-stack-train
+0.00019420030110896795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document algebraic-stack-train
+0.0009008668715801845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document algebraic-stack-train
+0.00015115827957143057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document algebraic-stack-train
+0.0014552844319220648 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document algebraic-stack-train
+0.0012469861325685161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document algebraic-stack-train
+0.00136412011372413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document algebraic-stack-train
+0.0007064279699221103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document algebraic-stack-train
+0.0008472240000687427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document algebraic-stack-train
+0.0001984375713341955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document algebraic-stack-train
+0.0005472773881697123 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document algebraic-stack-train
+0.001815779629850992 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document algebraic-stack-train
+0.0018313600689757324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document algebraic-stack-train
+0.0002583902668716813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document arxiv
+0.0002646575141232155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document arxiv
+0.0003165521247456758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document arxiv
+0.0002920706460176214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document arxiv
+0.00028396813182810215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document arxiv
+0.00030445161883108107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document arxiv
+0.00031628781276576474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document arxiv
+0.0003083776568189157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document arxiv
+0.0003176359471472902 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document arxiv
+0.0002536009369131698 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document arxiv
+0.0003067491424681363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document arxiv
+0.0002597217257557784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document arxiv
+0.0003788556450109768 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document arxiv
+0.0002796563272052598 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document arxiv
+0.00033573826524290287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document arxiv
+0.00030523658022800287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document arxiv
+0.00032211552192240096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document arxiv
+0.0003329295675164247 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document arxiv
+0.0003101982186639862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document arxiv
+0.00032361798234223355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document arxiv
+0.0003495541581652915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document arxiv
+0.0002821637448858042 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document arxiv
+0.00030399523537629673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document arxiv
+0.0002955658968247219 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document arxiv
+0.00028942158502924254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document arxiv
+0.00028769546171490733 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document arxiv
+0.0002938111057234182 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document arxiv
+0.0002711150403010948 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document arxiv
+0.00031130095874747565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document arxiv
+0.0003002996118160777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document arxiv
+0.0003732757901604459 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document arxiv
+0.00026784205751795894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document arxiv
+0.0002799626521661984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document arxiv
+0.00034334276069078164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document arxiv
+0.0003582469803674965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document arxiv
+0.00031094844818418623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document arxiv
+0.0002766228384977191 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document arxiv
+0.00030297116159471485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document arxiv
+0.00027033888377464685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document arxiv
+0.00030090862368377933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document arxiv
+0.00028543875802490955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document arxiv
+0.00027559768459074204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document arxiv
+0.0003182185533962886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document arxiv
+0.0003311392971435837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document arxiv
+0.00028751652060804325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document arxiv
+0.000303466863212589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document arxiv
+0.00033400462801277524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document arxiv
+0.0002589234031777426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document arxiv
+0.0002913508598466723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document arxiv
+0.0002670572450004856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document arxiv
+0.00032027399105647656 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document arxiv
+0.00032188376258379377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document arxiv
+0.0003161585784100882 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document arxiv
+0.0003184249182974135 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document arxiv
+0.00030381336664000807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document arxiv
+0.0003190437442184283 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document arxiv
+0.0002537961798200545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document arxiv
+0.0003017817117223326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document arxiv
+0.00028685268513240224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document arxiv
+0.00031265179094451165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document arxiv
+0.00034708319096986816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document arxiv
+0.00026650837943080664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document arxiv
+0.00034588832248507335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document arxiv
+0.0002416982248399037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document arxiv
+0.0003089296918222243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document arxiv
+0.00029137184185700827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document arxiv
+0.00026464226846800774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document arxiv
+0.00030545397919456627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document arxiv
+0.0003206778460448875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document arxiv
+0.00030968971641110967 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document arxiv
+0.00023325653928600864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document arxiv
+0.00030526899198338555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document arxiv
+0.00035376719076633584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document arxiv
+0.000290224385981026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document arxiv
+0.000294650083382008 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document arxiv
+0.00028768858128616436 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document arxiv
+0.00030856965235527843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document arxiv
+0.00030579942447879054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document arxiv
+0.0002863101084704357 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document arxiv
+0.0002870032092492213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document arxiv
+0.000264182727569885 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document arxiv
+0.0002974012367036449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document arxiv
+0.00032238412143059203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document arxiv
+0.00031683716893819036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document arxiv
+0.00031157434937617524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document arxiv
+0.0003411742735695989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document arxiv
+0.00026778444816570715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document arxiv
+0.0003037045797275201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document arxiv
+0.00027746114370081314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document arxiv
+0.00027148285946862043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document arxiv
+0.00028042950114678207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document arxiv
+0.0003235607816590721 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document arxiv
+0.0003086692227306295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document arxiv
+0.00033990349455148105 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document arxiv
+0.00030945053208470265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document arxiv
+0.00027309074552265303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document arxiv
+0.00028737393506316194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document arxiv
+0.0003098868328009879 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document arxiv
+0.0002614229162588409 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document arxiv
+0.0002884388407820923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document arxiv
+0.0031025147279277244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document books
+0.003102019887362634 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document books
+0.0009996745994661548 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document books
+0.0002406272620255565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document c4
+0.0002404825539493424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document c4
+0.00024062296575435581 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document c4
+0.00024069315766818953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document c4
+0.00024055829162263452 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document c4
+0.00024062053397343032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document c4
+0.0002410715545206964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document c4
+0.00024024881846087368 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document c4
+0.0002407074700790688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document c4
+0.00024072141428809043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document c4
+0.00024027710230872736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document c4
+0.0002409111299205489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document c4
+0.00024081954058275009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document c4
+0.00024086076794990912 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document c4
+0.00024098672620832446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document c4
+0.00024068622303333862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document c4
+0.00024140627024291824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document c4
+0.0002414512033594384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document c4
+0.00024028742594941463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document c4
+0.00024018036089269645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document c4
+0.0002398347365034979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document c4
+0.00024006780153485276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document c4
+0.00024015620270419213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document c4
+0.0002408848259695227 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document c4
+0.0002408023185278831 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document c4
+0.00024021196580140326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document c4
+0.00024077677271297493 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document c4
+0.00024087392454668027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document c4
+0.0002408071293824126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document c4
+0.00024042223828845715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document c4
+0.0002411484752360495 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document c4
+0.00023605263746465907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document c4
+0.00023471222158326908 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document c4
+0.00023432138580287644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document c4
+0.00023407385623382327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document c4
+0.00023487504174367091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document c4
+0.0002341843704976313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document c4
+0.00023421993170282486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document c4
+0.00023445057969132037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document c4
+0.0002337681680073047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document c4
+0.000234627964808109 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document c4
+0.0002338942211888584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document c4
+0.00023403849286843386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document c4
+0.00023405641310796305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document c4
+0.00023349169562397965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document c4
+0.00023381157386048856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document c4
+0.00023388742993790587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document c4
+0.00023363103829469813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document c4
+0.00023421141834630477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document c4
+0.00023420564352232565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document c4
+0.00023367463699173143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document c4
+0.00023344969163567033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document c4
+0.00023372196941547188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document c4
+0.00023399207645297834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document c4
+0.00023357915605505856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document c4
+0.00023337585642190864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document c4
+0.00023385005470157914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document c4
+0.00023301533534493465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document c4
+0.00023377864302541782 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document c4
+0.00023323745848621437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document c4
+0.0002330594611151835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document c4
+0.0002334149675026783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document c4
+0.00023198945902291534 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document c4
+0.00023023784834634142 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document c4
+0.00022985623060187217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document c4
+0.0002292605284569516 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document c4
+0.00022926593333048894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document c4
+0.00022922766406807777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document c4
+0.00022898153911167426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document c4
+0.0002292473111593315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document c4
+0.000228804579400424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document c4
+0.00022865485613513526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document c4
+0.00022937426835887895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document c4
+0.00022917388311587372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document c4
+0.0002291660582019043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document c4
+0.00022907895248360543 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document c4
+0.0002294617879920205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document c4
+0.0002290452150516566 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document c4
+0.00022943405619715553 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document c4
+0.0002296271421006204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document c4
+0.00022854791372910372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document c4
+0.00022923123467686557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document c4
+0.00022852404355738494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document c4
+0.00022847798660086642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document c4
+0.0002289604586810316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document c4
+0.00022835479834950643 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document c4
+0.0002289149402884243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document c4
+0.00022806655474763446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document c4
+0.00022826296420992974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document c4
+0.00022906829636213627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document c4
+0.0002287628414466998 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document c4
+0.0002282673911253445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document c4
+0.00022869309841939134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document c4
+0.0002281540116815451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document c4
+0.0002259755756162738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document c4
+0.00022562331285233504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document c4
+0.0002259061146106053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document c4
+0.00022567670836663787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document c4
+0.00022573165387587061 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document c4
+0.00022508514961670572 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document c4
+0.00022564642513773356 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document c4
+0.00022563088621998788 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document c4
+0.0002250438755373707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document c4
+0.00022524465346241134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document c4
+0.00022531737657666812 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document c4
+0.00022444687519363458 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document c4
+0.00022460397498596298 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document c4
+0.00022454218976501763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document c4
+0.00022447528843671366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document c4
+0.00022501666332178926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document c4
+0.00022453752304377972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document c4
+0.00022484451871163002 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document c4
+0.00022465678847154914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document c4
+0.00022453180917044732 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document c4
+0.0002247278486823009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document c4
+0.00022465794828242097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document c4
+0.00022431000701925386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document c4
+0.00022476020248460963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document c4
+0.00022467531771795015 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document c4
+0.0002236391309945234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document c4
+0.00022458764920536007 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document c4
+0.00022430877426744415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document c4
+0.0002247047786127192 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document c4
+0.0002245298090400035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document c4
+0.0002245648831396188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document c4
+0.00022292894729820784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document c4
+0.00022236668082957533 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document c4
+0.0002217622659895442 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document c4
+0.00022252452726732609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document c4
+0.00022135333211363678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document c4
+0.0002214571757787971 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document c4
+0.0002217188139237798 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document c4
+0.00022144214894640303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document c4
+0.00022100172806631854 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document c4
+0.00022156392409199052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document c4
+0.00022134830143710272 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document c4
+0.00022158598922529453 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document c4
+0.00022142932483041377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document c4
+0.00022120980907786554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document c4
+0.00022117917738112441 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document c4
+0.00022077089397851235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document c4
+0.00022093265074996711 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document c4
+0.00022091299741377004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document c4
+0.0002205849150703338 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document c4
+0.0002210648204787979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document c4
+0.0002214235747364102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document c4
+0.00022083907302221787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document c4
+0.0002206334237915964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document c4
+0.00022065193929912214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document c4
+0.00022079775597767288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document c4
+0.00022091492909963518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document c4
+0.00022095009987097293 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document c4
+0.0002208150577180165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document c4
+0.00022085759102772088 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document c4
+0.00022073789170129016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document c4
+0.00022049322781182384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document c4
+0.00022083270617761285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document c4
+0.00021982452827473632 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document c4
+0.00021899870446514259 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document c4
+0.00021890358773356361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document c4
+0.00021875556609042841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document c4
+0.00021861195987201226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document c4
+0.00021856782186167455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document c4
+0.00021912837771543515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document c4
+0.00021900213768517756 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document c4
+0.00021871675851390374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document c4
+0.0002180537056545586 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document c4
+0.0002188196714327129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document c4
+0.00021851362624523464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document c4
+0.0002183236795498736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document c4
+7.291153618675672e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document c4
+0.0003742481815405742 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document cc
+0.00038204855962733055 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document cc
+0.00038821818392663593 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document cc
+0.00038723332988783727 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document cc
+0.00038916141142149904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document cc
+0.00038049542523949033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document cc
+0.0003854755539534284 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document cc
+0.00024202756466512517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document cc
+0.0003915405155008087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document cc
+0.0003927382151931033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document cc
+0.0003839151202260479 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document cc
+0.00040006817468967907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document cc
+0.00040318965964443476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document cc
+0.0003831013019452741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document cc
+0.00039166638383204036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document cc
+0.00039962784023961004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document cc
+0.00039536707853602614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document cc
+0.0004204304698247758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document cc
+0.00041538899178693555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document cc
+0.00039186953333675306 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document cc
+0.00038945837196504305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document cc
+0.0003919951238929062 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document cc
+0.00044377065718528966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document cc
+0.0004407759068603017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document cc
+0.0002487811895843715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document cc
+0.00039349432045556636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document cc
+0.00041223198559462343 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document cc
+0.0004036573014830213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document cc
+0.0003825982215521807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document cc
+0.00040386867133151386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document cc
+0.00024460575279105167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document cc
+0.000269029789531335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document cc
+0.0003573757493252864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document cc
+0.0004600876681392076 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document cc
+0.0002605354166397086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document cc
+0.0003882502452157999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document cc
+0.0002466747612126512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document cc
+0.0004024726105072402 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document cc
+0.00040820631128483644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document cc
+0.0002691094350403538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document cc
+0.00026916830387277267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document cc
+0.0004204663297880574 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document cc
+0.00042379698687085554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document cc
+0.0004502169227311871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document cc
+0.0002661708937015295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document cc
+0.00031239486948031334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document cc
+0.0003109054589936201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document cc
+0.00045873053079760646 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document cc
+0.00022904931423244635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document cc
+0.0003813462028433663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document cc
+0.00039188129256500874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document cc
+0.00045124222276983765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document cc
+0.00048138658436853695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document cc
+0.0003944178776279866 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document cc
+0.00039941569676754006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document cc
+0.00037952761190240494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document cc
+0.0003944870860881476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document cc
+0.0003891842411856621 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document cc
+0.000387688981934861 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document cc
+0.00039197953876258005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document cc
+0.00039007915280311206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document cc
+0.0003995520363699188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document cc
+0.00039230985654592406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document cc
+0.0003929472067173851 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document cc
+0.0003924096172671473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document cc
+0.0003881636143629905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document cc
+0.000389790617937084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document cc
+0.00037351762309221023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document cc
+0.0003630196170929407 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document cc
+0.00033532465765142113 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document cc
+0.0003076088685761823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document cc
+0.00039463850897720803 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document cc
+0.0002843816115231449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document cc
+0.0002909175709416474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document cc
+0.00028867170997202486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document cc
+0.0002838644617723659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document cc
+0.00029027869525543416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document cc
+0.0002821339567560056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document cc
+0.0002922988877045601 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document cc
+0.0002866955958315786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document cc
+0.0002865271754558126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document cc
+0.0002861247475618473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document cc
+0.0002826681072408606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document cc
+0.0002849746458282827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document cc
+0.0002816966633435316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document cc
+0.00026255342235948463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document cc
+0.0002552895098829678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document cc
+0.00025990194083107813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document cc
+0.0002524062657685835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document cc
+0.0002538577379748611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document cc
+0.0002561415177406761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document cc
+0.00026206253059694905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document cc
+0.00026168095406910565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document cc
+0.0002601305742008613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document cc
+0.00025200823006814814 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document cc
+0.0003229951981263502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document cc
+0.00037289448266476045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document cc
+0.0003807825862179898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document cc
+0.0003616333738191483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document cc
+0.0003665117918907636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document cc
+0.0003684186453633228 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document cc
+0.0003589330610806066 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document cc
+0.00036383861418030395 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document cc
+0.000359841363355303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document cc
+0.00036431044063050464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document cc
+0.0003668574090358279 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document cc
+0.000362768263620199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document cc
+0.0003501888032771077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document cc
+0.000352401968221528 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document cc
+0.0003541019701869794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document cc
+0.0003628121865546891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document cc
+0.0003752582953758773 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document cc
+0.00037902046230424966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document cc
+0.0003777927146925147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document cc
+0.0003760676130509053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document cc
+0.00034046049078755405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document cc
+0.0003338847563259091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document cc
+0.00033294499102761794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document cc
+0.0004912026198265864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document cc
+0.00032064363474664014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document cc
+0.00032154190389541214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document cc
+0.00032309660151746207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document cc
+0.00031181143365304544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document cc
+0.00031046092294569104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document cc
+0.00031150165249068046 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document cc
+0.0003041314265988224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document cc
+0.0003024834909739394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document cc
+0.0003019936835833604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document cc
+0.000292329665283177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document cc
+0.0002867061143144972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document cc
+0.00028443615610701707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document cc
+0.00028462291013755945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document cc
+0.0002793538601205013 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document cc
+0.00027306573977044246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document cc
+0.00027097155673336525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document cc
+0.0002752934202112985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document cc
+0.00043042012694697647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document cc
+0.00047495648822986177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document cc
+0.00047755032493473855 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document cc
+0.0004706974343933747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document cc
+0.00046682163297771817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document cc
+0.0004616765425874178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document cc
+0.00030644496751628097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document cc
+0.0002909492555358308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document cc
+0.00027272036068261724 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document cc
+0.0004101070217315588 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document cc
+0.0003728914338834357 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document cc
+0.00036546911442305647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document cc
+0.0003669945482407483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document cc
+0.0003715902407424017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document cc
+0.00035837486406683366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document cc
+0.0003573318538685469 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document cc
+0.0003553784893071916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document cc
+0.0004920659809912352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document cc
+0.0004533619411303183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document cc
+0.00045067066057818706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document cc
+0.00044396985139270645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document cc
+0.00043198288204468477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document cc
+0.00043005174223738454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document cc
+0.00041847118430776784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document cc
+0.00042952036375796664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document cc
+0.00043420594647324267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document cc
+0.0003461123241053012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document cc
+0.0003408581597849182 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document cc
+0.00033172705422182547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document cc
+0.0003392566490686136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document cc
+0.00033578341518385483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document cc
+0.0003439196710518844 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document cc
+0.00034559163447085543 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document cc
+0.00033762478642902825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document cc
+0.00033215210055107224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document cc
+0.00033423579608014966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document cc
+0.0004963355016025102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document cc
+0.0004996862761456923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document cc
+0.0005000551829325451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document cc
+0.0005004212610098755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document cc
+0.00027768695585500585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document cc
+0.00028395983854338433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document cc
+0.00027835826303062254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document cc
+0.0002740073176010804 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document cc
+0.0002791830529274016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document cc
+0.0002796863816194411 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document cc
+0.00026697453022672804 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document cc
+0.0002594197440280141 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document cc
+0.0003779565697649222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document cc
+0.00041835823476586606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document cc
+0.00043788493575265915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document cc
+0.0002731731970096006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document cc
+0.000276305847423402 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document cc
+0.0002704955773958623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document cc
+0.0002629635944827518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document cc
+0.000260070956974436 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document cc
+0.00025661553791456334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document cc
+0.00025794727207576157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document cc
+0.00025295733980001527 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document cc
+0.0003788106407021029 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document cc
+0.0004882344027669431 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document cc
+0.0003275324309642705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document cc
+0.0004803401856640094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document cc
+0.00046720138323433943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document cc
+0.00043527810307095335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document cc
+0.00043905395741627827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document cc
+0.00048774175867331425 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document cc
+0.00048380704121346737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document cc
+0.0004779011848346118 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document cc
+0.00046255587581908036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document cc
+0.00045127922880511576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document cc
+0.0004503891485256095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document cc
+0.0004450142332303422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document cc
+0.00044630282482516654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document cc
+0.00044325014465743616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document cc
+0.0004263874842796447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document cc
+0.0004217530913646938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document cc
+0.000415120314341852 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document cc
+0.00040987168279144537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document cc
+0.00033468337266607834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document cc
+0.0003353094464683005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document cc
+0.0004833936821707294 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document cc
+0.00047194878988920935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document cc
+0.0004648324126996427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document cc
+0.0004562345003964941 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document cc
+0.0004933203505465098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document cc
+0.0003530166075325466 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document cc
+0.00035368548192804685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document cc
+0.0004872620828289663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document cc
+0.00048293889392426456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document cc
+0.00047936768462267655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document cc
+0.00047821013991587545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document cc
+0.0004660610308564753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document cc
+0.000394683430103437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document cc
+0.00039165053441571324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document cc
+0.0003906936040164381 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document cc
+0.00038074803919159006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document cc
+0.0003686529291578143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document cc
+0.00035832920428870976 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document cc
+0.00035929024535947033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document cc
+0.0003538226556050544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document cc
+0.0003584167868708799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document cc
+0.0003480507542594234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document cc
+0.0003413709023543034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document cc
+0.00034001304759361455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document cc
+0.00033430532902756514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document cc
+0.00046519252660631277 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document cc
+0.0002938876402514769 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document cc
+0.00028676090994509047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document cc
+0.00027296150117506716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document cc
+0.00026513502621960483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document cc
+0.0002680081327926125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document cc
+0.00025831225828720344 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document cc
+0.00026647037295561 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document cc
+0.0002525733734572654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document cc
+0.00025831708887575375 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document cc
+0.00042487627444443476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document cc
+0.0004951213245023891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document cc
+0.0004804051413177752 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document cc
+0.0004662397611340532 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document cc
+0.0004550138655253933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document cc
+0.00044494909122746795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document cc
+0.0002899112253051385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document cc
+0.0004372879736279761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document cc
+0.0004529568099252922 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document cc
+0.00045127826158829573 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document cc
+0.0004436558176737439 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document cc
+0.0004419233237678378 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document cc
+0.000434589215880319 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document cc
+0.00029153613207706566 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document cc
+0.0004312458058738854 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document cc
+0.00028741854968757313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document cc
+0.00046853200754421234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document cc
+0.0004949145252030074 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document cc
+0.00044459683920483167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document cc
+0.0003836095306696336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document cc
+0.0003789760237872398 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document cc
+0.0003749227438304427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document cc
+0.0003628558277173369 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document cc
+0.00039468301394041474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document cc
+0.00038874701821614864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document cc
+0.0004158492456077867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document cc
+0.00042360504554060077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document cc
+0.00040386729844317623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document cc
+0.00027595096702902474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document cc
+0.00043638766787829135 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document cc
+0.0002218691596850179 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document cc
+0.0004437566108089954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document cc
+0.0003889996411609667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document cc
+0.00043454421906537704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document cc
+0.0004522564392830988 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document cc
+0.00041517835659357416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document cc
+0.0002614360863446896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document cc
+0.00037543522111463596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document cc
+0.0004386190133514781 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document cc
+0.00046358333286115075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document cc
+0.00043186261317942404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document cc
+0.0002377581602097957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document cc
+0.00025973334085074254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document cc
+0.00040139099332000796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document cc
+0.00043674860686687174 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document cc
+0.00040853289309329373 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document cc
+0.000242910191729688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document cc
+0.0004431071731750582 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document cc
+0.0004388092670482523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document cc
+0.000381418866255965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document cc
+0.0004100117296419717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document cc
+0.00042469230366022745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document cc
+0.00041744151905374254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document cc
+0.00022835699906752945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document cc
+0.0004380161085387397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document cc
+0.00044803212381807456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document cc
+0.00040554932796137236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document cc
+0.0004234508646347761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document cc
+0.00043341209652360653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document cc
+0.00023966604734537185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document cc
+0.000259165907316014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document cc
+0.0004270653021833602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document cc
+0.0004341547032162028 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document cc
+0.0004111478117275994 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document cc
+0.0004299383567984396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document cc
+0.0004241899124590779 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document cc
+0.0004502719349364145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document cc
+0.00038994621469645615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document cc
+0.0003859912398894952 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document cc
+0.0004247535950310557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document cc
+0.000386982084327716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document cc
+0.0004196451040053251 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document cc
+0.0004096278509782259 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document cc
+0.0004373334932695721 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document cc
+0.0004180889975240641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document cc
+0.00042079636929672745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document cc
+0.00038063574611812913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document cc
+0.0003817505891515542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document cc
+0.0004420096268860222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document cc
+0.00039182670726410623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document cc
+0.0003635667850372299 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document cc
+0.00041564996472055667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document cc
+0.000400529358757286 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document cc
+0.0003939113874958451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document cc
+0.00039066622068940996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document cc
+0.0004290098538807143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document cc
+0.0004240739958197099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document cc
+0.00040775392659215333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document cc
+0.0004091634200396925 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document cc
+0.00042299190476617914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document cc
+0.0003701492680344151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document cc
+0.0003807353844384635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document cc
+0.00038813507771983156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document cc
+0.00040072346558408346 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document cc
+0.0003603595180423597 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document cc
+0.00038799421353112465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document cc
+0.00037575235582264926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document cc
+0.0004239190342959713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document cc
+0.0004606044799136546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document cc
+0.00045107950652529253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document cc
+0.0004391947201871058 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document cc
+0.0004457516661123035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document cc
+0.0004301297170991686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document cc
+0.00044661704164586694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document cc
+0.0004438849846114837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document cc
+0.0004444205734316823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document cc
+0.0004190924165303394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document cc
+0.00043942581131677875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document cc
+0.00021568459798090663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document cc
+0.0003814929225407199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document cc
+0.0003217453179359235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document cc
+0.00031719591470267974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document cc
+0.00032434115726922137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document cc
+0.0004079911120371051 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document cc
+0.000329492766381148 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document cc
+0.0003845916162001633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document cc
+0.0003835208964390098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document cc
+0.00037847334157173194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document cc
+0.00038296039903791865 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document cc
+0.00037896336828472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document cc
+0.00037620974396391355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document cc
+0.00037420590727111843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document cc
+0.000340490625886403 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document cc
+0.0003078314411035827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document cc
+0.00034153990750656097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document cc
+0.0003308858103982067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document cc
+0.0003452640607156025 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document cc
+0.00033095276418403455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document cc
+0.0003116308995860414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document cc
+0.00032446713226408477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document cc
+0.0003015816821912984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document cc
+0.00031612418775706894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document cc
+0.0003278516344971041 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document cc
+0.00033079446736097217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document cc
+0.00032278977146550837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document cc
+0.00032065272988207914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document cc
+0.0003936696452406576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document cc
+0.0003450109536627789 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document cc
+0.0003339787189919641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document cc
+0.0003284303856176974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document cc
+0.00033652677276843477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document cc
+0.0003257822443845694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document cc
+0.0003293985569149334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document cc
+0.0003310360260148262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document cc
+0.0003233770986418526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document cc
+0.0003172280092149422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document cc
+0.0003160674744292835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document cc
+0.00030931090289598506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document cc
+0.0003093173886443107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document cc
+0.00033167847081104083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document cc
+0.00031131501311729723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document cc
+0.00031046608876279845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document cc
+0.00030569235942207244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document cc
+0.00030777943671285197 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document cc
+0.00029303314290956683 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document cc
+0.0003045824546400205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document cc
+0.00030360880677729793 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document cc
+0.00031646239964835433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document cc
+0.0003129122300603785 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document cc
+0.00031060464956661433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document cc
+0.000311819032500067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document cc
+0.0002977872483902282 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document cc
+0.0003009448600922438 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document cc
+0.00028610292098537774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document cc
+0.0002988326876216654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document cc
+0.00028550828372819075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document cc
+0.0002830381750875739 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document cc
+0.0002848495855927156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document cc
+0.0002856443760308144 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document cc
+0.00027442895344188584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document cc
+0.0002681160554049462 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document cc
+0.0003421482544126989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document cc
+0.0004005872948449718 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document cc
+0.0003930123959320308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document cc
+0.0003867271832275778 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document cc
+0.000380805140455254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document cc
+0.0003814769861947819 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document cc
+0.00038025170883282324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document cc
+0.0003738026647867475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document cc
+0.00018960856915036276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document cc
+0.0003697177501953134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document cc
+0.00036674194328136693 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document cc
+0.00036447406838697555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document cc
+0.00036686410861101255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document cc
+0.00035915267825103423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document cc
+0.0003624758404026675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document cc
+0.0002822812140180794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document cc
+0.00030620512946920813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document cc
+0.000294249776520589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document cc
+0.00030238536967523434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document cc
+0.00029509593361580754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document cc
+0.0002906912701830899 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document cc
+0.0002921944165474959 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document cc
+0.00028358919691127954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document cc
+0.0002813182772323272 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document cc
+0.00027442640800299205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document cc
+0.0002747820342933984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document cc
+0.0002747584403979717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document cc
+0.00027499129634862444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document cc
+0.0002712050404257197 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document cc
+0.0002616256943143254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document cc
+0.00026769938929002815 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document cc
+0.00038396081322727017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document cc
+0.0003863140490027991 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document cc
+0.00037702277513203237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document cc
+0.0003633274156107032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document cc
+0.0003587473889240435 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document cc
+0.0003507672084278415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document cc
+0.00033776425499780385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document cc
+0.0003377914127574796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document cc
+0.00032948015659161326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document cc
+0.00033245638541392985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document cc
+0.00031080707640648695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document cc
+0.0002976903331149755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document cc
+0.0002965121463725523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document cc
+0.0002933849695266647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document cc
+0.0002837035078508233 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document cc
+0.00028684569079589323 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document cc
+0.0003145192320802359 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document cc
+0.0003566937253273515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document cc
+0.0003470199109592918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document cc
+0.0003060245312041868 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document cc
+0.0002650817213818789 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document cc
+0.0002643604938780134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document cc
+0.000299350876031416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document cc
+0.0003178540797697938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document cc
+0.000271850367887767 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document cc
+0.00031349896596549 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document cc
+0.00031749734412765755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document cc
+0.0003791137842391209 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document cc
+0.0003742334169957992 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document cc
+0.0003705639757351107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document cc
+0.0003126986769797042 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document cc
+0.00031038132814561196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document cc
+0.00036464437173804883 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document cc
+0.0003569480488951322 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document cc
+0.0003541239221619106 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document cc
+0.00035315297411308053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document cc
+0.0003572451925404141 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document cc
+0.0003514986129411253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document cc
+0.0003521798298425866 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document cc
+0.00034553677439244716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document cc
+0.000349004719809412 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document cc
+0.0003468247484872769 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document cc
+0.0003465822608356558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document cc
+0.00035410983132162007 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document cc
+0.0003487908354969444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document cc
+0.0003479024763238147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document cc
+0.000341412530646823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document cc
+0.00034451316273667034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document cc
+0.0002618849993484869 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document cc
+0.00026788679978901144 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document cc
+0.00027450670773227214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document cc
+0.0002661273129899329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document cc
+0.00026836569676402957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document cc
+0.00026155876975483236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document cc
+0.0002609276830117151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document cc
+0.0002644161630512771 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document cc
+0.00036789208972872557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document cc
+0.00037829849439990513 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document cc
+0.0003788894943523098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document cc
+0.0003617207777959397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document cc
+0.0002541334487248998 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document cc
+0.0002707945538071073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document cc
+0.00027046282716455214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document cc
+0.0002652443167243215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document cc
+0.0002685859923850986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document cc
+0.00025734961751176414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document cc
+0.000259041720872915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document cc
+0.00025340107274823446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document cc
+0.00025757135121837893 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document cc
+0.00025617700500574084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document cc
+0.0002566931670562857 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document cc
+0.0002543871190716101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document cc
+0.00024997565589481713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document cc
+0.0002954079779456287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document cc
+0.00034890741135252835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document cc
+0.0003473298137731525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document cc
+0.0003296959618486435 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document cc
+0.0003304520061604598 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document cc
+0.00032377956175729824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document cc
+0.00031700696295168713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document cc
+0.0003060382346081943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document cc
+0.0003012003005056863 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document cc
+0.0002981074073993884 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document cc
+0.0002922128825950705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document cc
+0.000348901087722931 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document cc
+0.0003408286289467841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document cc
+0.0003410649680770183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document cc
+0.0003358524215576502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document cc
+0.0003343661874989231 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document cc
+0.00032810573699389156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document cc
+0.00032261449539097497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document cc
+0.0003162694866049203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document cc
+0.0003158381156468853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document cc
+0.000317376061083603 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document cc
+0.0003125788639953052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document cc
+0.0003010105041885602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document cc
+0.0003065865059090678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document cc
+0.0003084275726508053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document cc
+0.00030966560718296085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document cc
+0.0002957728057853081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document cc
+0.00029904164542325336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document cc
+0.0002955358888729187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document cc
+0.00028692976446931544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document cc
+0.0002923476214935797 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document cc
+0.0002893691697212419 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document cc
+0.0002855895211981585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document cc
+0.00027968347097626246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document cc
+0.0002810783462604979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document cc
+0.00027794080455729715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document cc
+0.00034784376461416953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document cc
+0.0003488347959010943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document cc
+0.00034790583710250724 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document cc
+0.000345913166618151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document cc
+0.00033801936268066675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document cc
+0.0003290591130212315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document cc
+0.00034051399521366823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document cc
+0.00032470943131841784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document cc
+0.00031679540050914276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document cc
+0.00031814596342422325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document cc
+0.0003156466289485036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document cc
+0.00029985010879003633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document cc
+0.0002905176377776361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document cc
+0.0004206836775460856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document cc
+0.00020660449162246918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document cc
+0.0003461727254468087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document cc
+0.00020592870907067763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document cc
+0.00034173505299233005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document cc
+0.0004052437256652738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document cc
+0.0004080650901351697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document cc
+0.00039778184149144276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document cc
+0.00039046311464950275 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document cc
+0.00039043444911071384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document cc
+0.000388575704932843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document cc
+0.00019737533145666597 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document cc
+0.00037610755595812403 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document cc
+0.00037315400127598317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document cc
+0.00037415028580922163 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document cc
+0.00036694041707212337 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document cc
+0.00018947219857306515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document cc
+0.00037046050826533545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document cc
+0.0003587440768559087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document cc
+0.00034623936498708903 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document cc
+0.0003502289592617922 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document cc
+0.00034692398063649823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document cc
+0.000339340809421849 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document cc
+0.0003360510394816983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document cc
+0.0003354673850814145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document cc
+0.00032937682875877047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document cc
+0.00032844505049317715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document cc
+0.00028287199339908627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document cc
+0.0002795217197003578 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document cc
+0.00028048955601883463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document cc
+0.0002769326396439027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document cc
+0.0002727090021299243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document cc
+0.0002726577841024554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document cc
+0.00026663619593455374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document cc
+0.00026068042672138127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document cc
+0.0002637704114326801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document cc
+0.0002593043567100412 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document cc
+0.0002599897110113453 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document cc
+0.0002435078682758859 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document cc
+0.0002450530071379054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document cc
+0.00024233331983743606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document cc
+0.0002934750947999535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document cc
+0.00033241226364044474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document cc
+0.00032938406090272075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document cc
+0.00032778705403953246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document cc
+0.00032184551480398754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document cc
+0.00031874002264945737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document cc
+0.0003165319685666433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document cc
+0.00031307071173376295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document cc
+0.00031119524184911957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document cc
+0.0003102253344576429 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document cc
+0.0003088976240383192 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document cc
+0.0002951410823077708 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document cc
+0.00029772657676757413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document cc
+0.0003056048989909935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document cc
+0.00031991305381648026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document cc
+0.00030890256978362426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document cc
+0.0003109382904091933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document cc
+0.00031035798529690644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document cc
+0.00030741666395911753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document cc
+0.0002989918594861846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document cc
+0.00029569635443989434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document cc
+0.0002973992445667285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document cc
+0.000293397351001072 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document cc
+0.00028737817438047954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document cc
+0.00028252738144009747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document cc
+0.0002805511898623541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document cc
+0.0003718020784620472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document cc
+0.0003499713845765235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document cc
+0.00034283547445326676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document cc
+0.00031464759888838765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document cc
+0.00033188946446414833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document cc
+0.000326084432195463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document cc
+0.0003764568303917893 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document cc
+0.0003604955598858414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document cc
+0.0003655654554133222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document cc
+0.00035762304033750504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document cc
+0.00038478883950347103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document cc
+0.00027735714341247454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document cc
+0.00028139534607773563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document cc
+0.00019777292251713763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document cc
+0.000285571704874486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document cc
+0.00028543482146244363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document cc
+0.00019434234484256758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document cc
+0.00027854908176986763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document cc
+0.0002847068039566143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document cc
+0.00028672356943064853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document cc
+0.00027782687605808177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document cc
+0.0002843539634105203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document cc
+0.0002894748379090401 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document cc
+0.0002868852440186493 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document cc
+0.0002818504885373851 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document cc
+0.00028680112812941034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document cc
+0.00019258978168723977 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document cc
+0.00028760637934715155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document cc
+0.0002820439443912918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document cc
+0.0002831001054410018 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document cc
+0.00029001901552467397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document cc
+0.00027779449377883156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document cc
+0.00019949837437516796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document cc
+0.0002907306472984446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document cc
+0.00027814858381318327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document cc
+0.00019472790889161432 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document cc
+0.00020472626596924125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document cc
+0.0002870045081974301 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document cc
+0.00019812241927078482 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document cc
+0.0002817553333369554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document cc
+0.00027829782796642117 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document cc
+0.00028289431732284113 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document cc
+0.0002795526296717729 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document cc
+0.00027682829988044574 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document cc
+0.0002895432402719184 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document cc
+0.0002823174903941811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document cc
+0.00028170972351837796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document cc
+0.00027807915877838826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document cc
+0.00028588515681452956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document cc
+0.00028112324090816726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document cc
+0.00020636178289985485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document cc
+0.00019447255290980535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document cc
+0.0002850824220591452 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document cc
+0.00027856429520116784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document cc
+0.0002820880676635633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document cc
+0.00028943902215995714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document cc
+0.0002676366291085329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document cc
+0.00023806333809954687 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document cc
+0.00024526460430233455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document cc
+0.00023876876664622726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document cc
+0.00023379770334179805 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document cc
+0.00024175151269138382 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document cc
+0.00023386583242595706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document cc
+0.00023771797150160827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document cc
+0.0002262748967483896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document cc
+0.0002408148346432682 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document cc
+0.00023398651720444235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document cc
+0.00022989433874474592 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document cc
+0.00023948500543957772 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document cc
+0.0002331594076859196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document cc
+0.00023375132439600242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document cc
+0.00023923410909668642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document cc
+0.00023952796315562954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document cc
+0.0002327466076905069 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document cc
+0.00023082758956797212 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document cc
+0.0002240509275524448 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document cc
+0.00022798879995765268 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document cc
+0.000221172516774386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document cc
+0.00021767045123534623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document cc
+0.00021982832794804484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document cc
+0.00021971626543789102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document cc
+0.00022566565206920132 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document cc
+0.0002181984894194856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document cc
+0.00021831417549554653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document cc
+0.00021601405421187145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document cc
+0.00022275733725519607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document cc
+0.00021847734911973986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document cc
+0.0002243591012664014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document cc
+0.00021688758139483833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document cc
+0.0002182953624789215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document cc
+0.00020475155724026002 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document cc
+0.00021498078062960065 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document cc
+0.0002157914337233064 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document cc
+0.00021781838494967963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document cc
+0.00021723242266814558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document cc
+0.0002176782686553837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document cc
+0.0003486179404943968 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document cc
+0.00034882846352857634 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document cc
+0.00031400868448352596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document cc
+0.00030273484020011963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document cc
+0.00029895889118145404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document cc
+0.00029770764609621714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document cc
+0.0002990181332116852 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document cc
+0.00029653733972285996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document cc
+0.00029624649222942476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document cc
+0.00029625609720203576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document cc
+0.00029731928930852147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document cc
+0.00029011721326148513 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document cc
+0.00028849788197494655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document cc
+0.00021601278623858145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document cc
+0.00021319599281739178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document cc
+0.0002153325290600083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document cc
+0.00018566946174516558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document cc
+0.00020736824394291617 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document cc
+0.00020857419820128004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document cc
+0.00020058526129536423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document cc
+0.00020745812166665217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document cc
+0.00020652171015271702 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document cc
+0.00020643808911278608 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document cc
+0.00020040513914482103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document cc
+0.00020598050188272898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document cc
+0.0001969184139343296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document cc
+0.0001972748812937012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document cc
+0.0002038556751586195 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document cc
+0.00020245186011313464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document cc
+0.00019950381422038783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document cc
+0.00020837055459665258 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document cc
+0.00020371856218246096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document cc
+0.00019537612301625791 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document cc
+0.00019914984508813857 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document cc
+0.0002053787713691309 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document cc
+0.00019082100541008637 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document cc
+0.00020397153334531813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document cc
+0.0002021462693077317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document cc
+0.00019609357008124035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document cc
+0.00019693256622486236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document cc
+0.00020007239732428112 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document cc
+0.00020467075741591954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document cc
+0.00019584883400022932 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document cc
+0.00019135050391176972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document cc
+0.0003362829834208298 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document cc
+0.00034013691154784095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document cc
+0.00033215887031941976 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document cc
+0.00032681189065396707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document cc
+0.0003149138485493094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document cc
+0.00030179177307540077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document cc
+0.0002923278437581119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document cc
+0.00029470052278994486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document cc
+0.0002994095093045731 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document cc
+0.00029033525096085037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document cc
+0.00029390798852496565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document cc
+0.0002916230924130842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document cc
+0.00029419886374594913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document cc
+0.0002865469756730764 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document cc
+0.00021191292549942086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document cc
+0.00021369664817409847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document cc
+0.00021612485624266726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document cc
+0.00022242192634588478 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document cc
+0.00014605095659989698 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document cc
+0.00022070626106341693 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document cc
+0.0002174420774054071 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document cc
+0.00021325858963116995 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document cc
+0.0002124322999488052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document cc
+0.0002081218896969054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document cc
+0.0002108710211556957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document cc
+0.00020686867095978426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document cc
+0.00020895752681041895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document cc
+0.00020741922266415738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document cc
+0.0002069112657197308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document cc
+0.00020644627473468118 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document cc
+0.00020332991338121604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document cc
+0.0003560895677789848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document cc
+0.00032915779111908214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document cc
+0.00033810613317040864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document cc
+0.00033729626594036923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document cc
+0.00033550342864602944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document cc
+0.00034173474024556906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document cc
+0.000331505340748827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document cc
+0.0003270050330117195 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document cc
+0.00032585275329172556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document cc
+0.0003143383203190604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document cc
+0.00031655199110388894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document cc
+0.00030738872158476413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document cc
+0.00030838388352699285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document cc
+0.0003053596995351888 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document cc
+0.00031836304739584593 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document cc
+0.000315315435873905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document cc
+0.0003087116248965243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document cc
+0.00030396790625537645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document cc
+0.0003335812246032149 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document cc
+0.00034570956323095843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document cc
+0.00034563035636675786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document cc
+0.00033411265479076335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document cc
+0.00034439191141692787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document cc
+0.0003364483125496565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document cc
+0.0003299500453608033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document cc
+0.00033163377700074837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document cc
+0.00032638649660627673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document cc
+0.00032616167939645234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document cc
+0.0003205289298760723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document cc
+0.00031939393740815355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document cc
+0.00031593164066731296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document cc
+0.00031928871111254405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document cc
+0.00029670189073175004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document cc
+0.00020517703846735904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document cc
+0.00020128418186172073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document cc
+0.00019662723895606717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document cc
+0.0001981157042081407 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document cc
+0.00019703489037041608 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document cc
+0.00019079796331785068 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document cc
+0.0001909352306690079 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document cc
+0.00018824662295261396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document cc
+0.00019864275319325954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document cc
+0.00018818516521649587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document cc
+0.00018875694972812844 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document cc
+0.00018231621170645482 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document cc
+0.00018349407845798273 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document cc
+0.00018088971427746906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document cc
+0.00018296284236327237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document cc
+0.0001876011825819916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document cc
+0.000329052068725176 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document cc
+0.00032223616273648536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document cc
+0.00031272564089633955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document cc
+0.00031621609908414494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document cc
+0.0003117213560911235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document cc
+0.00030218064069945934 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document cc
+0.00030658916600512085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document cc
+0.0002915863534115821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document cc
+0.0002940280138374372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document cc
+0.00029067860468866085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document cc
+0.00028529228063135635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document cc
+0.00028336893301452256 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document cc
+0.0002794668089130099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document cc
+0.00021681361378827842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document cc
+0.0001484664674497246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document cc
+0.00021950558378215133 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document cc
+0.00021806860758808645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document cc
+0.00021819568718852282 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document cc
+0.00021626925931585001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document cc
+0.0001464536143077762 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document cc
+0.00021432777088808917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document cc
+0.000213473805865147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document cc
+0.00021397067253964538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document cc
+0.00020758957647437263 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document cc
+0.00020687124337683314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document cc
+0.00020630057046511005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document cc
+0.0002091166859352538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document cc
+0.00020777355025615267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document cc
+0.00020709287641496176 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document cc
+0.00020736464660577094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document cc
+0.00020062246741862607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document cc
+0.00020693207561942915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document cc
+0.00021151004871893024 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document cc
+0.00019930249098689716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document cc
+0.00021589710041231824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document cc
+0.00021369204789905741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document cc
+0.0002147099923936778 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document cc
+0.00021077531190389536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document cc
+0.0002100509829113836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document cc
+0.00021185362601571124 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document cc
+0.00020722136637339565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document cc
+0.00020300093701169531 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document cc
+0.00019859737993313477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document cc
+0.00019971314372100164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document cc
+0.00019549908270269278 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document cc
+0.00019649820843534028 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document cc
+0.00019619415513498067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document cc
+0.00019493006120377898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document cc
+0.00019499409035775506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document cc
+0.00019252988593634277 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document cc
+0.00019440768268686405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document cc
+0.00018747161324755577 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document cc
+0.0001879575932372779 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document cc
+0.00019040707058357506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document cc
+0.0001871931095090703 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document cc
+0.00020112966223017096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document cc
+0.00020516878165311017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document cc
+0.00020664735191740533 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document cc
+0.00021041398572882962 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document cc
+0.00020397992929690396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document cc
+0.0002039978580295561 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document cc
+0.00020592785601142126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document cc
+0.0001990755527445265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document cc
+0.00019729564847798732 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document cc
+0.00019958182230527032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document cc
+0.0001985037302636386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document cc
+0.00020204130355115716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document cc
+0.0002000296401958085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document cc
+0.0001983064832295463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document cc
+0.00019663108484195617 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document cc
+0.00019510678560556523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document cc
+0.0001873284057063206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document cc
+0.00019311553072495885 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document cc
+0.00034652137288816547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document cc
+0.0002813690318850024 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document cc
+0.00027697649713138685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document cc
+0.0002755419092534421 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document cc
+0.0002681583054440219 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document cc
+0.00026945753192750824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document cc
+0.00026169470768245737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document cc
+0.00026437008960810825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document cc
+0.0002637294838228 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document cc
+0.00026491867965088836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document cc
+0.00025504483625138986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document cc
+0.0002545040623796586 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document cc
+0.0002546682814073622 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document cc
+0.00025545439487142615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document cc
+0.0002626896557978271 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document cc
+0.00025092040940402784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document cc
+0.0002589154885863872 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document cc
+0.00024106160482721467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document cc
+0.0002483289690087987 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document cc
+0.0002388930282784437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document cc
+0.00024006340759273874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document cc
+0.00023765248178029045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document cc
+0.00023061351965578936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document cc
+0.00024954224883546477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document cc
+0.00017861017233018525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document cc
+0.00017810832743667658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document cc
+0.00017599709170759497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document cc
+0.00017462723516505223 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document cc
+0.0002906316527068669 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document cc
+0.00033762141066247166 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document cc
+0.00017170670574152494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document cc
+0.00017258674515137717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document cc
+0.0002815386173173926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document cc
+0.0002996845935618989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document cc
+0.0002735268488987296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document cc
+0.0002971738713071517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document cc
+0.0002942690674002763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document cc
+0.0003322222207729567 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document cc
+0.0003378721656198464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document cc
+0.00018307262621851067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document cc
+0.00033956081502775057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document cc
+0.00031604820927876276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document cc
+0.00028805657681088917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document cc
+0.00026312293321215633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document cc
+0.00034366936722921455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document cc
+0.0002865256504406559 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document cc
+0.0003063615195861786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document cc
+0.00028412791619666136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document cc
+0.00028060835132727154 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document cc
+0.00032544974761560506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document cc
+0.0002647177833217225 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document cc
+0.0003152621884896575 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document cc
+0.0003054625140336913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document cc
+0.00031183308312292263 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document cc
+0.00018175026696621178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document cc
+0.00017699918328872 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document cc
+0.00018222339261441908 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document cc
+0.00018348005930964137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document cc
+0.0001810735993810541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document cc
+0.00030846441282038914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document cc
+0.0002972326889310354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document cc
+0.00017433421318235594 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document cc
+0.00032799458649525895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document cc
+0.00032482130048512673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document cc
+0.00031943465668672475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document cc
+0.00029615593630484517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document cc
+0.0002893126939511001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document cc
+0.0002849288351723284 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document cc
+0.00028383906633569267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document cc
+0.00028072526091262615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document cc
+0.000284239564292377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document cc
+0.0002778903109432523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document cc
+0.0002771644389501471 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document cc
+0.0002733316182319337 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document cc
+0.00026362539185869363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document cc
+0.0002636325383220217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document cc
+0.00026740622442302886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document cc
+0.0002646771971853427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document cc
+0.0002628566720605389 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document cc
+0.0002644760695434766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document cc
+0.0002623837702310999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document cc
+0.00026088722976772894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document cc
+0.0002567065374799158 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document cc
+0.00018857382101207726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document cc
+0.00019036580399817203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document cc
+0.00018348828065261222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document cc
+0.00018491851780345073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document cc
+0.00018904887260080187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document cc
+0.0001875609304251801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document cc
+0.00018393034720015817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document cc
+0.00018419795526114903 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document cc
+0.00018699955623404795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document cc
+0.00018276256902965128 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document cc
+0.00017698045695190812 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document cc
+0.00018104650132303642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document cc
+0.00017758206731279688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document cc
+0.00017131402995103497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document cc
+0.000175944428350446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document cc
+0.0003416745727147391 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document cc
+0.0003163259373952889 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document cc
+0.0002804489269172448 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document cc
+0.00028748272397403175 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document cc
+0.00027603318345630605 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document cc
+0.000271638824679648 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document cc
+0.0002763761210210942 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document cc
+0.00026501984873172717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document cc
+0.00026422486894694714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document cc
+0.0002686339100849262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document cc
+0.0002610837453940606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document cc
+0.000260974343729353 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document cc
+0.0002599403837029134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document cc
+0.0002937273113238609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document cc
+0.0003341790732600504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document cc
+0.0002620661576600244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document cc
+0.0003027929169239288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document cc
+0.00031944039129326894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document cc
+0.00019025676304139009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document cc
+0.00018680910145009907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document cc
+0.00034215840419416437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document cc
+0.00018618120812119364 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document cc
+0.00018605853095599425 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document cc
+0.00018120712626096538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document cc
+0.00018315079292495327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document cc
+0.00018362556449041974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document cc
+0.0001780024456718171 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document cc
+0.00033296526436178697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document cc
+0.0001802398632282846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document cc
+0.00017340263100798256 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document cc
+0.00017755840547238697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document cc
+0.00018419413735260606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document cc
+0.00017869518174591322 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document cc
+0.00017526271460129484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document cc
+0.00017852168597981907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document cc
+0.00017566536156787157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document cc
+0.00017589867964432936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document cc
+0.00017831487394075305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document cc
+0.00017837310528935862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document cc
+0.00018200908814216548 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document cc
+0.0001795136627511612 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document cc
+0.0003414021775300033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document cc
+0.00017177291787788502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document cc
+0.0003441900648571877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document cc
+0.0003394534597060673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document cc
+0.0003236887233114832 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document cc
+0.0001639544129688747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document cc
+0.00019137443753211255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document cc
+0.00018575146284680153 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document cc
+0.00019184792863440243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document cc
+0.00018966043065679055 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document cc
+0.00017968851317035848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document cc
+0.00018479881897661546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document cc
+0.0001813642692683015 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document cc
+0.0001686449798983066 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document cc
+0.00018516104592230446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document cc
+0.00031283726601066385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document cc
+0.0003248607542883853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document cc
+0.00031583241601202365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document cc
+0.00031238270857730376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document cc
+0.000307150592403979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document cc
+0.00029443829986847044 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document cc
+0.0002942723732234677 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document cc
+0.00023514930666443422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document cc
+0.0020776328951453444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document cc
+0.0021768234410538883 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document cc
+0.002106973549276289 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document cc
+0.002110915756171751 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document cc
+0.0017032382109816464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document cc
+0.0019047944877712286 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document cc
+0.0019402711744016077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document cc
+0.0006264790011223686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document cc
+0.0017885401938106643 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document cc
+0.0003547982093445404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document falcon
+0.00035934014428504944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document falcon
+0.00035707704501371544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document falcon
+0.00035287930712815354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document falcon
+0.00035977166728996823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document falcon
+0.0003581675664109838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document falcon
+0.0003548617059697185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document falcon
+0.0003639582000286208 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document falcon
+0.00035375839698688127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document falcon
+0.0003743722020080678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document falcon
+0.0003530399715341242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document falcon
+0.00035511875882752406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document falcon
+0.0003618733574783154 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document falcon
+0.00035185243285420104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document falcon
+0.0003541503739732106 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document falcon
+0.0003631679485751914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document falcon
+0.00035748045578182274 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document falcon
+0.0003606490690555877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document falcon
+0.0003626383296610091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document falcon
+0.00035442644361264756 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document falcon
+0.00035978370170539796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document falcon
+0.0003585562375341541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document falcon
+0.0003601958372888019 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document falcon
+0.000350277765402227 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document falcon
+0.0003616521184211704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document falcon
+0.0003620625543608188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document falcon
+0.0003560781983850704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document falcon
+0.0003553209610592676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document falcon
+0.00035905348643915075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document falcon
+0.00034744258805696526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document falcon
+0.00035462784035661496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document falcon
+0.00034768186175100895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document falcon
+0.0003568534635532736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document falcon
+0.00035586511544371234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document falcon
+0.0003524567827568137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document falcon
+0.0003512453770426313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document falcon
+0.0003591792726468799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document falcon
+0.0003514024529343127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document falcon
+0.0003584880112586934 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document falcon
+0.00035133552916418045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document falcon
+0.0003600811981350215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document falcon
+0.0003571663974228119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document falcon
+0.00035768103378874214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document falcon
+0.00035939205561113694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document falcon
+0.00035186773916029825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document falcon
+0.0003542829672490847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document falcon
+0.0003592783642898726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document falcon
+0.0003556367340099302 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document falcon
+0.00035391392271377027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document falcon
+0.00035486725707484836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document falcon
+0.00034866743396828035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document falcon
+0.0003517219808644735 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document falcon
+0.00034874458549673823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document falcon
+0.000355773136961014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document falcon
+0.00035611750387841917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document falcon
+0.00035305602013916315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document falcon
+0.0003578207127071924 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document falcon
+0.00035514635841943707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document falcon
+0.00034816946212866206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document falcon
+0.0003512707269761496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document falcon
+0.0003483392117980654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document falcon
+0.0003572169607204321 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document falcon
+0.00035139153281660794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document falcon
+0.00035536422129036537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document falcon
+0.000352017164107143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document falcon
+0.000351889550179365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document falcon
+0.000358759689953589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document falcon
+0.0003569286079869268 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document falcon
+0.0003657752958602099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document falcon
+0.00035396127934790697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document falcon
+0.0003618565071224743 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document falcon
+0.00035146051531973204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document falcon
+0.00036107135765783567 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document falcon
+0.00035019554279994576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document falcon
+0.00035567858879904983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document falcon
+0.0003504753174793183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document falcon
+0.00035931140831329194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document falcon
+0.0003502967866002823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document falcon
+0.0003532911801041972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document falcon
+0.0003583543013070199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document falcon
+0.0003566243489931224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document falcon
+0.0003468752314799221 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document falcon
+0.0003597840618138091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document falcon
+0.00035128822484768084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document falcon
+0.00035889496943437507 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document falcon
+0.000352400524650424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document falcon
+0.0003518689536768735 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document falcon
+0.00035866864741303467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document falcon
+0.0003454687659106334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document falcon
+0.00035348007259317576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document falcon
+0.0003539752270940644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document falcon
+0.00035146495994081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document falcon
+0.00035397212846310423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document falcon
+0.00035208246467162587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document falcon
+0.0003490843168676626 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document falcon
+0.00035299633658644394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document falcon
+0.00034868327466167065 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document falcon
+0.00035941351365601583 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document falcon
+0.0003545343062735255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document falcon
+0.0003528956380445978 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document falcon
+0.0003553355770443352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document falcon
+0.0003644224004937743 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document falcon
+0.00035234291036216907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document falcon
+0.0003596237469847771 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document falcon
+0.0003531996065735989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document falcon
+0.0003547177054106099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document falcon
+0.0003575586499260483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document falcon
+0.00035262635135283667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document falcon
+0.0003624191962188944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document falcon
+0.0003488398052948616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document falcon
+0.0003598294093147917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document falcon
+0.00035583006534466323 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document falcon
+0.00035403139653225103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document falcon
+0.00036134702642187156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document falcon
+0.0003573689927162834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document falcon
+0.0003577141131435527 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document falcon
+0.00035208814419277406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document falcon
+0.00035996720683665625 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document falcon
+0.00035415304658912596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document falcon
+0.00036353353029443546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document falcon
+0.0003537326003150983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document falcon
+0.00036053976358299083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document falcon
+0.000352380489373494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document falcon
+0.00036154661616900994 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document falcon
+0.00035959332325963614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document falcon
+0.0003597954667189692 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document falcon
+0.0003563108270597542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document falcon
+0.0003582891940460143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document falcon
+0.0003497728210484297 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document falcon
+0.0003549834902179354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document falcon
+0.0003529828233484542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document falcon
+0.00034627483903285777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document falcon
+0.00035569006572589215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document falcon
+0.00035449377946910314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document falcon
+0.00035802844396194623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document falcon
+0.0003617277809353208 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document falcon
+0.00035034118898654814 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document falcon
+0.000351091193908611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document falcon
+0.0003527914342210668 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document falcon
+0.00035028288369781376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document falcon
+0.00035775745592780506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document falcon
+0.0003449630690661468 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document falcon
+0.0003583490698830361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document falcon
+0.0003476995746684122 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document falcon
+0.0003535632505019212 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document falcon
+0.00035640180641147417 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document falcon
+0.000361731045691765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document falcon
+0.0003534082129597368 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document falcon
+0.0003550344149828664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document falcon
+0.00035363002411364057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document falcon
+0.0003537265579677396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document falcon
+0.00034950531383577937 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document falcon
+0.00035008511827347514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document falcon
+0.00035594533400871325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document falcon
+0.00035266312861335946 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document falcon
+0.00035280268794863923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document falcon
+0.0003565470391528536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document falcon
+0.0003588492322689137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document falcon
+0.00035469909697832775 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document falcon
+0.00034712082813410526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document falcon
+0.000348701157101807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document falcon
+0.0003500192014479944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document falcon
+0.00035120560544669755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document falcon
+0.00035403656850437445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document falcon
+0.00035852376560749366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document falcon
+0.0003534754068111774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document falcon
+0.00035591740046720765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document falcon
+0.000348522354782563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document falcon
+0.0003533533959664415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document falcon
+0.00035631425964030697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document falcon
+0.0003485886551574741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document falcon
+0.00035917652631065777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document falcon
+0.0003482975272111288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document falcon
+0.00035580661277480167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document falcon
+0.0003492290722955348 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document falcon
+0.00034989284450240613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document falcon
+0.0003545677216162781 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document falcon
+0.00034622286859463484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document falcon
+0.00036070626989861965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document falcon
+0.00035518365036320786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document falcon
+0.00035272907057848406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document falcon
+0.0003547343638218734 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document falcon
+0.0003496450144966242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document falcon
+0.0003537407829294287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document falcon
+0.0003489722653985685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document falcon
+0.00035057186899911295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document falcon
+0.0003507566548933051 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document falcon
+0.00035630360179023747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document falcon
+0.00035631362503416367 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document falcon
+0.0003490204248026821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document falcon
+0.00035761724058371226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document falcon
+0.00035037664777467137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document falcon
+0.000353402110481068 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document falcon
+0.00034524163568371745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document falcon
+0.00035528523728570974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document falcon
+0.00034784916132431703 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document falcon
+0.00034928476408048925 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document falcon
+0.00034989205973784984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document falcon
+0.00034201664404094254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document falcon
+0.0003529676016338611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document falcon
+0.00034643433682346637 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document falcon
+0.0003511666373001904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document falcon
+0.00034828669066575333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document falcon
+0.0003494625207264413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document falcon
+0.0003458957535879216 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document falcon
+0.0003543020478990003 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document falcon
+0.00034754384069014956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document falcon
+0.0003598856392240133 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document falcon
+0.0003503335458553846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document falcon
+0.00035919595619778716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document falcon
+0.00035767737970754404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document falcon
+0.00035197152783998165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document falcon
+0.0003549609834422404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document falcon
+0.0003568184100569753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document falcon
+0.0003512652818651935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document falcon
+0.00035912648958665754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document falcon
+0.00034764526964056546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document falcon
+0.000352439784960359 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document falcon
+0.00035295886560764226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document falcon
+0.0003518132693658672 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document falcon
+0.00035589987915465713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document falcon
+0.00034923863317385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document falcon
+0.0003457987267929692 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document falcon
+0.0003560928663480501 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document falcon
+0.0003529603811204932 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document falcon
+0.0003524438555443043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document falcon
+0.0003438847030263783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document falcon
+0.00035981978898461613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document falcon
+0.0003446342778566972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document falcon
+0.00035529584995236537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document falcon
+0.00034855740895831116 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document falcon
+0.00034932634912802544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document falcon
+0.00035805518303064666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document falcon
+0.0003497941877073061 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document falcon
+0.00035774398685405447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document falcon
+0.0003560421780316607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document falcon
+0.0003508844468369392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document falcon
+0.00035731928892270107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document falcon
+0.0003557884626314314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document falcon
+0.00034992996760289355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document falcon
+0.000360752554360921 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document falcon
+0.0003452321668708545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document falcon
+0.0003591745226131023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document falcon
+0.00035256981433229084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document falcon
+0.00035378123159712034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document falcon
+0.000350464354895999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document falcon
+0.00035074625557389677 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document falcon
+0.00035025894701994667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document falcon
+0.00035437902514857614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document falcon
+0.0003514684519732232 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document falcon
+0.00035449717909633905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document falcon
+0.0003436816402714221 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document falcon
+0.00035139158071782116 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document falcon
+0.0003509424079843335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document falcon
+0.000343894618577506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document falcon
+0.0003500789770661659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document falcon
+0.0003407788080680086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document falcon
+0.0003581908175239701 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document falcon
+0.0003465541618780918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document falcon
+0.00034600228792437736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document falcon
+0.00034416738982773204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document falcon
+0.0003519900340150641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document falcon
+0.000343369616864659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document falcon
+0.0003544993883274688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document falcon
+0.0003504441365073392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document falcon
+0.00034859160702727056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document falcon
+0.00035355909532647185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document falcon
+0.0003471900922691849 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document falcon
+0.0003563015508709187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document falcon
+0.0003487888744148821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document falcon
+0.00034711767548688336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document falcon
+0.0003530734609369085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document falcon
+0.00035123969242560935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document falcon
+0.0003517127620891489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document falcon
+0.00035232835416868673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document falcon
+0.0003524437481912308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document falcon
+0.0003525996167005602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document falcon
+0.00035064770545242043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document falcon
+0.00035311558274981226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document falcon
+0.00034952204800569914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document falcon
+0.0003541471367344846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document falcon
+0.00035418812454561825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document falcon
+0.0003528951372900714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document falcon
+0.0003542338042975688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document falcon
+0.00034937738939942796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document falcon
+0.0003522182190878447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document falcon
+0.0003501406466507449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document falcon
+0.00034973079877492633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document falcon
+0.0003485274567713538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document falcon
+0.00034999308679368985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document falcon
+0.0003570051724707296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document falcon
+0.00034567230462019706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document falcon
+0.00035529000940160696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document falcon
+0.00034956512308671755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document falcon
+0.0003496962834028953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document falcon
+0.0003468745282493457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document falcon
+0.0003502717155809202 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document falcon
+0.0003556240880896514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document falcon
+0.0003515109488424343 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document falcon
+0.0003563156688192592 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document falcon
+0.00035040277363989817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document falcon
+0.0003481408593290717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document falcon
+0.0003624575124332874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document falcon
+0.0003522684124250313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document falcon
+0.00035286996027653544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document falcon
+0.00034967623997256725 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document falcon
+0.00035182649587602765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document falcon
+0.0003524892557026489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document falcon
+0.0003507642477451811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document falcon
+0.00036190408389835666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document falcon
+0.00035102739424880766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document falcon
+0.00035239718753257265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document falcon
+0.00035298076121821316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document falcon
+0.0003478704389752654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document falcon
+0.0003503109191567942 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document falcon
+0.00035143250975654426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document falcon
+0.0003480663923069012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document falcon
+0.00035691540219998623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document falcon
+0.000348815437166351 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document falcon
+0.00035202073257766225 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document falcon
+0.0003491569096274706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document falcon
+0.00035277390475511834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document falcon
+0.0003524972090026609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document falcon
+0.0003504854249750236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document falcon
+0.00034740238025423914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document falcon
+0.00034968015462277606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document falcon
+0.0003493798632762674 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document falcon
+0.0003488202537862122 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document falcon
+0.0003525461864643725 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document falcon
+0.00034903815232825664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document falcon
+0.00035536982539258216 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document falcon
+0.00034858083265155483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document falcon
+0.0003505014973608067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document falcon
+0.00035327984042622104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document falcon
+0.0003503286677453136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document falcon
+0.00035835274842442816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document falcon
+0.00034970302660275595 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document falcon
+0.000357929573140149 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document falcon
+0.0003517238649788585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document falcon
+0.00036097027318848475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document falcon
+0.0003502734074110026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document falcon
+0.00035801510806036273 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document falcon
+0.0003568006373479869 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document falcon
+0.00036128108717454636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document falcon
+0.0003563436883111686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document falcon
+0.00035559725321852463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document falcon
+0.00035089656006854944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document falcon
+0.000359453964362057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document falcon
+0.00035629498059104033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document falcon
+0.0003622207707090437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document falcon
+0.0003540946784512821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document falcon
+0.0003594750565232011 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document falcon
+0.0003566007415086991 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document falcon
+0.0003562142599126134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document falcon
+0.0003569948186744601 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document falcon
+0.00035166554847920186 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document falcon
+0.00035047994419295137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document falcon
+0.0003561578193739437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document falcon
+0.00035470866838811544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document falcon
+0.00034216920464876335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document falcon
+0.0003550021513075795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document falcon
+0.0003488045105938729 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document falcon
+0.0003513340720840151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document falcon
+0.0003448558566387584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document falcon
+0.0003460966026953241 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document falcon
+0.0003488157616036459 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document falcon
+0.0003446120387842362 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document falcon
+0.000351528602987427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document falcon
+0.00035661118227454713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document falcon
+0.0003551342699877457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document falcon
+0.0003478953397924445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document falcon
+0.00034625782458988215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document falcon
+0.0003527515447405871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document falcon
+0.00034823744889805696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document falcon
+0.00034823314560254406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document falcon
+0.00035162668292961944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document falcon
+0.0003477307716074623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document falcon
+0.0003446457989477787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document falcon
+0.00034782916273767795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document falcon
+0.0003517249130302248 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document falcon
+0.0003449873430908556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document falcon
+0.00034841291749669877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document falcon
+0.0003466028498941749 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document falcon
+0.0003486436831199424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document falcon
+0.0003478279234211838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document falcon
+0.0003495903653274374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document falcon
+0.00034896893881218957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document falcon
+0.000348941645312426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document falcon
+0.0003474221308416894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document falcon
+0.0003462621543839385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document falcon
+0.0003669373860863891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document falcon
+0.00034691156268163006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document falcon
+0.0003527774103765281 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document falcon
+0.00034684565672734663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document falcon
+0.0003454250599604457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document falcon
+0.0003541536557159006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document falcon
+0.000345735737037366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document falcon
+0.0003524669816385214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document falcon
+0.0003441817133096468 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document falcon
+0.0003519093265859089 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document falcon
+0.00035080085480352095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document falcon
+0.00035285227929327434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document falcon
+0.00034354836346901676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document falcon
+0.00034789770937373467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document falcon
+0.000343665920520102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document falcon
+0.0003490884931060568 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document falcon
+0.00034380029463398654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document falcon
+0.00034874768005099945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document falcon
+0.0003457058510967673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document falcon
+0.00034644265227023904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document falcon
+0.00035008339858594957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document falcon
+0.0003462377193296194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document falcon
+0.0003620491787114201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document falcon
+0.000348717011044469 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document falcon
+0.00034370072363913706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document falcon
+0.0003551981066775649 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document falcon
+0.0003500119496799342 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document falcon
+0.0003485082952669081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document falcon
+0.0003508155580978919 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document falcon
+0.00035311375163251416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document falcon
+0.00034945972003423253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document falcon
+0.0003474220353789879 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document falcon
+0.0003536443686585001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document falcon
+0.0003560350489042953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document falcon
+0.0003493655927914396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document falcon
+0.0003528423977146383 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document falcon
+0.00035255554724471217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document falcon
+0.0003479760010190111 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document falcon
+0.00035458598862501956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document falcon
+0.0003458990560538315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document falcon
+0.00035157946422379875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document falcon
+0.00034736860650169996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document falcon
+0.0003529152313394119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document falcon
+0.00034586294329524465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document falcon
+0.00035707214923794877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document falcon
+0.0003509580363496512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document falcon
+0.00035244176725524474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document falcon
+0.0003467539557999047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document falcon
+0.00034919687962275546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document falcon
+0.00035094031731719953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document falcon
+0.0003484309008351352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document falcon
+0.0003485409424916253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document falcon
+0.0003499590776117838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document falcon
+0.0003492842758957848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document falcon
+0.0003529712275178912 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document falcon
+0.0003566141287087449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document falcon
+0.0003649496522047409 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document falcon
+0.0003563218912208234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document falcon
+0.00035614782126966145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document falcon
+0.0003531944298453266 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document falcon
+0.0003535950949566616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document falcon
+0.0003544295554928795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document falcon
+0.0003519908503740376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document falcon
+0.00035752817626134463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document falcon
+0.0003515322689589972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document falcon
+0.0003486893890307115 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document falcon
+0.0003446520464889867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document falcon
+0.0003509421562481707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document falcon
+0.00035335015702909084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document falcon
+0.0003490178167345008 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document falcon
+0.0003520497821155174 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document falcon
+0.0003549762618908944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document falcon
+0.00035072190850833103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document falcon
+0.0003542458638526423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document falcon
+0.000352419194572916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document falcon
+0.0003545102564672614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document falcon
+0.0003495437992331806 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document falcon
+0.0003542843376993964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document falcon
+0.000352827529313958 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document falcon
+0.00035442506093223886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document falcon
+0.0003496970719044257 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document falcon
+0.0003553096424442362 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document falcon
+0.00034986845565067564 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document falcon
+0.000352131055186658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document falcon
+0.0003527021708198983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document falcon
+0.00034905885414547214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document falcon
+0.0003583433842468394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document falcon
+0.00034409435202828383 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document falcon
+0.00034846410520871483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document falcon
+0.0003554459991927314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document falcon
+0.00035310507471843076 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document falcon
+0.000350028910786098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document falcon
+0.00035049727458009896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document falcon
+0.0003519047735925826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document falcon
+0.0003513027429919726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document falcon
+0.0003626947260354396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document falcon
+0.0003500087324849783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document falcon
+0.0003618315726725285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document falcon
+0.0003535385113938023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document falcon
+0.0003487064058517615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document falcon
+0.0003618709124780938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document falcon
+0.00035040070335625915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document falcon
+0.0003506279032267829 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document falcon
+0.0003498435310527524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document falcon
+0.0003554634749821431 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document falcon
+0.00035091209738758963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document falcon
+0.00035034103678978573 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document falcon
+0.00035398931854386146 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document falcon
+0.00035495529304989485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document falcon
+0.00036067883473356603 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document falcon
+6.322825248625475e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document megawika
+2.4432314037946264e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document megawika
+5.6313888721313454e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document megawika
+2.4208171781595055e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document megawika
+2.325811856369237e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document megawika
+2.4010790356322705e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document megawika
+5.36773610843632e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document megawika
+1.360574433501002e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document megawika
+1.3076540344853244e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document megawika
+1.3386534334886313e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document megawika
+1.2498103719605153e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document megawika
+1.403763836949682e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document megawika
+1.3636756723495417e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document megawika
+1.2242489446940814e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document megawika
+1.2398255818973339e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document megawika
+1.2972616994216281e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document megawika
+1.3947809855914134e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document megawika
+1.3144843787829514e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document megawika
+1.1693809976572487e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document megawika
+1.3677252682893802e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document megawika
+1.3940876719849597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document megawika
+1.4222245138730965e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document megawika
+1.3201677767919704e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document megawika
+1.1421717796486169e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document megawika
+1.2890514724498703e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document megawika
+1.3649507648749037e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document megawika
+1.2400732563490717e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document megawika
+1.1557681453277616e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document megawika
+1.2294483595964517e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document megawika
+1.2137484472122283e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document megawika
+1.3299663426456e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document megawika
+1.2461984216479532e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document megawika
+1.4666434217609636e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document megawika
+1.1876997894686238e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document megawika
+1.2939155338964078e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document megawika
+1.3859590039728515e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document megawika
+1.317917848615668e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document megawika
+1.1335281536110342e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document megawika
+1.2889923952861426e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document megawika
+1.3471671647053326e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document megawika
+1.2221720014475102e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document megawika
+1.2632647276287541e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document megawika
+1.28276219004076e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document megawika
+1.36213704321643e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document megawika
+1.2414858625261553e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document megawika
+1.3173700421883744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document megawika
+1.295597796725686e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document megawika
+1.242783936442904e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document megawika
+1.2417374088427464e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document megawika
+1.2134479405400744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document megawika
+1.3090040663304255e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document megawika
+1.2713470581614905e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document megawika
+5.5750231378906594e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document megawika
+5.777597358425469e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document megawika
+5.349786767471258e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document megawika
+5.675165050453583e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document megawika
+5.482611216158831e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document megawika
+5.065421899890121e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document megawika
+5.384718357480146e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document megawika
+4.872037363236061e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document megawika
+4.532709250783155e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document megawika
+5.7257963030489613e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document megawika
+4.9014365579652036e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document megawika
+5.722863552770969e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document megawika
+6.149911636146833e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document megawika
+5.2178057608273506e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document megawika
+4.990228161160431e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document megawika
+5.866186875255134e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document megawika
+5.004185734360719e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document megawika
+4.79401853705107e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document megawika
+5.435219965052376e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document megawika
+5.035997225792266e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document megawika
+5.622401774211625e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document megawika
+5.028826157387559e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document megawika
+5.596379470128795e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document megawika
+6.027824493191489e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document megawika
+5.5358270009931474e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document megawika
+5.9839051807685496e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document megawika
+5.1221077499249595e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document megawika
+5.517228560620279e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document megawika
+5.1687858285052305e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document megawika
+5.684188244145645e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document megawika
+5.212693275535878e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document megawika
+4.8551007022784084e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document megawika
+5.4888506639203145e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document megawika
+5.345098688527242e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document megawika
+4.8506420625516594e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document megawika
+5.132168603397676e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document megawika
+5.719476795114223e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document megawika
+5.7448621149792696e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document megawika
+4.9068410568059265e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document megawika
+5.382937299647678e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document megawika
+4.8288432136304634e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document megawika
+5.841703200305416e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document megawika
+5.1589611587885584e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document megawika
+6.031113829732574e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document megawika
+5.4558202844532094e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document megawika
+5.341852317196142e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document megawika
+5.1402942738369954e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document megawika
+5.735421384377395e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document megawika
+5.473629863586958e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document megawika
+5.4708993245733936e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document megawika
+4.931161863634078e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document megawika
+5.104173022127248e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document megawika
+5.510157161510824e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document megawika
+5.652501401782597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document megawika
+5.7273656573031666e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document megawika
+5.638363224821738e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document megawika
+5.6128115396668704e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document megawika
+5.00304877998141e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document megawika
+5.596120554779096e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document megawika
+5.5280923889040006e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document megawika
+5.223477917938408e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document megawika
+5.29472809986569e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document megawika
+2.205682378243213e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document megawika
+1.4367563720603185e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document megawika
+3.5506193487931076e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document megawika
+3.0442910855821778e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document megawika
+2.2540042508019627e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document megawika
+2.6880163202623216e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document megawika
+2.534473148048727e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document megawika
+2.6560945431318916e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document megawika
+2.547470248967691e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document megawika
+2.5248825388073738e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document megawika
+2.5828729575000054e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document megawika
+2.4026583817957736e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document megawika
+2.3930425429834413e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document megawika
+2.5037365362599724e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document megawika
+2.6696745470595603e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document megawika
+2.140323051341762e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document megawika
+2.617354786691592e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document megawika
+1.538359101762691e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document megawika
+1.2871029252377856e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document megawika
+2.255195411289217e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document megawika
+2.4832313897952067e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document megawika
+9.303873918189968e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document megawika
+2.179532302620228e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document megawika
+1.9750517506901206e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document megawika
+2.7740420380648435e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document megawika
+2.7813714782319335e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document megawika
+4.1595357937609806e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document megawika
+2.741365122389175e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document megawika
+2.117451071361901e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document megawika
+1.7132649760565998e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document megawika
+1.7492547092602047e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document megawika
+1.7499951097392276e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document megawika
+1.6632444789170958e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document megawika
+1.6678802252361607e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document megawika
+1.5519208704558896e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document megawika
+1.652420992967167e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document megawika
+1.6119931034508755e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document megawika
+1.6638882076736552e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document megawika
+1.7198076782652946e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document megawika
+1.572927860565175e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document megawika
+1.5194822618169918e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document megawika
+1.6677776832669846e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document megawika
+1.595612492245688e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document megawika
+1.682350633181197e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document megawika
+1.663983380609724e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document megawika
+1.710187842689243e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document megawika
+1.5733697527539038e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document megawika
+1.6972104757911438e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document megawika
+1.6610142847616577e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document megawika
+1.61094882403031e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document megawika
+1.4789207305138325e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document megawika
+1.639299617676302e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document megawika
+1.3241204512116132e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document megawika
+8.582260726625535e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document megawika
+8.213000975576739e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document megawika
+9.549247732811947e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document megawika
+9.17242785339013e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document megawika
+7.632868223725218e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document megawika
+8.674401118222175e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document megawika
+9.124384255505347e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document megawika
+8.344222222417358e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document megawika
+8.992299957499065e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document megawika
+8.76689497361025e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document megawika
+7.973396239586015e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document megawika
+9.006935606644125e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document megawika
+8.725545954955498e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document megawika
+1.215449694669174e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document megawika
+3.3041720284158646e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document megawika
+2.0593512412624502e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document megawika
+1.893608946986248e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document megawika
+1.737111666788535e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document megawika
+1.4915923449873955e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document megawika
+2.289370239067605e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document megawika
+2.8615335689614638e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document megawika
+8.847283630883125e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document megawika
+1.8175470362373804e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document megawika
+1.8152226683368038e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document megawika
+1.789149655314284e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document megawika
+1.7690523036477663e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document megawika
+1.8333732213753644e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document megawika
+1.8794105687718654e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document megawika
+1.721841156706417e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document megawika
+2.0612008685724796e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document megawika
+1.9297370681336376e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document megawika
+2.0188440409661018e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document megawika
+5.1741216329695265e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document megawika
+1.3417913926038429e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document megawika
+1.1010813016469651e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document megawika
+1.1252416134320087e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document megawika
+1.2801744104313002e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document megawika
+1.3041514955795817e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document megawika
+1.3428837580879075e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document megawika
+1.320809382267804e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document megawika
+1.3451566676555968e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document megawika
+1.228284926657501e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document megawika
+1.2410599573923043e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document megawika
+1.3815343367377182e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document megawika
+1.3895126265148832e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document megawika
+1.2306773644401741e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document megawika
+1.32981021906281e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document megawika
+1.101337469221607e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document megawika
+1.513094184404692e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document megawika
+1.1073759547073234e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document megawika
+1.2879348765857567e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document megawika
+9.619595770228435e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document megawika
+1.2384340836286436e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document megawika
+1.1766667232211577e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document megawika
+1.2871049236196452e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document megawika
+1.2010645926497744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document megawika
+1.3971428231518597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document megawika
+1.2283733550547932e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document megawika
+1.2659530508255308e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document megawika
+1.551775613074462e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document megawika
+1.1169413343776979e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document megawika
+1.1433700593712463e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document megawika
+4.964773647323492e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document megawika
+1.0995586595687313e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document megawika
+1.2957393071411267e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document megawika
+2.75899247407709e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document megawika
+2.8269344597344854e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document megawika
+2.329108187246831e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document megawika
+2.4231761430460284e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document megawika
+1.2434140512230442e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document megawika
+1.638718338352859e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document megawika
+3.272953556801187e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document megawika
+6.061314500486327e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document megawika
+1.2465979731210292e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document megawika
+1.2737557327967737e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document megawika
+1.038428658075627e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document megawika
+2.61666472045566e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document megawika
+3.6506873212272224e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document megawika
+1.5066359138295701e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document megawika
+1.1166290872121178e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document megawika
+1.5546966228590285e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document megawika
+1.2583434625014828e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document megawika
+1.3398826881300862e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document megawika
+1.2944933160515968e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document megawika
+1.0971437399901365e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document megawika
+1.2787922795775774e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document megawika
+1.404979227816985e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document megawika
+1.3344734431324463e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document megawika
+4.886031157107555e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document megawika
+3.277261443596394e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document megawika
+3.5057957685786495e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document megawika
+3.287625301718589e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document megawika
+3.1370056372668855e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document megawika
+3.186092015785841e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document megawika
+7.271819324142512e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document megawika
+0.001451215788905126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document open-web-math-train
+0.0014486847196258788 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document open-web-math-train
+0.0008861032722895899 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document open-web-math-train
+0.0018119590809459816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document open-web-math-train
+0.0008916937917547129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document open-web-math-train
+6.960128832809415e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document open-web-math-train
+0.002008403651063623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document open-web-math-train
+0.0014374900742131454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document open-web-math-train
+0.00180213596996716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document open-web-math-train
+0.001956178877532413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document open-web-math-train
+0.0008829547017667033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document open-web-math-train
+0.0008910853619157279 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document open-web-math-train
+0.0018260998845299973 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document open-web-math-train
+0.0012499632072059553 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document pes2o
+0.00125398260359913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document pes2o
+0.0012541704774729071 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document pes2o
+0.0012527268234360602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document pes2o
+0.0012532925243737164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document pes2o
+0.0012456396241204315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document pes2o
+0.0012589894424352072 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document pes2o
+0.001508020123999618 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document pes2o
+0.00333096950781965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document pes2o
+0.0033233414614415547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document pes2o
+0.003512387990689828 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document pes2o
+0.0035091382940513126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document pes2o
+0.003514155927147005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document pes2o
+0.003327108000579638 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document pes2o
+0.003329106196589836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document pes2o
+0.003505604148738077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document pes2o
+0.003324825759567855 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document pes2o
+0.0033248240149804913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document pes2o
+0.0033385962112851358 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document pes2o
+0.0035043186296553615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document pes2o
+0.003340469505431529 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document pes2o
+0.0035106889084796276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document pes2o
+0.0033309469281030167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document pes2o
+0.003340337858029757 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document pes2o
+0.003505919861097801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document pes2o
+0.0003882924098240512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document pes2o
+0.0005759963691850877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document reddit
+0.0005959971675332674 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document reddit
+0.0006026179290353799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document reddit
+0.0005824184320784846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document reddit
+0.0005854598548616037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document reddit
+0.0005903767055633473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document reddit
+0.0005930306490982049 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document reddit
+0.000569425602700746 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document reddit
+0.0005675060415179408 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document reddit
+0.0005772431621253389 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document reddit
+0.0005678026053826858 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document reddit
+0.0005700398263483378 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document reddit
+0.0005669467963528824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document reddit
+0.0005701015953324305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document reddit
+0.0005795907287413296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document reddit
+0.0005735602737531164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document reddit
+0.0005749862745842101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document reddit
+0.0005693257015931971 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document reddit
+0.0005716568794795563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document reddit
+0.0005761083919774021 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document reddit
+0.0005688343169797355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document reddit
+0.0005807913190929842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document reddit
+0.0005710229258078636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document reddit
+0.0005704083039826862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document reddit
+0.0005862132348308056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document reddit
+0.0005717662049559556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document reddit
+0.0005858155213694451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document reddit
+0.0005812012281792392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document reddit
+0.0005803981414588498 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document reddit
+0.0005700102108287723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document reddit
+0.0005719243459052329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document reddit
+0.0005867253401661752 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document reddit
+0.0005731087218860733 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document reddit
+0.0005712197789109317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document reddit
+0.0005702376926310089 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document reddit
+0.0005700411527742972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document reddit
+0.0005828090098178196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document reddit
+0.0005770140826168056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document reddit
+0.0005723509664597896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document reddit
+0.0005755499231836962 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document reddit
+0.0005636407438471367 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document reddit
+0.0005640281556500104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document reddit
+0.0005633159058766496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document reddit
+0.0005638034311151449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document reddit
+0.0005630066273073224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document reddit
+0.0005631803831128559 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document reddit
+0.0005631228881679657 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document reddit
+0.0005628178701487633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document reddit
+0.0005624448092256196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document reddit
+0.0005620957024062329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document reddit
+0.0005614201504177484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document reddit
+0.0005616890951464056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document reddit
+0.0005611348559279058 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document reddit
+0.0005604238061828518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document reddit
+0.0005603301490194237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document reddit
+0.0005607291294548833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document reddit
+0.0005605234569930727 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document reddit
+0.0005613778566640694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document reddit
+0.0005610248539992471 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document reddit
+0.0005599977416780475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document reddit
+0.0005603632562116935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document reddit
+0.0005599177479509897 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document reddit
+0.0005595202318298379 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document reddit
+0.0005600975633499175 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document reddit
+0.0005614075491213365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document reddit
+0.000612563885043477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document reddit
+0.0005515469909644413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document reddit
+0.0005526782014946906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document reddit
+0.0005472463408095445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document reddit
+0.0005502284746004587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document reddit
+0.0005414514790555363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document reddit
+0.0005513499500134784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document reddit
+0.0005391391454105187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document reddit
+0.0005415836910001838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document reddit
+0.0005208132468536551 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document reddit
+0.0005889827143132871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document reddit
+0.0005822520817765276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document reddit
+0.0004173155230758696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document reddit
+0.0009994361338078242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document stackexchange
+0.001087156194657966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document stackexchange
+0.0010667737163656816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document stackexchange
+0.0009602877882124873 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document stackexchange
+0.0008968956271971105 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document stackexchange
+0.0009198034843762967 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document stackexchange
+0.0009423901016715341 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document stackexchange
+0.0009674094553686345 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document stackexchange
+0.0009858331322519164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document stackexchange
+0.0009970593645879198 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document stackexchange
+0.0010027035193731686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document stackexchange
+0.0010128291154221853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document stackexchange
+0.0010215631382631918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document stackexchange
+0.0010288663771461238 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document stackexchange
+0.0010346219929285867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document stackexchange
+0.00104544019940344 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document stackexchange
+0.0010525172676724333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document stackexchange
+0.0010609529620775127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document stackexchange
+0.0010725892748610153 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document stackexchange
+0.0010818563598181568 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document stackexchange
+0.0010992760196793917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document stackexchange
+0.0011178992762079917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document stackexchange
+0.001124687532085676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document stackexchange
+0.001118303661267191 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document stackexchange
+0.0010206825575416534 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document stackexchange
+0.0005512280117499715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document stackexchange
+0.004474659408857016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document starcoder
+0.00409944473890653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document starcoder
+0.005137179939941845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document starcoder
+0.005143172251066109 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document starcoder
+0.005206134363352808 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document starcoder
+0.004892747858974329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document starcoder
+0.004844731352552902 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document starcoder
+0.005308320169123755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document starcoder
+0.005124709815666577 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document starcoder
+0.005424710744483826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document starcoder
+0.00538244648861977 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document starcoder
+0.0029107284679086853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document starcoder
+0.0026825258998444705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document starcoder
+0.0026904503191419243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document starcoder
+0.002687906577174073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document starcoder
+0.002850165346048818 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document starcoder
+0.005322698571717847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document starcoder
+0.004450334290869719 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document starcoder
+0.004700990083440683 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document starcoder
+0.003903568556500995 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document starcoder
+0.00390561515396931 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document starcoder
+0.0039046402900912262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document starcoder
+0.003907454839379547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document starcoder
+0.0038583224578603824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document starcoder
+0.0037914116657695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document starcoder
+0.003786665266798682 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document starcoder
+0.003792000802430658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document starcoder
+0.00319266847466091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document starcoder
+0.0032658716699838944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document starcoder
+0.0034801959532460023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document starcoder
+0.0028307012092022594 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document starcoder
+0.0028420360878146276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document starcoder
+0.0028410455248484914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document starcoder
+0.00283497183526842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document starcoder
+0.002840187195459487 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document starcoder
+0.0028398709431369834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document starcoder
+0.004364722843422023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document starcoder
+0.004093255713117101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document starcoder
+0.004092331079566252 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document starcoder
+0.004005326985579649 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document starcoder
+0.0036205502856964207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document starcoder
+0.003625316793034984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document starcoder
+0.003604743435602363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document starcoder
+0.0035405823343673125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document starcoder
+0.0041601413517253945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document starcoder
+0.005886303658937057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document starcoder
+0.003600909532810332 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document starcoder
+0.0034941365817168658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document starcoder
+0.0004992164842980224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document starcoder
+0.00032927705604725614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document tulu
+0.0002860154190878753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document tulu
+0.0002845217585425619 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document tulu
+0.0002743528685497456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document tulu
+0.00026025323737738766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document tulu
+0.00023493876414603155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document tulu
+0.00029665994994226705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document tulu
+0.00031808102075993956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document tulu
+0.00031813573046011285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document tulu
+0.0002711905171855542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document tulu
+0.00028892513401817095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document tulu
+0.00030003908676979083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document tulu
+0.00026839878771944684 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document tulu
+0.00029155935002690497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document tulu
+0.0002998624927624209 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document tulu
+0.0003091705447974841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document tulu
+0.00026873195794309786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document tulu
+0.00027721873498527547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document tulu
+0.0002841662554024377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document tulu
+0.0002839461156551537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document tulu
+0.0002861705604659811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document tulu
+0.0002460995649635886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document tulu
+0.00019420142619795496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document tulu
+0.00021967677816173628 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document tulu
+0.0002620283200480949 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document tulu
+0.0002433390542188936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document tulu
+0.00021254976608350767 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document tulu
+0.00022094815569522115 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document tulu
+0.000342862378668244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document tulu
+0.00033784225259118157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document tulu
+0.0003367278459543952 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document tulu
+0.00029843279042852765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document tulu
+0.0002926583661257988 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document tulu
+0.00029320337282010673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document tulu
+0.00029281450669483455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document tulu
+0.0002915338187002653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document tulu
+0.0002864226923084572 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document tulu
+0.00028643439083586396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document tulu
+0.00028253710956299054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document tulu
+0.0002810856078805806 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document tulu
+0.00031474941344656715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document tulu
+0.0002139130222205655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document tulu
+0.0003084648871862831 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document tulu
+0.0003309477872140129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document tulu
+0.0003360096824695161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document tulu
+0.0003355452655196557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document tulu
+0.00038119390366386037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document tulu
+0.00038078927630086064 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document tulu
+0.0003386200917551554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document tulu
+0.0002158905159938882 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document tulu
+0.00021621682877018768 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document tulu
+0.00021553306942740535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document tulu
+0.00021581563462722296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document tulu
+0.0002157694110556169 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document tulu
+0.000215643699847159 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document tulu
+0.00021532716715168094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document tulu
+0.00021531221326022472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document tulu
+0.0002831801179028896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document tulu
+0.0002514844936507595 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document tulu
+0.00031638782778107964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document tulu
+0.0002749197545278445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document tulu
+0.00026159721512464495 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document tulu
+0.0002630052420096968 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document tulu
+0.00031106811228913666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document tulu
+0.0002852973415334161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document tulu
+3.7555372465932136e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document tulu
+0.003548077173506675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document wiki
+0.0018372203137874265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document wiki
diff --git a/ALCF/data-lists/polaris/dolma_v1_7_file_list.txt b/ALCF/data-lists/polaris/dolma_v1_7_file_list.txt
new file mode 100644
index 00000000000..6f34558ec33
--- /dev/null
+++ b/ALCF/data-lists/polaris/dolma_v1_7_file_list.txt
@@ -0,0 +1,2419 @@
+0.0018520780893211373 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document
+0.0017591050606817512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document
+0.001459052794333798 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document
+0.0007405667281569194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document
+0.00019420030110896795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document
+0.0009008668715801845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document
+0.00015115827957143057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document
+0.0014552844319220648 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document
+0.0012469861325685161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document
+0.00136412011372413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document
+0.0007064279699221103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document
+0.0008472240000687427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document
+0.0001984375713341955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document
+0.0005472773881697123 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document
+0.001815779629850992 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document
+0.0018313600689757324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document
+0.0002583902668716813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document
+0.0002646575141232155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document
+0.0003165521247456758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document
+0.0002920706460176214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document
+0.00028396813182810215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document
+0.00030445161883108107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document
+0.00031628781276576474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document
+0.0003083776568189157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document
+0.0003176359471472902 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document
+0.0002536009369131698 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document
+0.0003067491424681363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document
+0.0002597217257557784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document
+0.0003788556450109768 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document
+0.0002796563272052598 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document
+0.00033573826524290287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document
+0.00030523658022800287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document
+0.00032211552192240096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document
+0.0003329295675164247 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document
+0.0003101982186639862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document
+0.00032361798234223355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document
+0.0003495541581652915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document
+0.0002821637448858042 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document
+0.00030399523537629673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document
+0.0002955658968247219 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document
+0.00028942158502924254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document
+0.00028769546171490733 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document
+0.0002938111057234182 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document
+0.0002711150403010948 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document
+0.00031130095874747565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document
+0.0003002996118160777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document
+0.0003732757901604459 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document
+0.00026784205751795894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document
+0.0002799626521661984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document
+0.00034334276069078164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document
+0.0003582469803674965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document
+0.00031094844818418623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document
+0.0002766228384977191 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document
+0.00030297116159471485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document
+0.00027033888377464685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document
+0.00030090862368377933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document
+0.00028543875802490955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document
+0.00027559768459074204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document
+0.0003182185533962886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document
+0.0003311392971435837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document
+0.00028751652060804325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document
+0.000303466863212589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document
+0.00033400462801277524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document
+0.0002589234031777426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document
+0.0002913508598466723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document
+0.0002670572450004856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document
+0.00032027399105647656 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document
+0.00032188376258379377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document
+0.0003161585784100882 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document
+0.0003184249182974135 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document
+0.00030381336664000807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document
+0.0003190437442184283 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document
+0.0002537961798200545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document
+0.0003017817117223326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document
+0.00028685268513240224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document
+0.00031265179094451165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document
+0.00034708319096986816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document
+0.00026650837943080664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document
+0.00034588832248507335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document
+0.0002416982248399037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document
+0.0003089296918222243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document
+0.00029137184185700827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document
+0.00026464226846800774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document
+0.00030545397919456627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document
+0.0003206778460448875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document
+0.00030968971641110967 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document
+0.00023325653928600864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document
+0.00030526899198338555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document
+0.00035376719076633584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document
+0.000290224385981026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document
+0.000294650083382008 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document
+0.00028768858128616436 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document
+0.00030856965235527843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document
+0.00030579942447879054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document
+0.0002863101084704357 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document
+0.0002870032092492213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document
+0.000264182727569885 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document
+0.0002974012367036449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document
+0.00032238412143059203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document
+0.00031683716893819036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document
+0.00031157434937617524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document
+0.0003411742735695989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document
+0.00026778444816570715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document
+0.0003037045797275201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document
+0.00027746114370081314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document
+0.00027148285946862043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document
+0.00028042950114678207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document
+0.0003235607816590721 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document
+0.0003086692227306295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document
+0.00033990349455148105 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document
+0.00030945053208470265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document
+0.00027309074552265303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document
+0.00028737393506316194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document
+0.0003098868328009879 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document
+0.0002614229162588409 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document
+0.0002884388407820923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document
+0.0031025147279277244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document
+0.003102019887362634 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document
+0.0009996745994661548 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document
+0.0002406272620255565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document
+0.0002404825539493424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document
+0.00024062296575435581 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document
+0.00024069315766818953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document
+0.00024055829162263452 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document
+0.00024062053397343032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document
+0.0002410715545206964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document
+0.00024024881846087368 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document
+0.0002407074700790688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document
+0.00024072141428809043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document
+0.00024027710230872736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document
+0.0002409111299205489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document
+0.00024081954058275009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document
+0.00024086076794990912 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document
+0.00024098672620832446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document
+0.00024068622303333862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document
+0.00024140627024291824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document
+0.0002414512033594384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document
+0.00024028742594941463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document
+0.00024018036089269645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document
+0.0002398347365034979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document
+0.00024006780153485276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document
+0.00024015620270419213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document
+0.0002408848259695227 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document
+0.0002408023185278831 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document
+0.00024021196580140326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document
+0.00024077677271297493 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document
+0.00024087392454668027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document
+0.0002408071293824126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document
+0.00024042223828845715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document
+0.0002411484752360495 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document
+0.00023605263746465907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document
+0.00023471222158326908 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document
+0.00023432138580287644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document
+0.00023407385623382327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document
+0.00023487504174367091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document
+0.0002341843704976313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document
+0.00023421993170282486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document
+0.00023445057969132037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document
+0.0002337681680073047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document
+0.000234627964808109 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document
+0.0002338942211888584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document
+0.00023403849286843386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document
+0.00023405641310796305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document
+0.00023349169562397965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document
+0.00023381157386048856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document
+0.00023388742993790587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document
+0.00023363103829469813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document
+0.00023421141834630477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document
+0.00023420564352232565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document
+0.00023367463699173143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document
+0.00023344969163567033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document
+0.00023372196941547188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document
+0.00023399207645297834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document
+0.00023357915605505856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document
+0.00023337585642190864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document
+0.00023385005470157914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document
+0.00023301533534493465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document
+0.00023377864302541782 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document
+0.00023323745848621437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document
+0.0002330594611151835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document
+0.0002334149675026783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document
+0.00023198945902291534 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document
+0.00023023784834634142 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document
+0.00022985623060187217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document
+0.0002292605284569516 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document
+0.00022926593333048894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document
+0.00022922766406807777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document
+0.00022898153911167426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document
+0.0002292473111593315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document
+0.000228804579400424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document
+0.00022865485613513526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document
+0.00022937426835887895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document
+0.00022917388311587372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document
+0.0002291660582019043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document
+0.00022907895248360543 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document
+0.0002294617879920205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document
+0.0002290452150516566 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document
+0.00022943405619715553 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document
+0.0002296271421006204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document
+0.00022854791372910372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document
+0.00022923123467686557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document
+0.00022852404355738494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document
+0.00022847798660086642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document
+0.0002289604586810316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document
+0.00022835479834950643 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document
+0.0002289149402884243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document
+0.00022806655474763446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document
+0.00022826296420992974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document
+0.00022906829636213627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document
+0.0002287628414466998 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document
+0.0002282673911253445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document
+0.00022869309841939134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document
+0.0002281540116815451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document
+0.0002259755756162738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document
+0.00022562331285233504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document
+0.0002259061146106053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document
+0.00022567670836663787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document
+0.00022573165387587061 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document
+0.00022508514961670572 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document
+0.00022564642513773356 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document
+0.00022563088621998788 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document
+0.0002250438755373707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document
+0.00022524465346241134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document
+0.00022531737657666812 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document
+0.00022444687519363458 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document
+0.00022460397498596298 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document
+0.00022454218976501763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document
+0.00022447528843671366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document
+0.00022501666332178926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document
+0.00022453752304377972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document
+0.00022484451871163002 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document
+0.00022465678847154914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document
+0.00022453180917044732 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document
+0.0002247278486823009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document
+0.00022465794828242097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document
+0.00022431000701925386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document
+0.00022476020248460963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document
+0.00022467531771795015 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document
+0.0002236391309945234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document
+0.00022458764920536007 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document
+0.00022430877426744415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document
+0.0002247047786127192 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document
+0.0002245298090400035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document
+0.0002245648831396188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document
+0.00022292894729820784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document
+0.00022236668082957533 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document
+0.0002217622659895442 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document
+0.00022252452726732609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document
+0.00022135333211363678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document
+0.0002214571757787971 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document
+0.0002217188139237798 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document
+0.00022144214894640303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document
+0.00022100172806631854 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document
+0.00022156392409199052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document
+0.00022134830143710272 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document
+0.00022158598922529453 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document
+0.00022142932483041377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document
+0.00022120980907786554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document
+0.00022117917738112441 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document
+0.00022077089397851235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document
+0.00022093265074996711 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document
+0.00022091299741377004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document
+0.0002205849150703338 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document
+0.0002210648204787979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document
+0.0002214235747364102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document
+0.00022083907302221787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document
+0.0002206334237915964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document
+0.00022065193929912214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document
+0.00022079775597767288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document
+0.00022091492909963518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document
+0.00022095009987097293 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document
+0.0002208150577180165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document
+0.00022085759102772088 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document
+0.00022073789170129016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document
+0.00022049322781182384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document
+0.00022083270617761285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document
+0.00021982452827473632 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document
+0.00021899870446514259 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document
+0.00021890358773356361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document
+0.00021875556609042841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document
+0.00021861195987201226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document
+0.00021856782186167455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document
+0.00021912837771543515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document
+0.00021900213768517756 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document
+0.00021871675851390374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document
+0.0002180537056545586 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document
+0.0002188196714327129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document
+0.00021851362624523464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document
+0.0002183236795498736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document
+7.291153618675672e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document
+0.0003742481815405742 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document
+0.00038204855962733055 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document
+0.00038821818392663593 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document
+0.00038723332988783727 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document
+0.00038916141142149904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document
+0.00038049542523949033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document
+0.0003854755539534284 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document
+0.00024202756466512517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document
+0.0003915405155008087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document
+0.0003927382151931033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document
+0.0003839151202260479 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document
+0.00040006817468967907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document
+0.00040318965964443476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document
+0.0003831013019452741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document
+0.00039166638383204036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document
+0.00039962784023961004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document
+0.00039536707853602614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document
+0.0004204304698247758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document
+0.00041538899178693555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document
+0.00039186953333675306 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document
+0.00038945837196504305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document
+0.0003919951238929062 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document
+0.00044377065718528966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document
+0.0004407759068603017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document
+0.0002487811895843715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document
+0.00039349432045556636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document
+0.00041223198559462343 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document
+0.0004036573014830213 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document
+0.0003825982215521807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document
+0.00040386867133151386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document
+0.00024460575279105167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document
+0.000269029789531335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document
+0.0003573757493252864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document
+0.0004600876681392076 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document
+0.0002605354166397086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document
+0.0003882502452157999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document
+0.0002466747612126512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document
+0.0004024726105072402 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document
+0.00040820631128483644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document
+0.0002691094350403538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document
+0.00026916830387277267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document
+0.0004204663297880574 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document
+0.00042379698687085554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document
+0.0004502169227311871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document
+0.0002661708937015295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document
+0.00031239486948031334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document
+0.0003109054589936201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document
+0.00045873053079760646 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document
+0.00022904931423244635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document
+0.0003813462028433663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document
+0.00039188129256500874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document
+0.00045124222276983765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document
+0.00048138658436853695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document
+0.0003944178776279866 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document
+0.00039941569676754006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document
+0.00037952761190240494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document
+0.0003944870860881476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document
+0.0003891842411856621 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document
+0.000387688981934861 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document
+0.00039197953876258005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document
+0.00039007915280311206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document
+0.0003995520363699188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document
+0.00039230985654592406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document
+0.0003929472067173851 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document
+0.0003924096172671473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document
+0.0003881636143629905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document
+0.000389790617937084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document
+0.00037351762309221023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document
+0.0003630196170929407 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document
+0.00033532465765142113 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document
+0.0003076088685761823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document
+0.00039463850897720803 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document
+0.0002843816115231449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document
+0.0002909175709416474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document
+0.00028867170997202486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document
+0.0002838644617723659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document
+0.00029027869525543416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document
+0.0002821339567560056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document
+0.0002922988877045601 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document
+0.0002866955958315786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document
+0.0002865271754558126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document
+0.0002861247475618473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document
+0.0002826681072408606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document
+0.0002849746458282827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document
+0.0002816966633435316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document
+0.00026255342235948463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document
+0.0002552895098829678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document
+0.00025990194083107813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document
+0.0002524062657685835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document
+0.0002538577379748611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document
+0.0002561415177406761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document
+0.00026206253059694905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document
+0.00026168095406910565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document
+0.0002601305742008613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document
+0.00025200823006814814 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document
+0.0003229951981263502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document
+0.00037289448266476045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document
+0.0003807825862179898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document
+0.0003616333738191483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document
+0.0003665117918907636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document
+0.0003684186453633228 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document
+0.0003589330610806066 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document
+0.00036383861418030395 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document
+0.000359841363355303 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document
+0.00036431044063050464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document
+0.0003668574090358279 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document
+0.000362768263620199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document
+0.0003501888032771077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document
+0.000352401968221528 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document
+0.0003541019701869794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document
+0.0003628121865546891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document
+0.0003752582953758773 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document
+0.00037902046230424966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document
+0.0003777927146925147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document
+0.0003760676130509053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document
+0.00034046049078755405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document
+0.0003338847563259091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document
+0.00033294499102761794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document
+0.0004912026198265864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document
+0.00032064363474664014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document
+0.00032154190389541214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document
+0.00032309660151746207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document
+0.00031181143365304544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document
+0.00031046092294569104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document
+0.00031150165249068046 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document
+0.0003041314265988224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document
+0.0003024834909739394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document
+0.0003019936835833604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document
+0.000292329665283177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document
+0.0002867061143144972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document
+0.00028443615610701707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document
+0.00028462291013755945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document
+0.0002793538601205013 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document
+0.00027306573977044246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document
+0.00027097155673336525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document
+0.0002752934202112985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document
+0.00043042012694697647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document
+0.00047495648822986177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document
+0.00047755032493473855 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document
+0.0004706974343933747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document
+0.00046682163297771817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document
+0.0004616765425874178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document
+0.00030644496751628097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document
+0.0002909492555358308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document
+0.00027272036068261724 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document
+0.0004101070217315588 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document
+0.0003728914338834357 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document
+0.00036546911442305647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document
+0.0003669945482407483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document
+0.0003715902407424017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document
+0.00035837486406683366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document
+0.0003573318538685469 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document
+0.0003553784893071916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document
+0.0004920659809912352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document
+0.0004533619411303183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document
+0.00045067066057818706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document
+0.00044396985139270645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document
+0.00043198288204468477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document
+0.00043005174223738454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document
+0.00041847118430776784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document
+0.00042952036375796664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document
+0.00043420594647324267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document
+0.0003461123241053012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document
+0.0003408581597849182 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document
+0.00033172705422182547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document
+0.0003392566490686136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document
+0.00033578341518385483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document
+0.0003439196710518844 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document
+0.00034559163447085543 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document
+0.00033762478642902825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document
+0.00033215210055107224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document
+0.00033423579608014966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document
+0.0004963355016025102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document
+0.0004996862761456923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document
+0.0005000551829325451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document
+0.0005004212610098755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document
+0.00027768695585500585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document
+0.00028395983854338433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document
+0.00027835826303062254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document
+0.0002740073176010804 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document
+0.0002791830529274016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document
+0.0002796863816194411 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document
+0.00026697453022672804 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document
+0.0002594197440280141 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document
+0.0003779565697649222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document
+0.00041835823476586606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document
+0.00043788493575265915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document
+0.0002731731970096006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document
+0.000276305847423402 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document
+0.0002704955773958623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document
+0.0002629635944827518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document
+0.000260070956974436 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document
+0.00025661553791456334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document
+0.00025794727207576157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document
+0.00025295733980001527 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document
+0.0003788106407021029 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document
+0.0004882344027669431 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document
+0.0003275324309642705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document
+0.0004803401856640094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document
+0.00046720138323433943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document
+0.00043527810307095335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document
+0.00043905395741627827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document
+0.00048774175867331425 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document
+0.00048380704121346737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document
+0.0004779011848346118 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document
+0.00046255587581908036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document
+0.00045127922880511576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document
+0.0004503891485256095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document
+0.0004450142332303422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document
+0.00044630282482516654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document
+0.00044325014465743616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document
+0.0004263874842796447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document
+0.0004217530913646938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document
+0.000415120314341852 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document
+0.00040987168279144537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document
+0.00033468337266607834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document
+0.0003353094464683005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document
+0.0004833936821707294 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document
+0.00047194878988920935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document
+0.0004648324126996427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document
+0.0004562345003964941 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document
+0.0004933203505465098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document
+0.0003530166075325466 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document
+0.00035368548192804685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document
+0.0004872620828289663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document
+0.00048293889392426456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document
+0.00047936768462267655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document
+0.00047821013991587545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document
+0.0004660610308564753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document
+0.000394683430103437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document
+0.00039165053441571324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document
+0.0003906936040164381 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document
+0.00038074803919159006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document
+0.0003686529291578143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document
+0.00035832920428870976 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document
+0.00035929024535947033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document
+0.0003538226556050544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document
+0.0003584167868708799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document
+0.0003480507542594234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document
+0.0003413709023543034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document
+0.00034001304759361455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document
+0.00033430532902756514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document
+0.00046519252660631277 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document
+0.0002938876402514769 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document
+0.00028676090994509047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document
+0.00027296150117506716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document
+0.00026513502621960483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document
+0.0002680081327926125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document
+0.00025831225828720344 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document
+0.00026647037295561 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document
+0.0002525733734572654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document
+0.00025831708887575375 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document
+0.00042487627444443476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document
+0.0004951213245023891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document
+0.0004804051413177752 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document
+0.0004662397611340532 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document
+0.0004550138655253933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document
+0.00044494909122746795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document
+0.0002899112253051385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document
+0.0004372879736279761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document
+0.0004529568099252922 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document
+0.00045127826158829573 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document
+0.0004436558176737439 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document
+0.0004419233237678378 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document
+0.000434589215880319 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document
+0.00029153613207706566 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document
+0.0004312458058738854 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document
+0.00028741854968757313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document
+0.00046853200754421234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document
+0.0004949145252030074 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document
+0.00044459683920483167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document
+0.0003836095306696336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document
+0.0003789760237872398 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document
+0.0003749227438304427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document
+0.0003628558277173369 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document
+0.00039468301394041474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document
+0.00038874701821614864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document
+0.0004158492456077867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document
+0.00042360504554060077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document
+0.00040386729844317623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document
+0.00027595096702902474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document
+0.00043638766787829135 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document
+0.0002218691596850179 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document
+0.0004437566108089954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document
+0.0003889996411609667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document
+0.00043454421906537704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document
+0.0004522564392830988 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document
+0.00041517835659357416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document
+0.0002614360863446896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document
+0.00037543522111463596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document
+0.0004386190133514781 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document
+0.00046358333286115075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document
+0.00043186261317942404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document
+0.0002377581602097957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document
+0.00025973334085074254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document
+0.00040139099332000796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document
+0.00043674860686687174 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document
+0.00040853289309329373 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document
+0.000242910191729688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document
+0.0004431071731750582 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document
+0.0004388092670482523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document
+0.000381418866255965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document
+0.0004100117296419717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document
+0.00042469230366022745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document
+0.00041744151905374254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document
+0.00022835699906752945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document
+0.0004380161085387397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document
+0.00044803212381807456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document
+0.00040554932796137236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document
+0.0004234508646347761 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document
+0.00043341209652360653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document
+0.00023966604734537185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document
+0.000259165907316014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document
+0.0004270653021833602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document
+0.0004341547032162028 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document
+0.0004111478117275994 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document
+0.0004299383567984396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document
+0.0004241899124590779 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document
+0.0004502719349364145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document
+0.00038994621469645615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document
+0.0003859912398894952 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document
+0.0004247535950310557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document
+0.000386982084327716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document
+0.0004196451040053251 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document
+0.0004096278509782259 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document
+0.0004373334932695721 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document
+0.0004180889975240641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document
+0.00042079636929672745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document
+0.00038063574611812913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document
+0.0003817505891515542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document
+0.0004420096268860222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document
+0.00039182670726410623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document
+0.0003635667850372299 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document
+0.00041564996472055667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document
+0.000400529358757286 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document
+0.0003939113874958451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document
+0.00039066622068940996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document
+0.0004290098538807143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document
+0.0004240739958197099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document
+0.00040775392659215333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document
+0.0004091634200396925 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document
+0.00042299190476617914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document
+0.0003701492680344151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document
+0.0003807353844384635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document
+0.00038813507771983156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document
+0.00040072346558408346 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document
+0.0003603595180423597 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document
+0.00038799421353112465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document
+0.00037575235582264926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document
+0.0004239190342959713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document
+0.0004606044799136546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document
+0.00045107950652529253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document
+0.0004391947201871058 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document
+0.0004457516661123035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document
+0.0004301297170991686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document
+0.00044661704164586694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document
+0.0004438849846114837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document
+0.0004444205734316823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document
+0.0004190924165303394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document
+0.00043942581131677875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document
+0.00021568459798090663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document
+0.0003814929225407199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document
+0.0003217453179359235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document
+0.00031719591470267974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document
+0.00032434115726922137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document
+0.0004079911120371051 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document
+0.000329492766381148 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document
+0.0003845916162001633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document
+0.0003835208964390098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document
+0.00037847334157173194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document
+0.00038296039903791865 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document
+0.00037896336828472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document
+0.00037620974396391355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document
+0.00037420590727111843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document
+0.000340490625886403 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document
+0.0003078314411035827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document
+0.00034153990750656097 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document
+0.0003308858103982067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document
+0.0003452640607156025 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document
+0.00033095276418403455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document
+0.0003116308995860414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document
+0.00032446713226408477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document
+0.0003015816821912984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document
+0.00031612418775706894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document
+0.0003278516344971041 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document
+0.00033079446736097217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document
+0.00032278977146550837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document
+0.00032065272988207914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document
+0.0003936696452406576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document
+0.0003450109536627789 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document
+0.0003339787189919641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document
+0.0003284303856176974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document
+0.00033652677276843477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document
+0.0003257822443845694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document
+0.0003293985569149334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document
+0.0003310360260148262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document
+0.0003233770986418526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document
+0.0003172280092149422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document
+0.0003160674744292835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document
+0.00030931090289598506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document
+0.0003093173886443107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document
+0.00033167847081104083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document
+0.00031131501311729723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document
+0.00031046608876279845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document
+0.00030569235942207244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document
+0.00030777943671285197 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document
+0.00029303314290956683 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document
+0.0003045824546400205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document
+0.00030360880677729793 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document
+0.00031646239964835433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document
+0.0003129122300603785 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document
+0.00031060464956661433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document
+0.000311819032500067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document
+0.0002977872483902282 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document
+0.0003009448600922438 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document
+0.00028610292098537774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document
+0.0002988326876216654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document
+0.00028550828372819075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document
+0.0002830381750875739 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document
+0.0002848495855927156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document
+0.0002856443760308144 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document
+0.00027442895344188584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document
+0.0002681160554049462 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document
+0.0003421482544126989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document
+0.0004005872948449718 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document
+0.0003930123959320308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document
+0.0003867271832275778 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document
+0.000380805140455254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document
+0.0003814769861947819 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document
+0.00038025170883282324 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document
+0.0003738026647867475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document
+0.00018960856915036276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document
+0.0003697177501953134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document
+0.00036674194328136693 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document
+0.00036447406838697555 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document
+0.00036686410861101255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document
+0.00035915267825103423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document
+0.0003624758404026675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document
+0.0002822812140180794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document
+0.00030620512946920813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document
+0.000294249776520589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document
+0.00030238536967523434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document
+0.00029509593361580754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document
+0.0002906912701830899 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document
+0.0002921944165474959 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document
+0.00028358919691127954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document
+0.0002813182772323272 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document
+0.00027442640800299205 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document
+0.0002747820342933984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document
+0.0002747584403979717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document
+0.00027499129634862444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document
+0.0002712050404257197 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document
+0.0002616256943143254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document
+0.00026769938929002815 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document
+0.00038396081322727017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document
+0.0003863140490027991 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document
+0.00037702277513203237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document
+0.0003633274156107032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document
+0.0003587473889240435 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document
+0.0003507672084278415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document
+0.00033776425499780385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document
+0.0003377914127574796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document
+0.00032948015659161326 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document
+0.00033245638541392985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document
+0.00031080707640648695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document
+0.0002976903331149755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document
+0.0002965121463725523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document
+0.0002933849695266647 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document
+0.0002837035078508233 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document
+0.00028684569079589323 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document
+0.0003145192320802359 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document
+0.0003566937253273515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document
+0.0003470199109592918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document
+0.0003060245312041868 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document
+0.0002650817213818789 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document
+0.0002643604938780134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document
+0.000299350876031416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document
+0.0003178540797697938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document
+0.000271850367887767 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document
+0.00031349896596549 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document
+0.00031749734412765755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document
+0.0003791137842391209 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document
+0.0003742334169957992 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document
+0.0003705639757351107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document
+0.0003126986769797042 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document
+0.00031038132814561196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document
+0.00036464437173804883 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document
+0.0003569480488951322 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document
+0.0003541239221619106 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document
+0.00035315297411308053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document
+0.0003572451925404141 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document
+0.0003514986129411253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document
+0.0003521798298425866 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document
+0.00034553677439244716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document
+0.000349004719809412 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document
+0.0003468247484872769 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document
+0.0003465822608356558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document
+0.00035410983132162007 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document
+0.0003487908354969444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document
+0.0003479024763238147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document
+0.000341412530646823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document
+0.00034451316273667034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document
+0.0002618849993484869 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document
+0.00026788679978901144 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document
+0.00027450670773227214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document
+0.0002661273129899329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document
+0.00026836569676402957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document
+0.00026155876975483236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document
+0.0002609276830117151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document
+0.0002644161630512771 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document
+0.00036789208972872557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document
+0.00037829849439990513 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document
+0.0003788894943523098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document
+0.0003617207777959397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document
+0.0002541334487248998 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document
+0.0002707945538071073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document
+0.00027046282716455214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document
+0.0002652443167243215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document
+0.0002685859923850986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document
+0.00025734961751176414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document
+0.000259041720872915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document
+0.00025340107274823446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document
+0.00025757135121837893 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document
+0.00025617700500574084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document
+0.0002566931670562857 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document
+0.0002543871190716101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document
+0.00024997565589481713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document
+0.0002954079779456287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document
+0.00034890741135252835 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document
+0.0003473298137731525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document
+0.0003296959618486435 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document
+0.0003304520061604598 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document
+0.00032377956175729824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document
+0.00031700696295168713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document
+0.0003060382346081943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document
+0.0003012003005056863 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document
+0.0002981074073993884 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document
+0.0002922128825950705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document
+0.000348901087722931 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document
+0.0003408286289467841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document
+0.0003410649680770183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document
+0.0003358524215576502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document
+0.0003343661874989231 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document
+0.00032810573699389156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document
+0.00032261449539097497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document
+0.0003162694866049203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document
+0.0003158381156468853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document
+0.000317376061083603 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document
+0.0003125788639953052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document
+0.0003010105041885602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document
+0.0003065865059090678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document
+0.0003084275726508053 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document
+0.00030966560718296085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document
+0.0002957728057853081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document
+0.00029904164542325336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document
+0.0002955358888729187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document
+0.00028692976446931544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document
+0.0002923476214935797 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document
+0.0002893691697212419 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document
+0.0002855895211981585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document
+0.00027968347097626246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document
+0.0002810783462604979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document
+0.00027794080455729715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document
+0.00034784376461416953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document
+0.0003488347959010943 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document
+0.00034790583710250724 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document
+0.000345913166618151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document
+0.00033801936268066675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document
+0.0003290591130212315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document
+0.00034051399521366823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document
+0.00032470943131841784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document
+0.00031679540050914276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document
+0.00031814596342422325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document
+0.0003156466289485036 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document
+0.00029985010879003633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document
+0.0002905176377776361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document
+0.0004206836775460856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document
+0.00020660449162246918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document
+0.0003461727254468087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document
+0.00020592870907067763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document
+0.00034173505299233005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document
+0.0004052437256652738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document
+0.0004080650901351697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document
+0.00039778184149144276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document
+0.00039046311464950275 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document
+0.00039043444911071384 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document
+0.000388575704932843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document
+0.00019737533145666597 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document
+0.00037610755595812403 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document
+0.00037315400127598317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document
+0.00037415028580922163 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document
+0.00036694041707212337 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document
+0.00018947219857306515 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document
+0.00037046050826533545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document
+0.0003587440768559087 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document
+0.00034623936498708903 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document
+0.0003502289592617922 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document
+0.00034692398063649823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document
+0.000339340809421849 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document
+0.0003360510394816983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document
+0.0003354673850814145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document
+0.00032937682875877047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document
+0.00032844505049317715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document
+0.00028287199339908627 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document
+0.0002795217197003578 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document
+0.00028048955601883463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document
+0.0002769326396439027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document
+0.0002727090021299243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document
+0.0002726577841024554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document
+0.00026663619593455374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document
+0.00026068042672138127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document
+0.0002637704114326801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document
+0.0002593043567100412 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document
+0.0002599897110113453 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document
+0.0002435078682758859 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document
+0.0002450530071379054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document
+0.00024233331983743606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document
+0.0002934750947999535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document
+0.00033241226364044474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document
+0.00032938406090272075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document
+0.00032778705403953246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document
+0.00032184551480398754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document
+0.00031874002264945737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document
+0.0003165319685666433 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document
+0.00031307071173376295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document
+0.00031119524184911957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document
+0.0003102253344576429 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document
+0.0003088976240383192 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document
+0.0002951410823077708 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document
+0.00029772657676757413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document
+0.0003056048989909935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document
+0.00031991305381648026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document
+0.00030890256978362426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document
+0.0003109382904091933 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document
+0.00031035798529690644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document
+0.00030741666395911753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document
+0.0002989918594861846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document
+0.00029569635443989434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document
+0.0002973992445667285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document
+0.000293397351001072 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document
+0.00028737817438047954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document
+0.00028252738144009747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document
+0.0002805511898623541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document
+0.0003718020784620472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document
+0.0003499713845765235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document
+0.00034283547445326676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document
+0.00031464759888838765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document
+0.00033188946446414833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document
+0.000326084432195463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document
+0.0003764568303917893 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document
+0.0003604955598858414 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document
+0.0003655654554133222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document
+0.00035762304033750504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document
+0.00038478883950347103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document
+0.00027735714341247454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document
+0.00028139534607773563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document
+0.00019777292251713763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document
+0.000285571704874486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document
+0.00028543482146244363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document
+0.00019434234484256758 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document
+0.00027854908176986763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document
+0.0002847068039566143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document
+0.00028672356943064853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document
+0.00027782687605808177 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document
+0.0002843539634105203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document
+0.0002894748379090401 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document
+0.0002868852440186493 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document
+0.0002818504885373851 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document
+0.00028680112812941034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document
+0.00019258978168723977 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document
+0.00028760637934715155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document
+0.0002820439443912918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document
+0.0002831001054410018 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document
+0.00029001901552467397 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document
+0.00027779449377883156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document
+0.00019949837437516796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document
+0.0002907306472984446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document
+0.00027814858381318327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document
+0.00019472790889161432 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document
+0.00020472626596924125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document
+0.0002870045081974301 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document
+0.00019812241927078482 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document
+0.0002817553333369554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document
+0.00027829782796642117 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document
+0.00028289431732284113 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document
+0.0002795526296717729 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document
+0.00027682829988044574 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document
+0.0002895432402719184 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document
+0.0002823174903941811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document
+0.00028170972351837796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document
+0.00027807915877838826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document
+0.00028588515681452956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document
+0.00028112324090816726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document
+0.00020636178289985485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document
+0.00019447255290980535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document
+0.0002850824220591452 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document
+0.00027856429520116784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document
+0.0002820880676635633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document
+0.00028943902215995714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document
+0.0002676366291085329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document
+0.00023806333809954687 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document
+0.00024526460430233455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document
+0.00023876876664622726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document
+0.00023379770334179805 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document
+0.00024175151269138382 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document
+0.00023386583242595706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document
+0.00023771797150160827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document
+0.0002262748967483896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document
+0.0002408148346432682 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document
+0.00023398651720444235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document
+0.00022989433874474592 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document
+0.00023948500543957772 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document
+0.0002331594076859196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document
+0.00023375132439600242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document
+0.00023923410909668642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document
+0.00023952796315562954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document
+0.0002327466076905069 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document
+0.00023082758956797212 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document
+0.0002240509275524448 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document
+0.00022798879995765268 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document
+0.000221172516774386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document
+0.00021767045123534623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document
+0.00021982832794804484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document
+0.00021971626543789102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document
+0.00022566565206920132 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document
+0.0002181984894194856 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document
+0.00021831417549554653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document
+0.00021601405421187145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document
+0.00022275733725519607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document
+0.00021847734911973986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document
+0.0002243591012664014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document
+0.00021688758139483833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document
+0.0002182953624789215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document
+0.00020475155724026002 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document
+0.00021498078062960065 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document
+0.0002157914337233064 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document
+0.00021781838494967963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document
+0.00021723242266814558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document
+0.0002176782686553837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document
+0.0003486179404943968 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document
+0.00034882846352857634 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document
+0.00031400868448352596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document
+0.00030273484020011963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document
+0.00029895889118145404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document
+0.00029770764609621714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document
+0.0002990181332116852 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document
+0.00029653733972285996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document
+0.00029624649222942476 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document
+0.00029625609720203576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document
+0.00029731928930852147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document
+0.00029011721326148513 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document
+0.00028849788197494655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document
+0.00021601278623858145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document
+0.00021319599281739178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document
+0.0002153325290600083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document
+0.00018566946174516558 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document
+0.00020736824394291617 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document
+0.00020857419820128004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document
+0.00020058526129536423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document
+0.00020745812166665217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document
+0.00020652171015271702 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document
+0.00020643808911278608 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document
+0.00020040513914482103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document
+0.00020598050188272898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document
+0.0001969184139343296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document
+0.0001972748812937012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document
+0.0002038556751586195 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document
+0.00020245186011313464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document
+0.00019950381422038783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document
+0.00020837055459665258 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document
+0.00020371856218246096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document
+0.00019537612301625791 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document
+0.00019914984508813857 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document
+0.0002053787713691309 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document
+0.00019082100541008637 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document
+0.00020397153334531813 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document
+0.0002021462693077317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document
+0.00019609357008124035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document
+0.00019693256622486236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document
+0.00020007239732428112 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document
+0.00020467075741591954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document
+0.00019584883400022932 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document
+0.00019135050391176972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document
+0.0003362829834208298 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document
+0.00034013691154784095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document
+0.00033215887031941976 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document
+0.00032681189065396707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document
+0.0003149138485493094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document
+0.00030179177307540077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document
+0.0002923278437581119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document
+0.00029470052278994486 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document
+0.0002994095093045731 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document
+0.00029033525096085037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document
+0.00029390798852496565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document
+0.0002916230924130842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document
+0.00029419886374594913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document
+0.0002865469756730764 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document
+0.00021191292549942086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document
+0.00021369664817409847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document
+0.00021612485624266726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document
+0.00022242192634588478 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document
+0.00014605095659989698 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document
+0.00022070626106341693 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document
+0.0002174420774054071 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document
+0.00021325858963116995 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document
+0.0002124322999488052 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document
+0.0002081218896969054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document
+0.0002108710211556957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document
+0.00020686867095978426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document
+0.00020895752681041895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document
+0.00020741922266415738 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document
+0.0002069112657197308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document
+0.00020644627473468118 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document
+0.00020332991338121604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document
+0.0003560895677789848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document
+0.00032915779111908214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document
+0.00033810613317040864 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document
+0.00033729626594036923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document
+0.00033550342864602944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document
+0.00034173474024556906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document
+0.000331505340748827 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document
+0.0003270050330117195 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document
+0.00032585275329172556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document
+0.0003143383203190604 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document
+0.00031655199110388894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document
+0.00030738872158476413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document
+0.00030838388352699285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document
+0.0003053596995351888 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document
+0.00031836304739584593 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document
+0.000315315435873905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document
+0.0003087116248965243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document
+0.00030396790625537645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document
+0.0003335812246032149 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document
+0.00034570956323095843 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document
+0.00034563035636675786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document
+0.00033411265479076335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document
+0.00034439191141692787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document
+0.0003364483125496565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document
+0.0003299500453608033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document
+0.00033163377700074837 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document
+0.00032638649660627673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document
+0.00032616167939645234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document
+0.0003205289298760723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document
+0.00031939393740815355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document
+0.00031593164066731296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document
+0.00031928871111254405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document
+0.00029670189073175004 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document
+0.00020517703846735904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document
+0.00020128418186172073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document
+0.00019662723895606717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document
+0.0001981157042081407 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document
+0.00019703489037041608 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document
+0.00019079796331785068 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document
+0.0001909352306690079 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document
+0.00018824662295261396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document
+0.00019864275319325954 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document
+0.00018818516521649587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document
+0.00018875694972812844 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document
+0.00018231621170645482 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document
+0.00018349407845798273 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document
+0.00018088971427746906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document
+0.00018296284236327237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document
+0.0001876011825819916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document
+0.000329052068725176 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document
+0.00032223616273648536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document
+0.00031272564089633955 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document
+0.00031621609908414494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document
+0.0003117213560911235 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document
+0.00030218064069945934 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document
+0.00030658916600512085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document
+0.0002915863534115821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document
+0.0002940280138374372 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document
+0.00029067860468866085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document
+0.00028529228063135635 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document
+0.00028336893301452256 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document
+0.0002794668089130099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document
+0.00021681361378827842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document
+0.0001484664674497246 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document
+0.00021950558378215133 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document
+0.00021806860758808645 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document
+0.00021819568718852282 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document
+0.00021626925931585001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document
+0.0001464536143077762 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document
+0.00021432777088808917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document
+0.000213473805865147 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document
+0.00021397067253964538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document
+0.00020758957647437263 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document
+0.00020687124337683314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document
+0.00020630057046511005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document
+0.0002091166859352538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document
+0.00020777355025615267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document
+0.00020709287641496176 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document
+0.00020736464660577094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document
+0.00020062246741862607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document
+0.00020693207561942915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document
+0.00021151004871893024 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document
+0.00019930249098689716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document
+0.00021589710041231824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document
+0.00021369204789905741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document
+0.0002147099923936778 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document
+0.00021077531190389536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document
+0.0002100509829113836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document
+0.00021185362601571124 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document
+0.00020722136637339565 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document
+0.00020300093701169531 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document
+0.00019859737993313477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document
+0.00019971314372100164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document
+0.00019549908270269278 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document
+0.00019649820843534028 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document
+0.00019619415513498067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document
+0.00019493006120377898 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document
+0.00019499409035775506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document
+0.00019252988593634277 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document
+0.00019440768268686405 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document
+0.00018747161324755577 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document
+0.0001879575932372779 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document
+0.00019040707058357506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document
+0.0001871931095090703 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document
+0.00020112966223017096 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document
+0.00020516878165311017 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document
+0.00020664735191740533 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document
+0.00021041398572882962 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document
+0.00020397992929690396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document
+0.0002039978580295561 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document
+0.00020592785601142126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document
+0.0001990755527445265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document
+0.00019729564847798732 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document
+0.00019958182230527032 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document
+0.0001985037302636386 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document
+0.00020204130355115716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document
+0.0002000296401958085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document
+0.0001983064832295463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document
+0.00019663108484195617 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document
+0.00019510678560556523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document
+0.0001873284057063206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document
+0.00019311553072495885 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document
+0.00034652137288816547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document
+0.0002813690318850024 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document
+0.00027697649713138685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document
+0.0002755419092534421 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document
+0.0002681583054440219 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document
+0.00026945753192750824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document
+0.00026169470768245737 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document
+0.00026437008960810825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document
+0.0002637294838228 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document
+0.00026491867965088836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document
+0.00025504483625138986 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document
+0.0002545040623796586 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document
+0.0002546682814073622 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document
+0.00025545439487142615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document
+0.0002626896557978271 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document
+0.00025092040940402784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document
+0.0002589154885863872 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document
+0.00024106160482721467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document
+0.0002483289690087987 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document
+0.0002388930282784437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document
+0.00024006340759273874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document
+0.00023765248178029045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document
+0.00023061351965578936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document
+0.00024954224883546477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document
+0.00017861017233018525 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document
+0.00017810832743667658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document
+0.00017599709170759497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document
+0.00017462723516505223 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document
+0.0002906316527068669 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document
+0.00033762141066247166 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document
+0.00017170670574152494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document
+0.00017258674515137717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document
+0.0002815386173173926 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document
+0.0002996845935618989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document
+0.0002735268488987296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document
+0.0002971738713071517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document
+0.0002942690674002763 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document
+0.0003322222207729567 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document
+0.0003378721656198464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document
+0.00018307262621851067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document
+0.00033956081502775057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document
+0.00031604820927876276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document
+0.00028805657681088917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document
+0.00026312293321215633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document
+0.00034366936722921455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document
+0.0002865256504406559 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document
+0.0003063615195861786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document
+0.00028412791619666136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document
+0.00028060835132727154 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document
+0.00032544974761560506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document
+0.0002647177833217225 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document
+0.0003152621884896575 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document
+0.0003054625140336913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document
+0.00031183308312292263 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document
+0.00018175026696621178 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document
+0.00017699918328872 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document
+0.00018222339261441908 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document
+0.00018348005930964137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document
+0.0001810735993810541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document
+0.00030846441282038914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document
+0.0002972326889310354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document
+0.00017433421318235594 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document
+0.00032799458649525895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document
+0.00032482130048512673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document
+0.00031943465668672475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document
+0.00029615593630484517 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document
+0.0002893126939511001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document
+0.0002849288351723284 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document
+0.00028383906633569267 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document
+0.00028072526091262615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document
+0.000284239564292377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document
+0.0002778903109432523 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document
+0.0002771644389501471 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document
+0.0002733316182319337 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document
+0.00026362539185869363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document
+0.0002636325383220217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document
+0.00026740622442302886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document
+0.0002646771971853427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document
+0.0002628566720605389 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document
+0.0002644760695434766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document
+0.0002623837702310999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document
+0.00026088722976772894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document
+0.0002567065374799158 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document
+0.00018857382101207726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document
+0.00019036580399817203 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document
+0.00018348828065261222 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document
+0.00018491851780345073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document
+0.00018904887260080187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document
+0.0001875609304251801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document
+0.00018393034720015817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document
+0.00018419795526114903 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document
+0.00018699955623404795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document
+0.00018276256902965128 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document
+0.00017698045695190812 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document
+0.00018104650132303642 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document
+0.00017758206731279688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document
+0.00017131402995103497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document
+0.000175944428350446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document
+0.0003416745727147391 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document
+0.0003163259373952889 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document
+0.0002804489269172448 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document
+0.00028748272397403175 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document
+0.00027603318345630605 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document
+0.000271638824679648 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document
+0.0002763761210210942 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document
+0.00026501984873172717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document
+0.00026422486894694714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document
+0.0002686339100849262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document
+0.0002610837453940606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document
+0.000260974343729353 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document
+0.0002599403837029134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document
+0.0002937273113238609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document
+0.0003341790732600504 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document
+0.0002620661576600244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document
+0.0003027929169239288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document
+0.00031944039129326894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document
+0.00019025676304139009 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document
+0.00018680910145009907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document
+0.00034215840419416437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document
+0.00018618120812119364 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document
+0.00018605853095599425 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document
+0.00018120712626096538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document
+0.00018315079292495327 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document
+0.00018362556449041974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document
+0.0001780024456718171 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document
+0.00033296526436178697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document
+0.0001802398632282846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document
+0.00017340263100798256 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document
+0.00017755840547238697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document
+0.00018419413735260606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document
+0.00017869518174591322 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document
+0.00017526271460129484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document
+0.00017852168597981907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document
+0.00017566536156787157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document
+0.00017589867964432936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document
+0.00017831487394075305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document
+0.00017837310528935862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document
+0.00018200908814216548 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document
+0.0001795136627511612 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document
+0.0003414021775300033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document
+0.00017177291787788502 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document
+0.0003441900648571877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document
+0.0003394534597060673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document
+0.0003236887233114832 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document
+0.0001639544129688747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document
+0.00019137443753211255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document
+0.00018575146284680153 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document
+0.00019184792863440243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document
+0.00018966043065679055 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document
+0.00017968851317035848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document
+0.00018479881897661546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document
+0.0001813642692683015 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document
+0.0001686449798983066 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document
+0.00018516104592230446 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document
+0.00031283726601066385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document
+0.0003248607542883853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document
+0.00031583241601202365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document
+0.00031238270857730376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document
+0.000307150592403979 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document
+0.00029443829986847044 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document
+0.0002942723732234677 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document
+0.00023514930666443422 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document
+0.0020776328951453444 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document
+0.0021768234410538883 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document
+0.002106973549276289 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document
+0.002110915756171751 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document
+0.0017032382109816464 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document
+0.0019047944877712286 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document
+0.0019402711744016077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document
+0.0006264790011223686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document
+0.0017885401938106643 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document
+0.0003547982093445404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document
+0.00035934014428504944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document
+0.00035707704501371544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document
+0.00035287930712815354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document
+0.00035977166728996823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document
+0.0003581675664109838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document
+0.0003548617059697185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document
+0.0003639582000286208 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document
+0.00035375839698688127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document
+0.0003743722020080678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document
+0.0003530399715341242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document
+0.00035511875882752406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document
+0.0003618733574783154 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document
+0.00035185243285420104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document
+0.0003541503739732106 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document
+0.0003631679485751914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document
+0.00035748045578182274 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document
+0.0003606490690555877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document
+0.0003626383296610091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document
+0.00035442644361264756 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document
+0.00035978370170539796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document
+0.0003585562375341541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document
+0.0003601958372888019 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document
+0.000350277765402227 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document
+0.0003616521184211704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document
+0.0003620625543608188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document
+0.0003560781983850704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document
+0.0003553209610592676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document
+0.00035905348643915075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document
+0.00034744258805696526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document
+0.00035462784035661496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document
+0.00034768186175100895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document
+0.0003568534635532736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document
+0.00035586511544371234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document
+0.0003524567827568137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document
+0.0003512453770426313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document
+0.0003591792726468799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document
+0.0003514024529343127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document
+0.0003584880112586934 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document
+0.00035133552916418045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document
+0.0003600811981350215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document
+0.0003571663974228119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document
+0.00035768103378874214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document
+0.00035939205561113694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document
+0.00035186773916029825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document
+0.0003542829672490847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document
+0.0003592783642898726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document
+0.0003556367340099302 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document
+0.00035391392271377027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document
+0.00035486725707484836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document
+0.00034866743396828035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document
+0.0003517219808644735 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document
+0.00034874458549673823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document
+0.000355773136961014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document
+0.00035611750387841917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document
+0.00035305602013916315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document
+0.0003578207127071924 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document
+0.00035514635841943707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document
+0.00034816946212866206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document
+0.0003512707269761496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document
+0.0003483392117980654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document
+0.0003572169607204321 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document
+0.00035139153281660794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document
+0.00035536422129036537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document
+0.000352017164107143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document
+0.000351889550179365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document
+0.000358759689953589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document
+0.0003569286079869268 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document
+0.0003657752958602099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document
+0.00035396127934790697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document
+0.0003618565071224743 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document
+0.00035146051531973204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document
+0.00036107135765783567 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document
+0.00035019554279994576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document
+0.00035567858879904983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document
+0.0003504753174793183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document
+0.00035931140831329194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document
+0.0003502967866002823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document
+0.0003532911801041972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document
+0.0003583543013070199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document
+0.0003566243489931224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document
+0.0003468752314799221 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document
+0.0003597840618138091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document
+0.00035128822484768084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document
+0.00035889496943437507 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document
+0.000352400524650424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document
+0.0003518689536768735 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document
+0.00035866864741303467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document
+0.0003454687659106334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document
+0.00035348007259317576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document
+0.0003539752270940644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document
+0.00035146495994081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document
+0.00035397212846310423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document
+0.00035208246467162587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document
+0.0003490843168676626 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document
+0.00035299633658644394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document
+0.00034868327466167065 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document
+0.00035941351365601583 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document
+0.0003545343062735255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document
+0.0003528956380445978 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document
+0.0003553355770443352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document
+0.0003644224004937743 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document
+0.00035234291036216907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document
+0.0003596237469847771 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document
+0.0003531996065735989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document
+0.0003547177054106099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document
+0.0003575586499260483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document
+0.00035262635135283667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document
+0.0003624191962188944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document
+0.0003488398052948616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document
+0.0003598294093147917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document
+0.00035583006534466323 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document
+0.00035403139653225103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document
+0.00036134702642187156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document
+0.0003573689927162834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document
+0.0003577141131435527 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document
+0.00035208814419277406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document
+0.00035996720683665625 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document
+0.00035415304658912596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document
+0.00036353353029443546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document
+0.0003537326003150983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document
+0.00036053976358299083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document
+0.000352380489373494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document
+0.00036154661616900994 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document
+0.00035959332325963614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document
+0.0003597954667189692 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document
+0.0003563108270597542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document
+0.0003582891940460143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document
+0.0003497728210484297 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document
+0.0003549834902179354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document
+0.0003529828233484542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document
+0.00034627483903285777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document
+0.00035569006572589215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document
+0.00035449377946910314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document
+0.00035802844396194623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document
+0.0003617277809353208 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document
+0.00035034118898654814 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document
+0.000351091193908611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document
+0.0003527914342210668 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document
+0.00035028288369781376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document
+0.00035775745592780506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document
+0.0003449630690661468 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document
+0.0003583490698830361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document
+0.0003476995746684122 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document
+0.0003535632505019212 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document
+0.00035640180641147417 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document
+0.000361731045691765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document
+0.0003534082129597368 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document
+0.0003550344149828664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document
+0.00035363002411364057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document
+0.0003537265579677396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document
+0.00034950531383577937 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document
+0.00035008511827347514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document
+0.00035594533400871325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document
+0.00035266312861335946 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document
+0.00035280268794863923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document
+0.0003565470391528536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document
+0.0003588492322689137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document
+0.00035469909697832775 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document
+0.00034712082813410526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document
+0.000348701157101807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document
+0.0003500192014479944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document
+0.00035120560544669755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document
+0.00035403656850437445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document
+0.00035852376560749366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document
+0.0003534754068111774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document
+0.00035591740046720765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document
+0.000348522354782563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document
+0.0003533533959664415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document
+0.00035631425964030697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document
+0.0003485886551574741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document
+0.00035917652631065777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document
+0.0003482975272111288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document
+0.00035580661277480167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document
+0.0003492290722955348 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document
+0.00034989284450240613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document
+0.0003545677216162781 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document
+0.00034622286859463484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document
+0.00036070626989861965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document
+0.00035518365036320786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document
+0.00035272907057848406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document
+0.0003547343638218734 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document
+0.0003496450144966242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document
+0.0003537407829294287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document
+0.0003489722653985685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document
+0.00035057186899911295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document
+0.0003507566548933051 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document
+0.00035630360179023747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document
+0.00035631362503416367 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document
+0.0003490204248026821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document
+0.00035761724058371226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document
+0.00035037664777467137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document
+0.000353402110481068 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document
+0.00034524163568371745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document
+0.00035528523728570974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document
+0.00034784916132431703 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document
+0.00034928476408048925 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document
+0.00034989205973784984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document
+0.00034201664404094254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document
+0.0003529676016338611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document
+0.00034643433682346637 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document
+0.0003511666373001904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document
+0.00034828669066575333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document
+0.0003494625207264413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document
+0.0003458957535879216 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document
+0.0003543020478990003 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document
+0.00034754384069014956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document
+0.0003598856392240133 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document
+0.0003503335458553846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document
+0.00035919595619778716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document
+0.00035767737970754404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document
+0.00035197152783998165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document
+0.0003549609834422404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document
+0.0003568184100569753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document
+0.0003512652818651935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document
+0.00035912648958665754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document
+0.00034764526964056546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document
+0.000352439784960359 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document
+0.00035295886560764226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document
+0.0003518132693658672 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document
+0.00035589987915465713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document
+0.00034923863317385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document
+0.0003457987267929692 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document
+0.0003560928663480501 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document
+0.0003529603811204932 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document
+0.0003524438555443043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document
+0.0003438847030263783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document
+0.00035981978898461613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document
+0.0003446342778566972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document
+0.00035529584995236537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document
+0.00034855740895831116 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document
+0.00034932634912802544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document
+0.00035805518303064666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document
+0.0003497941877073061 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document
+0.00035774398685405447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document
+0.0003560421780316607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document
+0.0003508844468369392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document
+0.00035731928892270107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document
+0.0003557884626314314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document
+0.00034992996760289355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document
+0.000360752554360921 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document
+0.0003452321668708545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document
+0.0003591745226131023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document
+0.00035256981433229084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document
+0.00035378123159712034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document
+0.000350464354895999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document
+0.00035074625557389677 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document
+0.00035025894701994667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document
+0.00035437902514857614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document
+0.0003514684519732232 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document
+0.00035449717909633905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document
+0.0003436816402714221 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document
+0.00035139158071782116 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document
+0.0003509424079843335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document
+0.000343894618577506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document
+0.0003500789770661659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document
+0.0003407788080680086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document
+0.0003581908175239701 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document
+0.0003465541618780918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document
+0.00034600228792437736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document
+0.00034416738982773204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document
+0.0003519900340150641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document
+0.000343369616864659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document
+0.0003544993883274688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document
+0.0003504441365073392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document
+0.00034859160702727056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document
+0.00035355909532647185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document
+0.0003471900922691849 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document
+0.0003563015508709187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document
+0.0003487888744148821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document
+0.00034711767548688336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document
+0.0003530734609369085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document
+0.00035123969242560935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document
+0.0003517127620891489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document
+0.00035232835416868673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document
+0.0003524437481912308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document
+0.0003525996167005602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document
+0.00035064770545242043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document
+0.00035311558274981226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document
+0.00034952204800569914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document
+0.0003541471367344846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document
+0.00035418812454561825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document
+0.0003528951372900714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document
+0.0003542338042975688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document
+0.00034937738939942796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document
+0.0003522182190878447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document
+0.0003501406466507449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document
+0.00034973079877492633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document
+0.0003485274567713538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document
+0.00034999308679368985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document
+0.0003570051724707296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document
+0.00034567230462019706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document
+0.00035529000940160696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document
+0.00034956512308671755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document
+0.0003496962834028953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document
+0.0003468745282493457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document
+0.0003502717155809202 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document
+0.0003556240880896514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document
+0.0003515109488424343 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document
+0.0003563156688192592 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document
+0.00035040277363989817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document
+0.0003481408593290717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document
+0.0003624575124332874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document
+0.0003522684124250313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document
+0.00035286996027653544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document
+0.00034967623997256725 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document
+0.00035182649587602765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document
+0.0003524892557026489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document
+0.0003507642477451811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document
+0.00036190408389835666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document
+0.00035102739424880766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document
+0.00035239718753257265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document
+0.00035298076121821316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document
+0.0003478704389752654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document
+0.0003503109191567942 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document
+0.00035143250975654426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document
+0.0003480663923069012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document
+0.00035691540219998623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document
+0.000348815437166351 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document
+0.00035202073257766225 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document
+0.0003491569096274706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document
+0.00035277390475511834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document
+0.0003524972090026609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document
+0.0003504854249750236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document
+0.00034740238025423914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document
+0.00034968015462277606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document
+0.0003493798632762674 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document
+0.0003488202537862122 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document
+0.0003525461864643725 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document
+0.00034903815232825664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document
+0.00035536982539258216 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document
+0.00034858083265155483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document
+0.0003505014973608067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document
+0.00035327984042622104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document
+0.0003503286677453136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document
+0.00035835274842442816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document
+0.00034970302660275595 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document
+0.000357929573140149 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document
+0.0003517238649788585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document
+0.00036097027318848475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document
+0.0003502734074110026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document
+0.00035801510806036273 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document
+0.0003568006373479869 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document
+0.00036128108717454636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document
+0.0003563436883111686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document
+0.00035559725321852463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document
+0.00035089656006854944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document
+0.000359453964362057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document
+0.00035629498059104033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document
+0.0003622207707090437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document
+0.0003540946784512821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document
+0.0003594750565232011 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document
+0.0003566007415086991 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document
+0.0003562142599126134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document
+0.0003569948186744601 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document
+0.00035166554847920186 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document
+0.00035047994419295137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document
+0.0003561578193739437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document
+0.00035470866838811544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document
+0.00034216920464876335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document
+0.0003550021513075795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document
+0.0003488045105938729 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document
+0.0003513340720840151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document
+0.0003448558566387584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document
+0.0003460966026953241 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document
+0.0003488157616036459 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document
+0.0003446120387842362 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document
+0.000351528602987427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document
+0.00035661118227454713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document
+0.0003551342699877457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document
+0.0003478953397924445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document
+0.00034625782458988215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document
+0.0003527515447405871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document
+0.00034823744889805696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document
+0.00034823314560254406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document
+0.00035162668292961944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document
+0.0003477307716074623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document
+0.0003446457989477787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document
+0.00034782916273767795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document
+0.0003517249130302248 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document
+0.0003449873430908556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document
+0.00034841291749669877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document
+0.0003466028498941749 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document
+0.0003486436831199424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document
+0.0003478279234211838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document
+0.0003495903653274374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document
+0.00034896893881218957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document
+0.000348941645312426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document
+0.0003474221308416894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document
+0.0003462621543839385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document
+0.0003669373860863891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document
+0.00034691156268163006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document
+0.0003527774103765281 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document
+0.00034684565672734663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document
+0.0003454250599604457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document
+0.0003541536557159006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document
+0.000345735737037366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document
+0.0003524669816385214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document
+0.0003441817133096468 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document
+0.0003519093265859089 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document
+0.00035080085480352095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document
+0.00035285227929327434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document
+0.00034354836346901676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document
+0.00034789770937373467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document
+0.000343665920520102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document
+0.0003490884931060568 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document
+0.00034380029463398654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document
+0.00034874768005099945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document
+0.0003457058510967673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document
+0.00034644265227023904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document
+0.00035008339858594957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document
+0.0003462377193296194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document
+0.0003620491787114201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document
+0.000348717011044469 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document
+0.00034370072363913706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document
+0.0003551981066775649 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document
+0.0003500119496799342 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document
+0.0003485082952669081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document
+0.0003508155580978919 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document
+0.00035311375163251416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document
+0.00034945972003423253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document
+0.0003474220353789879 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document
+0.0003536443686585001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document
+0.0003560350489042953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document
+0.0003493655927914396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document
+0.0003528423977146383 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document
+0.00035255554724471217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document
+0.0003479760010190111 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document
+0.00035458598862501956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document
+0.0003458990560538315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document
+0.00035157946422379875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document
+0.00034736860650169996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document
+0.0003529152313394119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document
+0.00034586294329524465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document
+0.00035707214923794877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document
+0.0003509580363496512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document
+0.00035244176725524474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document
+0.0003467539557999047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document
+0.00034919687962275546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document
+0.00035094031731719953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document
+0.0003484309008351352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document
+0.0003485409424916253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document
+0.0003499590776117838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document
+0.0003492842758957848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document
+0.0003529712275178912 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document
+0.0003566141287087449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document
+0.0003649496522047409 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document
+0.0003563218912208234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document
+0.00035614782126966145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document
+0.0003531944298453266 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document
+0.0003535950949566616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document
+0.0003544295554928795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document
+0.0003519908503740376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document
+0.00035752817626134463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document
+0.0003515322689589972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document
+0.0003486893890307115 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document
+0.0003446520464889867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document
+0.0003509421562481707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document
+0.00035335015702909084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document
+0.0003490178167345008 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document
+0.0003520497821155174 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document
+0.0003549762618908944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document
+0.00035072190850833103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document
+0.0003542458638526423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document
+0.000352419194572916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document
+0.0003545102564672614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document
+0.0003495437992331806 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document
+0.0003542843376993964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document
+0.000352827529313958 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document
+0.00035442506093223886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document
+0.0003496970719044257 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document
+0.0003553096424442362 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document
+0.00034986845565067564 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document
+0.000352131055186658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document
+0.0003527021708198983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document
+0.00034905885414547214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document
+0.0003583433842468394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document
+0.00034409435202828383 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document
+0.00034846410520871483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document
+0.0003554459991927314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document
+0.00035310507471843076 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document
+0.000350028910786098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document
+0.00035049727458009896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document
+0.0003519047735925826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document
+0.0003513027429919726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document
+0.0003626947260354396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document
+0.0003500087324849783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document
+0.0003618315726725285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document
+0.0003535385113938023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document
+0.0003487064058517615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document
+0.0003618709124780938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document
+0.00035040070335625915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document
+0.0003506279032267829 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document
+0.0003498435310527524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document
+0.0003554634749821431 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document
+0.00035091209738758963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document
+0.00035034103678978573 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document
+0.00035398931854386146 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document
+0.00035495529304989485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document
+0.00036067883473356603 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document
+6.322825248625475e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document
+2.4432314037946264e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document
+5.6313888721313454e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document
+2.4208171781595055e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document
+2.325811856369237e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document
+2.4010790356322705e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document
+5.36773610843632e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document
+1.360574433501002e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document
+1.3076540344853244e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document
+1.3386534334886313e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document
+1.2498103719605153e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document
+1.403763836949682e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document
+1.3636756723495417e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document
+1.2242489446940814e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document
+1.2398255818973339e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document
+1.2972616994216281e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document
+1.3947809855914134e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document
+1.3144843787829514e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document
+1.1693809976572487e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document
+1.3677252682893802e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document
+1.3940876719849597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document
+1.4222245138730965e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document
+1.3201677767919704e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document
+1.1421717796486169e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document
+1.2890514724498703e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document
+1.3649507648749037e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document
+1.2400732563490717e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document
+1.1557681453277616e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document
+1.2294483595964517e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document
+1.2137484472122283e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document
+1.3299663426456e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document
+1.2461984216479532e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document
+1.4666434217609636e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document
+1.1876997894686238e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document
+1.2939155338964078e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document
+1.3859590039728515e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document
+1.317917848615668e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document
+1.1335281536110342e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document
+1.2889923952861426e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document
+1.3471671647053326e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document
+1.2221720014475102e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document
+1.2632647276287541e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document
+1.28276219004076e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document
+1.36213704321643e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document
+1.2414858625261553e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document
+1.3173700421883744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document
+1.295597796725686e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document
+1.242783936442904e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document
+1.2417374088427464e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document
+1.2134479405400744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document
+1.3090040663304255e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document
+1.2713470581614905e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document
+5.5750231378906594e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document
+5.777597358425469e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document
+5.349786767471258e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document
+5.675165050453583e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document
+5.482611216158831e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document
+5.065421899890121e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document
+5.384718357480146e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document
+4.872037363236061e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document
+4.532709250783155e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document
+5.7257963030489613e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document
+4.9014365579652036e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document
+5.722863552770969e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document
+6.149911636146833e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document
+5.2178057608273506e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document
+4.990228161160431e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document
+5.866186875255134e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document
+5.004185734360719e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document
+4.79401853705107e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document
+5.435219965052376e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document
+5.035997225792266e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document
+5.622401774211625e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document
+5.028826157387559e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document
+5.596379470128795e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document
+6.027824493191489e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document
+5.5358270009931474e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document
+5.9839051807685496e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document
+5.1221077499249595e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document
+5.517228560620279e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document
+5.1687858285052305e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document
+5.684188244145645e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document
+5.212693275535878e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document
+4.8551007022784084e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document
+5.4888506639203145e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document
+5.345098688527242e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document
+4.8506420625516594e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document
+5.132168603397676e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document
+5.719476795114223e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document
+5.7448621149792696e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document
+4.9068410568059265e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document
+5.382937299647678e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document
+4.8288432136304634e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document
+5.841703200305416e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document
+5.1589611587885584e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document
+6.031113829732574e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document
+5.4558202844532094e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document
+5.341852317196142e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document
+5.1402942738369954e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document
+5.735421384377395e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document
+5.473629863586958e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document
+5.4708993245733936e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document
+4.931161863634078e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document
+5.104173022127248e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document
+5.510157161510824e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document
+5.652501401782597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document
+5.7273656573031666e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document
+5.638363224821738e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document
+5.6128115396668704e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document
+5.00304877998141e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document
+5.596120554779096e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document
+5.5280923889040006e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document
+5.223477917938408e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document
+5.29472809986569e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document
+2.205682378243213e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document
+1.4367563720603185e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document
+3.5506193487931076e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document
+3.0442910855821778e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document
+2.2540042508019627e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document
+2.6880163202623216e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document
+2.534473148048727e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document
+2.6560945431318916e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document
+2.547470248967691e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document
+2.5248825388073738e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document
+2.5828729575000054e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document
+2.4026583817957736e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document
+2.3930425429834413e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document
+2.5037365362599724e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document
+2.6696745470595603e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document
+2.140323051341762e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document
+2.617354786691592e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document
+1.538359101762691e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document
+1.2871029252377856e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document
+2.255195411289217e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document
+2.4832313897952067e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document
+9.303873918189968e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document
+2.179532302620228e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document
+1.9750517506901206e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document
+2.7740420380648435e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document
+2.7813714782319335e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document
+4.1595357937609806e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document
+2.741365122389175e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document
+2.117451071361901e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document
+1.7132649760565998e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document
+1.7492547092602047e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document
+1.7499951097392276e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document
+1.6632444789170958e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document
+1.6678802252361607e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document
+1.5519208704558896e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document
+1.652420992967167e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document
+1.6119931034508755e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document
+1.6638882076736552e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document
+1.7198076782652946e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document
+1.572927860565175e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document
+1.5194822618169918e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document
+1.6677776832669846e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document
+1.595612492245688e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document
+1.682350633181197e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document
+1.663983380609724e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document
+1.710187842689243e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document
+1.5733697527539038e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document
+1.6972104757911438e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document
+1.6610142847616577e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document
+1.61094882403031e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document
+1.4789207305138325e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document
+1.639299617676302e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document
+1.3241204512116132e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document
+8.582260726625535e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document
+8.213000975576739e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document
+9.549247732811947e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document
+9.17242785339013e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document
+7.632868223725218e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document
+8.674401118222175e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document
+9.124384255505347e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document
+8.344222222417358e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document
+8.992299957499065e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document
+8.76689497361025e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document
+7.973396239586015e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document
+9.006935606644125e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document
+8.725545954955498e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document
+1.215449694669174e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document
+3.3041720284158646e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document
+2.0593512412624502e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document
+1.893608946986248e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document
+1.737111666788535e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document
+1.4915923449873955e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document
+2.289370239067605e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document
+2.8615335689614638e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document
+8.847283630883125e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document
+1.8175470362373804e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document
+1.8152226683368038e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document
+1.789149655314284e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document
+1.7690523036477663e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document
+1.8333732213753644e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document
+1.8794105687718654e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document
+1.721841156706417e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document
+2.0612008685724796e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document
+1.9297370681336376e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document
+2.0188440409661018e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document
+5.1741216329695265e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document
+1.3417913926038429e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document
+1.1010813016469651e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document
+1.1252416134320087e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document
+1.2801744104313002e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document
+1.3041514955795817e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document
+1.3428837580879075e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document
+1.320809382267804e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document
+1.3451566676555968e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document
+1.228284926657501e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document
+1.2410599573923043e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document
+1.3815343367377182e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document
+1.3895126265148832e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document
+1.2306773644401741e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document
+1.32981021906281e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document
+1.101337469221607e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document
+1.513094184404692e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document
+1.1073759547073234e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document
+1.2879348765857567e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document
+9.619595770228435e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document
+1.2384340836286436e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document
+1.1766667232211577e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document
+1.2871049236196452e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document
+1.2010645926497744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document
+1.3971428231518597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document
+1.2283733550547932e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document
+1.2659530508255308e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document
+1.551775613074462e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document
+1.1169413343776979e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document
+1.1433700593712463e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document
+4.964773647323492e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document
+1.0995586595687313e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document
+1.2957393071411267e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document
+2.75899247407709e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document
+2.8269344597344854e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document
+2.329108187246831e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document
+2.4231761430460284e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document
+1.2434140512230442e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document
+1.638718338352859e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document
+3.272953556801187e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document
+6.061314500486327e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document
+1.2465979731210292e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document
+1.2737557327967737e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document
+1.038428658075627e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document
+2.61666472045566e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document
+3.6506873212272224e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document
+1.5066359138295701e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document
+1.1166290872121178e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document
+1.5546966228590285e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document
+1.2583434625014828e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document
+1.3398826881300862e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document
+1.2944933160515968e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document
+1.0971437399901365e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document
+1.2787922795775774e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document
+1.404979227816985e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document
+1.3344734431324463e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document
+4.886031157107555e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document
+3.277261443596394e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document
+3.5057957685786495e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document
+3.287625301718589e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document
+3.1370056372668855e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document
+3.186092015785841e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document
+7.271819324142512e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document
+0.001451215788905126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document
+0.0014486847196258788 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document
+0.0008861032722895899 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document
+0.0018119590809459816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document
+0.0008916937917547129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document
+6.960128832809415e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document
+0.002008403651063623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document
+0.0014374900742131454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document
+0.00180213596996716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document
+0.001956178877532413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document
+0.0008829547017667033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document
+0.0008910853619157279 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document
+0.0018260998845299973 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document
+0.0012499632072059553 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document
+0.00125398260359913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document
+0.0012541704774729071 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document
+0.0012527268234360602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document
+0.0012532925243737164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document
+0.0012456396241204315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document
+0.0012589894424352072 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document
+0.001508020123999618 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document
+0.00333096950781965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document
+0.0033233414614415547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document
+0.003512387990689828 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document
+0.0035091382940513126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document
+0.003514155927147005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document
+0.003327108000579638 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document
+0.003329106196589836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document
+0.003505604148738077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document
+0.003324825759567855 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document
+0.0033248240149804913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document
+0.0033385962112851358 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document
+0.0035043186296553615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document
+0.003340469505431529 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document
+0.0035106889084796276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document
+0.0033309469281030167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document
+0.003340337858029757 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document
+0.003505919861097801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document
+0.0003882924098240512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document
+0.0005759963691850877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document
+0.0005959971675332674 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document
+0.0006026179290353799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document
+0.0005824184320784846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document
+0.0005854598548616037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document
+0.0005903767055633473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document
+0.0005930306490982049 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document
+0.000569425602700746 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document
+0.0005675060415179408 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document
+0.0005772431621253389 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document
+0.0005678026053826858 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document
+0.0005700398263483378 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document
+0.0005669467963528824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document
+0.0005701015953324305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document
+0.0005795907287413296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document
+0.0005735602737531164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document
+0.0005749862745842101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document
+0.0005693257015931971 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document
+0.0005716568794795563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document
+0.0005761083919774021 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document
+0.0005688343169797355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document
+0.0005807913190929842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document
+0.0005710229258078636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document
+0.0005704083039826862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document
+0.0005862132348308056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document
+0.0005717662049559556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document
+0.0005858155213694451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document
+0.0005812012281792392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document
+0.0005803981414588498 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document
+0.0005700102108287723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document
+0.0005719243459052329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document
+0.0005867253401661752 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document
+0.0005731087218860733 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document
+0.0005712197789109317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document
+0.0005702376926310089 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document
+0.0005700411527742972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document
+0.0005828090098178196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document
+0.0005770140826168056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document
+0.0005723509664597896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document
+0.0005755499231836962 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document
+0.0005636407438471367 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document
+0.0005640281556500104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document
+0.0005633159058766496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document
+0.0005638034311151449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document
+0.0005630066273073224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document
+0.0005631803831128559 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document
+0.0005631228881679657 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document
+0.0005628178701487633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document
+0.0005624448092256196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document
+0.0005620957024062329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document
+0.0005614201504177484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document
+0.0005616890951464056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document
+0.0005611348559279058 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document
+0.0005604238061828518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document
+0.0005603301490194237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document
+0.0005607291294548833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document
+0.0005605234569930727 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document
+0.0005613778566640694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document
+0.0005610248539992471 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document
+0.0005599977416780475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document
+0.0005603632562116935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document
+0.0005599177479509897 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document
+0.0005595202318298379 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document
+0.0005600975633499175 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document
+0.0005614075491213365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document
+0.000612563885043477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document
+0.0005515469909644413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document
+0.0005526782014946906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document
+0.0005472463408095445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document
+0.0005502284746004587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document
+0.0005414514790555363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document
+0.0005513499500134784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document
+0.0005391391454105187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document
+0.0005415836910001838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document
+0.0005208132468536551 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document
+0.0005889827143132871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document
+0.0005822520817765276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document
+0.0004173155230758696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document
+0.0009994361338078242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document
+0.001087156194657966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document
+0.0010667737163656816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document
+0.0009602877882124873 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document
+0.0008968956271971105 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document
+0.0009198034843762967 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document
+0.0009423901016715341 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document
+0.0009674094553686345 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document
+0.0009858331322519164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document
+0.0009970593645879198 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document
+0.0010027035193731686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document
+0.0010128291154221853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document
+0.0010215631382631918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document
+0.0010288663771461238 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document
+0.0010346219929285867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document
+0.00104544019940344 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document
+0.0010525172676724333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document
+0.0010609529620775127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document
+0.0010725892748610153 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document
+0.0010818563598181568 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document
+0.0010992760196793917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document
+0.0011178992762079917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document
+0.001124687532085676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document
+0.001118303661267191 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document
+0.0010206825575416534 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document
+0.0005512280117499715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document
+0.004474659408857016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document
+0.00409944473890653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document
+0.005137179939941845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document
+0.005143172251066109 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document
+0.005206134363352808 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document
+0.004892747858974329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document
+0.004844731352552902 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document
+0.005308320169123755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document
+0.005124709815666577 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document
+0.005424710744483826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document
+0.00538244648861977 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document
+0.0029107284679086853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document
+0.0026825258998444705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document
+0.0026904503191419243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document
+0.002687906577174073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document
+0.002850165346048818 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document
+0.005322698571717847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document
+0.004450334290869719 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document
+0.004700990083440683 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document
+0.003903568556500995 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document
+0.00390561515396931 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document
+0.0039046402900912262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document
+0.003907454839379547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document
+0.0038583224578603824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document
+0.0037914116657695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document
+0.003786665266798682 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document
+0.003792000802430658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document
+0.00319266847466091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document
+0.0032658716699838944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document
+0.0034801959532460023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document
+0.0028307012092022594 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document
+0.0028420360878146276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document
+0.0028410455248484914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document
+0.00283497183526842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document
+0.002840187195459487 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document
+0.0028398709431369834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document
+0.004364722843422023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document
+0.004093255713117101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document
+0.004092331079566252 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document
+0.004005326985579649 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document
+0.0036205502856964207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document
+0.003625316793034984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document
+0.003604743435602363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document
+0.0035405823343673125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document
+0.0041601413517253945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document
+0.005886303658937057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document
+0.003600909532810332 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document
+0.0034941365817168658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document
+0.0004992164842980224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document
+0.00032927705604725614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document
+0.0002860154190878753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document
+0.0002845217585425619 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document
+0.0002743528685497456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document
+0.00026025323737738766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document
+0.00023493876414603155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document
+0.00029665994994226705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document
+0.00031808102075993956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document
+0.00031813573046011285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document
+0.0002711905171855542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document
+0.00028892513401817095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document
+0.00030003908676979083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document
+0.00026839878771944684 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document
+0.00029155935002690497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document
+0.0002998624927624209 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document
+0.0003091705447974841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document
+0.00026873195794309786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document
+0.00027721873498527547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document
+0.0002841662554024377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document
+0.0002839461156551537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document
+0.0002861705604659811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document
+0.0002460995649635886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document
+0.00019420142619795496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document
+0.00021967677816173628 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document
+0.0002620283200480949 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document
+0.0002433390542188936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document
+0.00021254976608350767 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document
+0.00022094815569522115 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document
+0.000342862378668244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document
+0.00033784225259118157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document
+0.0003367278459543952 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document
+0.00029843279042852765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document
+0.0002926583661257988 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document
+0.00029320337282010673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document
+0.00029281450669483455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document
+0.0002915338187002653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document
+0.0002864226923084572 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document
+0.00028643439083586396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document
+0.00028253710956299054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document
+0.0002810856078805806 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document
+0.00031474941344656715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document
+0.0002139130222205655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document
+0.0003084648871862831 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document
+0.0003309477872140129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document
+0.0003360096824695161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document
+0.0003355452655196557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document
+0.00038119390366386037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document
+0.00038078927630086064 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document
+0.0003386200917551554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document
+0.0002158905159938882 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document
+0.00021621682877018768 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document
+0.00021553306942740535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document
+0.00021581563462722296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document
+0.0002157694110556169 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document
+0.000215643699847159 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document
+0.00021532716715168094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document
+0.00021531221326022472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document
+0.0002831801179028896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document
+0.0002514844936507595 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document
+0.00031638782778107964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document
+0.0002749197545278445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document
+0.00026159721512464495 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document
+0.0002630052420096968 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document
+0.00031106811228913666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document
+0.0002852973415334161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document
+3.7555372465932136e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document
+0.003548077173506675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document
+0.0018372203137874265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document
diff --git a/ALCF/data-lists/polaris/falcon.txt b/ALCF/data-lists/polaris/falcon.txt
new file mode 100644
index 00000000000..914d4803a4b
--- /dev/null
+++ b/ALCF/data-lists/polaris/falcon.txt
@@ -0,0 +1,501 @@
+0.0003547982093445404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document falcon
+0.00035934014428504944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document falcon
+0.00035707704501371544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document falcon
+0.00035287930712815354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document falcon
+0.00035977166728996823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document falcon
+0.0003581675664109838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document falcon
+0.0003548617059697185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document falcon
+0.0003639582000286208 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document falcon
+0.00035375839698688127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document falcon
+0.0003743722020080678 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document falcon
+0.0003530399715341242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document falcon
+0.00035511875882752406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document falcon
+0.0003618733574783154 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document falcon
+0.00035185243285420104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document falcon
+0.0003541503739732106 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document falcon
+0.0003631679485751914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document falcon
+0.00035748045578182274 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document falcon
+0.0003606490690555877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document falcon
+0.0003626383296610091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document falcon
+0.00035442644361264756 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document falcon
+0.00035978370170539796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document falcon
+0.0003585562375341541 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document falcon
+0.0003601958372888019 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document falcon
+0.000350277765402227 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document falcon
+0.0003616521184211704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document falcon
+0.0003620625543608188 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document falcon
+0.0003560781983850704 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document falcon
+0.0003553209610592676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document falcon
+0.00035905348643915075 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document falcon
+0.00034744258805696526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document falcon
+0.00035462784035661496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document falcon
+0.00034768186175100895 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document falcon
+0.0003568534635532736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document falcon
+0.00035586511544371234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document falcon
+0.0003524567827568137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document falcon
+0.0003512453770426313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document falcon
+0.0003591792726468799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document falcon
+0.0003514024529343127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document falcon
+0.0003584880112586934 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document falcon
+0.00035133552916418045 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document falcon
+0.0003600811981350215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document falcon
+0.0003571663974228119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document falcon
+0.00035768103378874214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document falcon
+0.00035939205561113694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document falcon
+0.00035186773916029825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document falcon
+0.0003542829672490847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document falcon
+0.0003592783642898726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document falcon
+0.0003556367340099302 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document falcon
+0.00035391392271377027 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document falcon
+0.00035486725707484836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document falcon
+0.00034866743396828035 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document falcon
+0.0003517219808644735 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document falcon
+0.00034874458549673823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document falcon
+0.000355773136961014 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document falcon
+0.00035611750387841917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document falcon
+0.00035305602013916315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document falcon
+0.0003578207127071924 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document falcon
+0.00035514635841943707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document falcon
+0.00034816946212866206 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document falcon
+0.0003512707269761496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document falcon
+0.0003483392117980654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document falcon
+0.0003572169607204321 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document falcon
+0.00035139153281660794 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document falcon
+0.00035536422129036537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document falcon
+0.000352017164107143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document falcon
+0.000351889550179365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document falcon
+0.000358759689953589 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document falcon
+0.0003569286079869268 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document falcon
+0.0003657752958602099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document falcon
+0.00035396127934790697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document falcon
+0.0003618565071224743 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document falcon
+0.00035146051531973204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document falcon
+0.00036107135765783567 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document falcon
+0.00035019554279994576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document falcon
+0.00035567858879904983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document falcon
+0.0003504753174793183 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document falcon
+0.00035931140831329194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document falcon
+0.0003502967866002823 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document falcon
+0.0003532911801041972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document falcon
+0.0003583543013070199 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document falcon
+0.0003566243489931224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document falcon
+0.0003468752314799221 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document falcon
+0.0003597840618138091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document falcon
+0.00035128822484768084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document falcon
+0.00035889496943437507 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document falcon
+0.000352400524650424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document falcon
+0.0003518689536768735 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document falcon
+0.00035866864741303467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document falcon
+0.0003454687659106334 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document falcon
+0.00035348007259317576 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document falcon
+0.0003539752270940644 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document falcon
+0.00035146495994081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document falcon
+0.00035397212846310423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document falcon
+0.00035208246467162587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document falcon
+0.0003490843168676626 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document falcon
+0.00035299633658644394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document falcon
+0.00034868327466167065 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document falcon
+0.00035941351365601583 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document falcon
+0.0003545343062735255 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document falcon
+0.0003528956380445978 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document falcon
+0.0003553355770443352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document falcon
+0.0003644224004937743 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document falcon
+0.00035234291036216907 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document falcon
+0.0003596237469847771 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document falcon
+0.0003531996065735989 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document falcon
+0.0003547177054106099 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document falcon
+0.0003575586499260483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document falcon
+0.00035262635135283667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document falcon
+0.0003624191962188944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document falcon
+0.0003488398052948616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document falcon
+0.0003598294093147917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document falcon
+0.00035583006534466323 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document falcon
+0.00035403139653225103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document falcon
+0.00036134702642187156 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document falcon
+0.0003573689927162834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document falcon
+0.0003577141131435527 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document falcon
+0.00035208814419277406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document falcon
+0.00035996720683665625 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document falcon
+0.00035415304658912596 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document falcon
+0.00036353353029443546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document falcon
+0.0003537326003150983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document falcon
+0.00036053976358299083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document falcon
+0.000352380489373494 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document falcon
+0.00036154661616900994 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document falcon
+0.00035959332325963614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document falcon
+0.0003597954667189692 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document falcon
+0.0003563108270597542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document falcon
+0.0003582891940460143 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document falcon
+0.0003497728210484297 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document falcon
+0.0003549834902179354 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document falcon
+0.0003529828233484542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document falcon
+0.00034627483903285777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document falcon
+0.00035569006572589215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document falcon
+0.00035449377946910314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document falcon
+0.00035802844396194623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document falcon
+0.0003617277809353208 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document falcon
+0.00035034118898654814 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document falcon
+0.000351091193908611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document falcon
+0.0003527914342210668 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document falcon
+0.00035028288369781376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document falcon
+0.00035775745592780506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document falcon
+0.0003449630690661468 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document falcon
+0.0003583490698830361 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document falcon
+0.0003476995746684122 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document falcon
+0.0003535632505019212 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document falcon
+0.00035640180641147417 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document falcon
+0.000361731045691765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document falcon
+0.0003534082129597368 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document falcon
+0.0003550344149828664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document falcon
+0.00035363002411364057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document falcon
+0.0003537265579677396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document falcon
+0.00034950531383577937 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document falcon
+0.00035008511827347514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document falcon
+0.00035594533400871325 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document falcon
+0.00035266312861335946 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document falcon
+0.00035280268794863923 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document falcon
+0.0003565470391528536 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document falcon
+0.0003588492322689137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document falcon
+0.00035469909697832775 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document falcon
+0.00034712082813410526 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document falcon
+0.000348701157101807 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document falcon
+0.0003500192014479944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document falcon
+0.00035120560544669755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document falcon
+0.00035403656850437445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document falcon
+0.00035852376560749366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document falcon
+0.0003534754068111774 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document falcon
+0.00035591740046720765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document falcon
+0.000348522354782563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document falcon
+0.0003533533959664415 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document falcon
+0.00035631425964030697 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document falcon
+0.0003485886551574741 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document falcon
+0.00035917652631065777 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document falcon
+0.0003482975272111288 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document falcon
+0.00035580661277480167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document falcon
+0.0003492290722955348 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document falcon
+0.00034989284450240613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document falcon
+0.0003545677216162781 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document falcon
+0.00034622286859463484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document falcon
+0.00036070626989861965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document falcon
+0.00035518365036320786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document falcon
+0.00035272907057848406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document falcon
+0.0003547343638218734 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document falcon
+0.0003496450144966242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document falcon
+0.0003537407829294287 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document falcon
+0.0003489722653985685 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document falcon
+0.00035057186899911295 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document falcon
+0.0003507566548933051 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document falcon
+0.00035630360179023747 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document falcon
+0.00035631362503416367 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document falcon
+0.0003490204248026821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document falcon
+0.00035761724058371226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document falcon
+0.00035037664777467137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document falcon
+0.000353402110481068 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document falcon
+0.00034524163568371745 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document falcon
+0.00035528523728570974 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document falcon
+0.00034784916132431703 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document falcon
+0.00034928476408048925 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document falcon
+0.00034989205973784984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document falcon
+0.00034201664404094254 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document falcon
+0.0003529676016338611 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document falcon
+0.00034643433682346637 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document falcon
+0.0003511666373001904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document falcon
+0.00034828669066575333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document falcon
+0.0003494625207264413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document falcon
+0.0003458957535879216 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document falcon
+0.0003543020478990003 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document falcon
+0.00034754384069014956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document falcon
+0.0003598856392240133 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document falcon
+0.0003503335458553846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document falcon
+0.00035919595619778716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document falcon
+0.00035767737970754404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document falcon
+0.00035197152783998165 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document falcon
+0.0003549609834422404 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document falcon
+0.0003568184100569753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document falcon
+0.0003512652818651935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document falcon
+0.00035912648958665754 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document falcon
+0.00034764526964056546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document falcon
+0.000352439784960359 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document falcon
+0.00035295886560764226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document falcon
+0.0003518132693658672 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document falcon
+0.00035589987915465713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document falcon
+0.00034923863317385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document falcon
+0.0003457987267929692 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document falcon
+0.0003560928663480501 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document falcon
+0.0003529603811204932 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document falcon
+0.0003524438555443043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document falcon
+0.0003438847030263783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document falcon
+0.00035981978898461613 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document falcon
+0.0003446342778566972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document falcon
+0.00035529584995236537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document falcon
+0.00034855740895831116 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document falcon
+0.00034932634912802544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document falcon
+0.00035805518303064666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document falcon
+0.0003497941877073061 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document falcon
+0.00035774398685405447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document falcon
+0.0003560421780316607 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document falcon
+0.0003508844468369392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document falcon
+0.00035731928892270107 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document falcon
+0.0003557884626314314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document falcon
+0.00034992996760289355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document falcon
+0.000360752554360921 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document falcon
+0.0003452321668708545 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document falcon
+0.0003591745226131023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document falcon
+0.00035256981433229084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document falcon
+0.00035378123159712034 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document falcon
+0.000350464354895999 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document falcon
+0.00035074625557389677 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document falcon
+0.00035025894701994667 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document falcon
+0.00035437902514857614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document falcon
+0.0003514684519732232 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document falcon
+0.00035449717909633905 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document falcon
+0.0003436816402714221 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document falcon
+0.00035139158071782116 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document falcon
+0.0003509424079843335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document falcon
+0.000343894618577506 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document falcon
+0.0003500789770661659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document falcon
+0.0003407788080680086 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document falcon
+0.0003581908175239701 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document falcon
+0.0003465541618780918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document falcon
+0.00034600228792437736 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document falcon
+0.00034416738982773204 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document falcon
+0.0003519900340150641 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document falcon
+0.000343369616864659 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document falcon
+0.0003544993883274688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document falcon
+0.0003504441365073392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document falcon
+0.00034859160702727056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document falcon
+0.00035355909532647185 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document falcon
+0.0003471900922691849 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document falcon
+0.0003563015508709187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document falcon
+0.0003487888744148821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document falcon
+0.00034711767548688336 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document falcon
+0.0003530734609369085 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document falcon
+0.00035123969242560935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document falcon
+0.0003517127620891489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document falcon
+0.00035232835416868673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document falcon
+0.0003524437481912308 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document falcon
+0.0003525996167005602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document falcon
+0.00035064770545242043 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document falcon
+0.00035311558274981226 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document falcon
+0.00034952204800569914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document falcon
+0.0003541471367344846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document falcon
+0.00035418812454561825 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document falcon
+0.0003528951372900714 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document falcon
+0.0003542338042975688 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document falcon
+0.00034937738939942796 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document falcon
+0.0003522182190878447 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document falcon
+0.0003501406466507449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document falcon
+0.00034973079877492633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document falcon
+0.0003485274567713538 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document falcon
+0.00034999308679368985 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document falcon
+0.0003570051724707296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document falcon
+0.00034567230462019706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document falcon
+0.00035529000940160696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document falcon
+0.00034956512308671755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document falcon
+0.0003496962834028953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document falcon
+0.0003468745282493457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document falcon
+0.0003502717155809202 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document falcon
+0.0003556240880896514 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document falcon
+0.0003515109488424343 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document falcon
+0.0003563156688192592 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document falcon
+0.00035040277363989817 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document falcon
+0.0003481408593290717 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document falcon
+0.0003624575124332874 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document falcon
+0.0003522684124250313 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document falcon
+0.00035286996027653544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document falcon
+0.00034967623997256725 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document falcon
+0.00035182649587602765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document falcon
+0.0003524892557026489 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document falcon
+0.0003507642477451811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document falcon
+0.00036190408389835666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document falcon
+0.00035102739424880766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document falcon
+0.00035239718753257265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document falcon
+0.00035298076121821316 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document falcon
+0.0003478704389752654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document falcon
+0.0003503109191567942 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document falcon
+0.00035143250975654426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document falcon
+0.0003480663923069012 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document falcon
+0.00035691540219998623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document falcon
+0.000348815437166351 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document falcon
+0.00035202073257766225 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document falcon
+0.0003491569096274706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document falcon
+0.00035277390475511834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document falcon
+0.0003524972090026609 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document falcon
+0.0003504854249750236 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document falcon
+0.00034740238025423914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document falcon
+0.00034968015462277606 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document falcon
+0.0003493798632762674 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document falcon
+0.0003488202537862122 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document falcon
+0.0003525461864643725 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document falcon
+0.00034903815232825664 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document falcon
+0.00035536982539258216 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document falcon
+0.00034858083265155483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document falcon
+0.0003505014973608067 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document falcon
+0.00035327984042622104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document falcon
+0.0003503286677453136 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document falcon
+0.00035835274842442816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document falcon
+0.00034970302660275595 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document falcon
+0.000357929573140149 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document falcon
+0.0003517238649788585 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document falcon
+0.00036097027318848475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document falcon
+0.0003502734074110026 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document falcon
+0.00035801510806036273 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document falcon
+0.0003568006373479869 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document falcon
+0.00036128108717454636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document falcon
+0.0003563436883111686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document falcon
+0.00035559725321852463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document falcon
+0.00035089656006854944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document falcon
+0.000359453964362057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document falcon
+0.00035629498059104033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document falcon
+0.0003622207707090437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document falcon
+0.0003540946784512821 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document falcon
+0.0003594750565232011 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document falcon
+0.0003566007415086991 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document falcon
+0.0003562142599126134 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document falcon
+0.0003569948186744601 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document falcon
+0.00035166554847920186 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document falcon
+0.00035047994419295137 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document falcon
+0.0003561578193739437 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document falcon
+0.00035470866838811544 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document falcon
+0.00034216920464876335 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document falcon
+0.0003550021513075795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document falcon
+0.0003488045105938729 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document falcon
+0.0003513340720840151 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document falcon
+0.0003448558566387584 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document falcon
+0.0003460966026953241 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document falcon
+0.0003488157616036459 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document falcon
+0.0003446120387842362 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document falcon
+0.000351528602987427 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document falcon
+0.00035661118227454713 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document falcon
+0.0003551342699877457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document falcon
+0.0003478953397924445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document falcon
+0.00034625782458988215 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document falcon
+0.0003527515447405871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document falcon
+0.00034823744889805696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document falcon
+0.00034823314560254406 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document falcon
+0.00035162668292961944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document falcon
+0.0003477307716074623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document falcon
+0.0003446457989477787 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document falcon
+0.00034782916273767795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document falcon
+0.0003517249130302248 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document falcon
+0.0003449873430908556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document falcon
+0.00034841291749669877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document falcon
+0.0003466028498941749 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document falcon
+0.0003486436831199424 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document falcon
+0.0003478279234211838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document falcon
+0.0003495903653274374 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document falcon
+0.00034896893881218957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document falcon
+0.000348941645312426 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document falcon
+0.0003474221308416894 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document falcon
+0.0003462621543839385 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document falcon
+0.0003669373860863891 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document falcon
+0.00034691156268163006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document falcon
+0.0003527774103765281 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document falcon
+0.00034684565672734663 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document falcon
+0.0003454250599604457 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document falcon
+0.0003541536557159006 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document falcon
+0.000345735737037366 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document falcon
+0.0003524669816385214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document falcon
+0.0003441817133096468 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document falcon
+0.0003519093265859089 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document falcon
+0.00035080085480352095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document falcon
+0.00035285227929327434 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document falcon
+0.00034354836346901676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document falcon
+0.00034789770937373467 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document falcon
+0.000343665920520102 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document falcon
+0.0003490884931060568 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document falcon
+0.00034380029463398654 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document falcon
+0.00034874768005099945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document falcon
+0.0003457058510967673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document falcon
+0.00034644265227023904 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document falcon
+0.00035008339858594957 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document falcon
+0.0003462377193296194 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document falcon
+0.0003620491787114201 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document falcon
+0.000348717011044469 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document falcon
+0.00034370072363913706 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document falcon
+0.0003551981066775649 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document falcon
+0.0003500119496799342 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document falcon
+0.0003485082952669081 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document falcon
+0.0003508155580978919 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document falcon
+0.00035311375163251416 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document falcon
+0.00034945972003423253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document falcon
+0.0003474220353789879 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document falcon
+0.0003536443686585001 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document falcon
+0.0003560350489042953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document falcon
+0.0003493655927914396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document falcon
+0.0003528423977146383 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document falcon
+0.00035255554724471217 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document falcon
+0.0003479760010190111 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document falcon
+0.00035458598862501956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document falcon
+0.0003458990560538315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document falcon
+0.00035157946422379875 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document falcon
+0.00034736860650169996 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document falcon
+0.0003529152313394119 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document falcon
+0.00034586294329524465 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document falcon
+0.00035707214923794877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document falcon
+0.0003509580363496512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document falcon
+0.00035244176725524474 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document falcon
+0.0003467539557999047 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document falcon
+0.00034919687962275546 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document falcon
+0.00035094031731719953 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document falcon
+0.0003484309008351352 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document falcon
+0.0003485409424916253 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document falcon
+0.0003499590776117838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document falcon
+0.0003492842758957848 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document falcon
+0.0003529712275178912 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document falcon
+0.0003566141287087449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document falcon
+0.0003649496522047409 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document falcon
+0.0003563218912208234 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document falcon
+0.00035614782126966145 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document falcon
+0.0003531944298453266 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document falcon
+0.0003535950949566616 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document falcon
+0.0003544295554928795 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document falcon
+0.0003519908503740376 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document falcon
+0.00035752817626134463 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document falcon
+0.0003515322689589972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document falcon
+0.0003486893890307115 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document falcon
+0.0003446520464889867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document falcon
+0.0003509421562481707 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document falcon
+0.00035335015702909084 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document falcon
+0.0003490178167345008 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document falcon
+0.0003520497821155174 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document falcon
+0.0003549762618908944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document falcon
+0.00035072190850833103 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document falcon
+0.0003542458638526423 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document falcon
+0.000352419194572916 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document falcon
+0.0003545102564672614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document falcon
+0.0003495437992331806 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document falcon
+0.0003542843376993964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document falcon
+0.000352827529313958 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document falcon
+0.00035442506093223886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document falcon
+0.0003496970719044257 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document falcon
+0.0003553096424442362 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document falcon
+0.00034986845565067564 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document falcon
+0.000352131055186658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document falcon
+0.0003527021708198983 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document falcon
+0.00034905885414547214 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document falcon
+0.0003583433842468394 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document falcon
+0.00034409435202828383 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document falcon
+0.00034846410520871483 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document falcon
+0.0003554459991927314 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document falcon
+0.00035310507471843076 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document falcon
+0.000350028910786098 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document falcon
+0.00035049727458009896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document falcon
+0.0003519047735925826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document falcon
+0.0003513027429919726 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document falcon
+0.0003626947260354396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document falcon
+0.0003500087324849783 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document falcon
+0.0003618315726725285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document falcon
+0.0003535385113938023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document falcon
+0.0003487064058517615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document falcon
+0.0003618709124780938 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document falcon
+0.00035040070335625915 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document falcon
+0.0003506279032267829 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document falcon
+0.0003498435310527524 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document falcon
+0.0003554634749821431 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document falcon
+0.00035091209738758963 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document falcon
+0.00035034103678978573 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document falcon
+0.00035398931854386146 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document falcon
+0.00035495529304989485 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document falcon
+0.00036067883473356603 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document falcon
+
diff --git a/ALCF/data-lists/polaris/megawiki.txt b/ALCF/data-lists/polaris/megawiki.txt
new file mode 100644
index 00000000000..56ec7debc7e
--- /dev/null
+++ b/ALCF/data-lists/polaris/megawiki.txt
@@ -0,0 +1,262 @@
+6.322825248625475e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document megawika
+2.4432314037946264e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document megawika
+5.6313888721313454e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document megawika
+2.4208171781595055e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document megawika
+2.325811856369237e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document megawika
+2.4010790356322705e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document megawika
+5.36773610843632e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document megawika
+1.360574433501002e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document megawika
+1.3076540344853244e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document megawika
+1.3386534334886313e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document megawika
+1.2498103719605153e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document megawika
+1.403763836949682e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document megawika
+1.3636756723495417e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document megawika
+1.2242489446940814e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document megawika
+1.2398255818973339e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document megawika
+1.2972616994216281e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document megawika
+1.3947809855914134e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document megawika
+1.3144843787829514e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document megawika
+1.1693809976572487e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document megawika
+1.3677252682893802e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document megawika
+1.3940876719849597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document megawika
+1.4222245138730965e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document megawika
+1.3201677767919704e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document megawika
+1.1421717796486169e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document megawika
+1.2890514724498703e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document megawika
+1.3649507648749037e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document megawika
+1.2400732563490717e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document megawika
+1.1557681453277616e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document megawika
+1.2294483595964517e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document megawika
+1.2137484472122283e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document megawika
+1.3299663426456e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document megawika
+1.2461984216479532e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document megawika
+1.4666434217609636e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document megawika
+1.1876997894686238e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document megawika
+1.2939155338964078e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document megawika
+1.3859590039728515e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document megawika
+1.317917848615668e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document megawika
+1.1335281536110342e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document megawika
+1.2889923952861426e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document megawika
+1.3471671647053326e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document megawika
+1.2221720014475102e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document megawika
+1.2632647276287541e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document megawika
+1.28276219004076e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document megawika
+1.36213704321643e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document megawika
+1.2414858625261553e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document megawika
+1.3173700421883744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document megawika
+1.295597796725686e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document megawika
+1.242783936442904e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document megawika
+1.2417374088427464e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document megawika
+1.2134479405400744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document megawika
+1.3090040663304255e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document megawika
+1.2713470581614905e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document megawika
+5.5750231378906594e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document megawika
+5.777597358425469e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document megawika
+5.349786767471258e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document megawika
+5.675165050453583e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document megawika
+5.482611216158831e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document megawika
+5.065421899890121e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document megawika
+5.384718357480146e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document megawika
+4.872037363236061e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document megawika
+4.532709250783155e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document megawika
+5.7257963030489613e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document megawika
+4.9014365579652036e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document megawika
+5.722863552770969e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document megawika
+6.149911636146833e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document megawika
+5.2178057608273506e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document megawika
+4.990228161160431e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document megawika
+5.866186875255134e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document megawika
+5.004185734360719e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document megawika
+4.79401853705107e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document megawika
+5.435219965052376e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document megawika
+5.035997225792266e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document megawika
+5.622401774211625e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document megawika
+5.028826157387559e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document megawika
+5.596379470128795e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document megawika
+6.027824493191489e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document megawika
+5.5358270009931474e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document megawika
+5.9839051807685496e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document megawika
+5.1221077499249595e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document megawika
+5.517228560620279e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document megawika
+5.1687858285052305e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document megawika
+5.684188244145645e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document megawika
+5.212693275535878e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document megawika
+4.8551007022784084e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document megawika
+5.4888506639203145e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document megawika
+5.345098688527242e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document megawika
+4.8506420625516594e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document megawika
+5.132168603397676e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document megawika
+5.719476795114223e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document megawika
+5.7448621149792696e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document megawika
+4.9068410568059265e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document megawika
+5.382937299647678e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document megawika
+4.8288432136304634e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document megawika
+5.841703200305416e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document megawika
+5.1589611587885584e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document megawika
+6.031113829732574e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document megawika
+5.4558202844532094e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document megawika
+5.341852317196142e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document megawika
+5.1402942738369954e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document megawika
+5.735421384377395e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document megawika
+5.473629863586958e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document megawika
+5.4708993245733936e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document megawika
+4.931161863634078e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document megawika
+5.104173022127248e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document megawika
+5.510157161510824e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document megawika
+5.652501401782597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document megawika
+5.7273656573031666e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document megawika
+5.638363224821738e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document megawika
+5.6128115396668704e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document megawika
+5.00304877998141e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document megawika
+5.596120554779096e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document megawika
+5.5280923889040006e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document megawika
+5.223477917938408e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document megawika
+5.29472809986569e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document megawika
+2.205682378243213e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document megawika
+1.4367563720603185e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document megawika
+3.5506193487931076e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document megawika
+3.0442910855821778e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document megawika
+2.2540042508019627e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document megawika
+2.6880163202623216e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document megawika
+2.534473148048727e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document megawika
+2.6560945431318916e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document megawika
+2.547470248967691e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document megawika
+2.5248825388073738e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document megawika
+2.5828729575000054e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document megawika
+2.4026583817957736e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document megawika
+2.3930425429834413e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document megawika
+2.5037365362599724e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document megawika
+2.6696745470595603e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document megawika
+2.140323051341762e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document megawika
+2.617354786691592e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document megawika
+1.538359101762691e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document megawika
+1.2871029252377856e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document megawika
+2.255195411289217e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document megawika
+2.4832313897952067e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document megawika
+9.303873918189968e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document megawika
+2.179532302620228e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document megawika
+1.9750517506901206e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document megawika
+2.7740420380648435e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document megawika
+2.7813714782319335e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document megawika
+4.1595357937609806e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document megawika
+2.741365122389175e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document megawika
+2.117451071361901e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document megawika
+1.7132649760565998e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document megawika
+1.7492547092602047e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document megawika
+1.7499951097392276e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document megawika
+1.6632444789170958e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document megawika
+1.6678802252361607e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document megawika
+1.5519208704558896e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document megawika
+1.652420992967167e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document megawika
+1.6119931034508755e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document megawika
+1.6638882076736552e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document megawika
+1.7198076782652946e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document megawika
+1.572927860565175e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document megawika
+1.5194822618169918e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document megawika
+1.6677776832669846e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document megawika
+1.595612492245688e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document megawika
+1.682350633181197e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document megawika
+1.663983380609724e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document megawika
+1.710187842689243e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document megawika
+1.5733697527539038e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document megawika
+1.6972104757911438e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document megawika
+1.6610142847616577e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document megawika
+1.61094882403031e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document megawika
+1.4789207305138325e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document megawika
+1.639299617676302e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document megawika
+1.3241204512116132e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document megawika
+8.582260726625535e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document megawika
+8.213000975576739e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document megawika
+9.549247732811947e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document megawika
+9.17242785339013e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document megawika
+7.632868223725218e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document megawika
+8.674401118222175e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document megawika
+9.124384255505347e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document megawika
+8.344222222417358e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document megawika
+8.992299957499065e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document megawika
+8.76689497361025e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document megawika
+7.973396239586015e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document megawika
+9.006935606644125e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document megawika
+8.725545954955498e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document megawika
+1.215449694669174e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document megawika
+3.3041720284158646e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document megawika
+2.0593512412624502e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document megawika
+1.893608946986248e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document megawika
+1.737111666788535e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document megawika
+1.4915923449873955e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document megawika
+2.289370239067605e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document megawika
+2.8615335689614638e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document megawika
+8.847283630883125e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document megawika
+1.8175470362373804e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document megawika
+1.8152226683368038e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document megawika
+1.789149655314284e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document megawika
+1.7690523036477663e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document megawika
+1.8333732213753644e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document megawika
+1.8794105687718654e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document megawika
+1.721841156706417e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document megawika
+2.0612008685724796e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document megawika
+1.9297370681336376e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document megawika
+2.0188440409661018e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document megawika
+5.1741216329695265e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document megawika
+1.3417913926038429e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document megawika
+1.1010813016469651e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document megawika
+1.1252416134320087e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document megawika
+1.2801744104313002e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document megawika
+1.3041514955795817e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document megawika
+1.3428837580879075e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document megawika
+1.320809382267804e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document megawika
+1.3451566676555968e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document megawika
+1.228284926657501e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document megawika
+1.2410599573923043e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document megawika
+1.3815343367377182e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document megawika
+1.3895126265148832e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document megawika
+1.2306773644401741e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document megawika
+1.32981021906281e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document megawika
+1.101337469221607e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document megawika
+1.513094184404692e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document megawika
+1.1073759547073234e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document megawika
+1.2879348765857567e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document megawika
+9.619595770228435e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document megawika
+1.2384340836286436e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document megawika
+1.1766667232211577e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document megawika
+1.2871049236196452e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document megawika
+1.2010645926497744e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document megawika
+1.3971428231518597e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document megawika
+1.2283733550547932e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document megawika
+1.2659530508255308e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document megawika
+1.551775613074462e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document megawika
+1.1169413343776979e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document megawika
+1.1433700593712463e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document megawika
+4.964773647323492e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document megawika
+1.0995586595687313e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document megawika
+1.2957393071411267e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document megawika
+2.75899247407709e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document megawika
+2.8269344597344854e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document megawika
+2.329108187246831e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document megawika
+2.4231761430460284e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document megawika
+1.2434140512230442e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document megawika
+1.638718338352859e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document megawika
+3.272953556801187e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document megawika
+6.061314500486327e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document megawika
+1.2465979731210292e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document megawika
+1.2737557327967737e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document megawika
+1.038428658075627e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document megawika
+2.61666472045566e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document megawika
+3.6506873212272224e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document megawika
+1.5066359138295701e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document megawika
+1.1166290872121178e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document megawika
+1.5546966228590285e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document megawika
+1.2583434625014828e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document megawika
+1.3398826881300862e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document megawika
+1.2944933160515968e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document megawika
+1.0971437399901365e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document megawika
+1.2787922795775774e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document megawika
+1.404979227816985e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document megawika
+1.3344734431324463e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document megawika
+4.886031157107555e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document megawika
+3.277261443596394e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document megawika
+3.5057957685786495e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document megawika
+3.287625301718589e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document megawika
+3.1370056372668855e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document megawika
+3.186092015785841e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document megawika
+7.271819324142512e-06 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document megawika
diff --git a/ALCF/data-lists/polaris/open-web-math-train.txt b/ALCF/data-lists/polaris/open-web-math-train.txt
new file mode 100644
index 00000000000..6d86bd35a46
--- /dev/null
+++ b/ALCF/data-lists/polaris/open-web-math-train.txt
@@ -0,0 +1,13 @@
+0.001451215788905126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document open-web-math-train
+0.0014486847196258788 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document open-web-math-train
+0.0008861032722895899 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document open-web-math-train
+0.0018119590809459816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document open-web-math-train
+0.0008916937917547129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document open-web-math-train
+6.960128832809415e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document open-web-math-train
+0.002008403651063623 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document open-web-math-train
+0.0014374900742131454 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document open-web-math-train
+0.00180213596996716 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document open-web-math-train
+0.001956178877532413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document open-web-math-train
+0.0008829547017667033 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document open-web-math-train
+0.0008910853619157279 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document open-web-math-train
+0.0018260998845299973 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document open-web-math-train
diff --git a/ALCF/data-lists/polaris/pes2o.txt b/ALCF/data-lists/polaris/pes2o.txt
new file mode 100644
index 00000000000..47a7eb3ffd9
--- /dev/null
+++ b/ALCF/data-lists/polaris/pes2o.txt
@@ -0,0 +1,26 @@
+0.0012499632072059553 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document pes2o
+0.00125398260359913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document pes2o
+0.0012541704774729071 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document pes2o
+0.0012527268234360602 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document pes2o
+0.0012532925243737164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document pes2o
+0.0012456396241204315 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document pes2o
+0.0012589894424352072 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document pes2o
+0.001508020123999618 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document pes2o
+0.00333096950781965 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document pes2o
+0.0033233414614415547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document pes2o
+0.003512387990689828 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document pes2o
+0.0035091382940513126 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document pes2o
+0.003514155927147005 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document pes2o
+0.003327108000579638 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document pes2o
+0.003329106196589836 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document pes2o
+0.003505604148738077 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document pes2o
+0.003324825759567855 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document pes2o
+0.0033248240149804913 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document pes2o
+0.0033385962112851358 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document pes2o
+0.0035043186296553615 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document pes2o
+0.003340469505431529 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document pes2o
+0.0035106889084796276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document pes2o
+0.0033309469281030167 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document pes2o
+0.003340337858029757 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document pes2o
+0.003505919861097801 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document pes2o
+0.0003882924098240512 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document pes2o
diff --git a/ALCF/data-lists/polaris/reddit.txt b/ALCF/data-lists/polaris/reddit.txt
new file mode 100644
index 00000000000..ef79bbc7c82
--- /dev/null
+++ b/ALCF/data-lists/polaris/reddit.txt
@@ -0,0 +1,78 @@
+0.0005759963691850877 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document reddit
+0.0005959971675332674 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document reddit
+0.0006026179290353799 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document reddit
+0.0005824184320784846 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document reddit
+0.0005854598548616037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document reddit
+0.0005903767055633473 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document reddit
+0.0005930306490982049 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document reddit
+0.000569425602700746 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document reddit
+0.0005675060415179408 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document reddit
+0.0005772431621253389 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document reddit
+0.0005678026053826858 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document reddit
+0.0005700398263483378 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document reddit
+0.0005669467963528824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document reddit
+0.0005701015953324305 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document reddit
+0.0005795907287413296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document reddit
+0.0005735602737531164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document reddit
+0.0005749862745842101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document reddit
+0.0005693257015931971 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document reddit
+0.0005716568794795563 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document reddit
+0.0005761083919774021 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document reddit
+0.0005688343169797355 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document reddit
+0.0005807913190929842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document reddit
+0.0005710229258078636 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document reddit
+0.0005704083039826862 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document reddit
+0.0005862132348308056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document reddit
+0.0005717662049559556 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document reddit
+0.0005858155213694451 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document reddit
+0.0005812012281792392 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document reddit
+0.0005803981414588498 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document reddit
+0.0005700102108287723 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document reddit
+0.0005719243459052329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document reddit
+0.0005867253401661752 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document reddit
+0.0005731087218860733 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document reddit
+0.0005712197789109317 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document reddit
+0.0005702376926310089 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document reddit
+0.0005700411527742972 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document reddit
+0.0005828090098178196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document reddit
+0.0005770140826168056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document reddit
+0.0005723509664597896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document reddit
+0.0005755499231836962 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document reddit
+0.0005636407438471367 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document reddit
+0.0005640281556500104 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document reddit
+0.0005633159058766496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document reddit
+0.0005638034311151449 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document reddit
+0.0005630066273073224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document reddit
+0.0005631803831128559 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document reddit
+0.0005631228881679657 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document reddit
+0.0005628178701487633 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document reddit
+0.0005624448092256196 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document reddit
+0.0005620957024062329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document reddit
+0.0005614201504177484 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document reddit
+0.0005616890951464056 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document reddit
+0.0005611348559279058 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document reddit
+0.0005604238061828518 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document reddit
+0.0005603301490194237 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document reddit
+0.0005607291294548833 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document reddit
+0.0005605234569930727 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document reddit
+0.0005613778566640694 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document reddit
+0.0005610248539992471 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document reddit
+0.0005599977416780475 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document reddit
+0.0005603632562116935 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document reddit
+0.0005599177479509897 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document reddit
+0.0005595202318298379 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document reddit
+0.0005600975633499175 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document reddit
+0.0005614075491213365 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document reddit
+0.000612563885043477 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document reddit
+0.0005515469909644413 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document reddit
+0.0005526782014946906 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document reddit
+0.0005472463408095445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document reddit
+0.0005502284746004587 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document reddit
+0.0005414514790555363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document reddit
+0.0005513499500134784 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document reddit
+0.0005391391454105187 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document reddit
+0.0005415836910001838 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document reddit
+0.0005208132468536551 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document reddit
+0.0005889827143132871 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document reddit
+0.0005822520817765276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document reddit
+0.0004173155230758696 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document reddit
diff --git a/ALCF/data-lists/polaris/stack.txt b/ALCF/data-lists/polaris/stack.txt
new file mode 100644
index 00000000000..a81e55f94a7
--- /dev/null
+++ b/ALCF/data-lists/polaris/stack.txt
@@ -0,0 +1,26 @@
+0.0009994361338078242 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document stackexchange
+0.001087156194657966 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document stackexchange
+0.0010667737163656816 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document stackexchange
+0.0009602877882124873 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document stackexchange
+0.0008968956271971105 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document stackexchange
+0.0009198034843762967 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document stackexchange
+0.0009423901016715341 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document stackexchange
+0.0009674094553686345 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document stackexchange
+0.0009858331322519164 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document stackexchange
+0.0009970593645879198 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document stackexchange
+0.0010027035193731686 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document stackexchange
+0.0010128291154221853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document stackexchange
+0.0010215631382631918 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document stackexchange
+0.0010288663771461238 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document stackexchange
+0.0010346219929285867 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document stackexchange
+0.00104544019940344 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document stackexchange
+0.0010525172676724333 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document stackexchange
+0.0010609529620775127 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document stackexchange
+0.0010725892748610153 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document stackexchange
+0.0010818563598181568 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document stackexchange
+0.0010992760196793917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document stackexchange
+0.0011178992762079917 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document stackexchange
+0.001124687532085676 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document stackexchange
+0.001118303661267191 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document stackexchange
+0.0010206825575416534 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document stackexchange
+0.0005512280117499715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document stackexchange
diff --git a/ALCF/data-lists/polaris/starcoder.txt b/ALCF/data-lists/polaris/starcoder.txt
new file mode 100644
index 00000000000..5c28dd55b6f
--- /dev/null
+++ b/ALCF/data-lists/polaris/starcoder.txt
@@ -0,0 +1,50 @@
+0.004474659408857016 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document starcoder
+0.00409944473890653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document starcoder
+0.005137179939941845 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document starcoder
+0.005143172251066109 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document starcoder
+0.005206134363352808 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document starcoder
+0.004892747858974329 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document starcoder
+0.004844731352552902 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document starcoder
+0.005308320169123755 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document starcoder
+0.005124709815666577 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document starcoder
+0.005424710744483826 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document starcoder
+0.00538244648861977 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document starcoder
+0.0029107284679086853 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document starcoder
+0.0026825258998444705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document starcoder
+0.0026904503191419243 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document starcoder
+0.002687906577174073 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document starcoder
+0.002850165346048818 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document starcoder
+0.005322698571717847 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document starcoder
+0.004450334290869719 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document starcoder
+0.004700990083440683 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document starcoder
+0.003903568556500995 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document starcoder
+0.00390561515396931 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document starcoder
+0.0039046402900912262 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document starcoder
+0.003907454839379547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document starcoder
+0.0038583224578603824 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document starcoder
+0.0037914116657695 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document starcoder
+0.003786665266798682 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document starcoder
+0.003792000802430658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document starcoder
+0.00319266847466091 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document starcoder
+0.0032658716699838944 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document starcoder
+0.0034801959532460023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document starcoder
+0.0028307012092022594 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document starcoder
+0.0028420360878146276 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document starcoder
+0.0028410455248484914 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document starcoder
+0.00283497183526842 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document starcoder
+0.002840187195459487 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document starcoder
+0.0028398709431369834 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document starcoder
+0.004364722843422023 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document starcoder
+0.004093255713117101 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document starcoder
+0.004092331079566252 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document starcoder
+0.004005326985579649 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document starcoder
+0.0036205502856964207 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document starcoder
+0.003625316793034984 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document starcoder
+0.003604743435602363 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document starcoder
+0.0035405823343673125 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document starcoder
+0.0041601413517253945 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document starcoder
+0.005886303658937057 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document starcoder
+0.003600909532810332 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document starcoder
+0.0034941365817168658 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document starcoder
+0.0004992164842980224 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document starcoder
+
diff --git a/ALCF/data-lists/polaris/tulu.txt b/ALCF/data-lists/polaris/tulu.txt
new file mode 100644
index 00000000000..e7a681d6600
--- /dev/null
+++ b/ALCF/data-lists/polaris/tulu.txt
@@ -0,0 +1,66 @@
+0.00032927705604725614 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document tulu
+0.0002860154190878753 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document tulu
+0.0002845217585425619 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document tulu
+0.0002743528685497456 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document tulu
+0.00026025323737738766 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document tulu
+0.00023493876414603155 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document tulu
+0.00029665994994226705 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document tulu
+0.00031808102075993956 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document tulu
+0.00031813573046011285 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document tulu
+0.0002711905171855542 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document tulu
+0.00028892513401817095 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document tulu
+0.00030003908676979083 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document tulu
+0.00026839878771944684 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document tulu
+0.00029155935002690497 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document tulu
+0.0002998624927624209 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document tulu
+0.0003091705447974841 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document tulu
+0.00026873195794309786 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document tulu
+0.00027721873498527547 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document tulu
+0.0002841662554024377 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document tulu
+0.0002839461156551537 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document tulu
+0.0002861705604659811 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document tulu
+0.0002460995649635886 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document tulu
+0.00019420142619795496 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document tulu
+0.00021967677816173628 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document tulu
+0.0002620283200480949 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document tulu
+0.0002433390542188936 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document tulu
+0.00021254976608350767 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document tulu
+0.00022094815569522115 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document tulu
+0.000342862378668244 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document tulu
+0.00033784225259118157 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document tulu
+0.0003367278459543952 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document tulu
+0.00029843279042852765 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document tulu
+0.0002926583661257988 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document tulu
+0.00029320337282010673 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document tulu
+0.00029281450669483455 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document tulu
+0.0002915338187002653 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document tulu
+0.0002864226923084572 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document tulu
+0.00028643439083586396 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document tulu
+0.00028253710956299054 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document tulu
+0.0002810856078805806 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document tulu
+0.00031474941344656715 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document tulu
+0.0002139130222205655 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document tulu
+0.0003084648871862831 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document tulu
+0.0003309477872140129 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document tulu
+0.0003360096824695161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document tulu
+0.0003355452655196557 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document tulu
+0.00038119390366386037 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document tulu
+0.00038078927630086064 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document tulu
+0.0003386200917551554 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document tulu
+0.0002158905159938882 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document tulu
+0.00021621682877018768 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document tulu
+0.00021553306942740535 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document tulu
+0.00021581563462722296 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document tulu
+0.0002157694110556169 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document tulu
+0.000215643699847159 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document tulu
+0.00021532716715168094 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document tulu
+0.00021531221326022472 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document tulu
+0.0002831801179028896 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document tulu
+0.0002514844936507595 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document tulu
+0.00031638782778107964 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document tulu
+0.0002749197545278445 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document tulu
+0.00026159721512464495 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document tulu
+0.0002630052420096968 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document tulu
+0.00031106811228913666 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document tulu
+0.0002852973415334161 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document tulu
+3.7555372465932136e-05 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document tulu
diff --git a/ALCF/data-lists/polaris/wiki.txt b/ALCF/data-lists/polaris/wiki.txt
new file mode 100644
index 00000000000..55ba7680ad0
--- /dev/null
+++ b/ALCF/data-lists/polaris/wiki.txt
@@ -0,0 +1,2 @@
+0.003548077173506675 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document wiki
+0.0018372203137874265 /eagle/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document wiki
diff --git a/ALCF/data-lists/sirius/books.txt b/ALCF/data-lists/sirius/books.txt
new file mode 100644
index 00000000000..7567ba52279
--- /dev/null
+++ b/ALCF/data-lists/sirius/books.txt
@@ -0,0 +1,3 @@
+0.006 /lus/tegu/projects/PolarisAT/foremans/projects/argonne-lcf/Megatron-DeepSpeed/data/books-0000_text_document
+0.006 /lus/tegu/projects/PolarisAT/foremans/projects/argonne-lcf/Megatron-DeepSpeed/data/books-0001_text_document
+0.006 /lus/tegu/projects/PolarisAT/foremans/projects/argonne-lcf/Megatron-DeepSpeed/data/books-0002_text_document
diff --git a/ALCF/data-lists/sunspot/algebraic.txt b/ALCF/data-lists/sunspot/algebraic.txt
new file mode 100644
index 00000000000..f72bf47d742
--- /dev/null
+++ b/ALCF/data-lists/sunspot/algebraic.txt
@@ -0,0 +1,16 @@
+0.0018520780893211373 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document algebraic-stack-train
+0.0017591050606817512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document algebraic-stack-train
+0.001459052794333798 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document algebraic-stack-train
+0.0007405667281569194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document algebraic-stack-train
+0.00019420030110896795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document algebraic-stack-train
+0.0009008668715801845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document algebraic-stack-train
+0.00015115827957143057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document algebraic-stack-train
+0.0014552844319220648 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document algebraic-stack-train
+0.0012469861325685161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document algebraic-stack-train
+0.00136412011372413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document algebraic-stack-train
+0.0007064279699221103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document algebraic-stack-train
+0.0008472240000687427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document algebraic-stack-train
+0.0001984375713341955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document algebraic-stack-train
+0.0005472773881697123 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document algebraic-stack-train
+0.001815779629850992 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document algebraic-stack-train
+0.0018313600689757324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document algebraic-stack-train
diff --git a/ALCF/data-lists/sunspot/arxiv.txt b/ALCF/data-lists/sunspot/arxiv.txt
new file mode 100644
index 00000000000..34972accf4a
--- /dev/null
+++ b/ALCF/data-lists/sunspot/arxiv.txt
@@ -0,0 +1,100 @@
+0.0002583902668716813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document arxiv
+0.0002646575141232155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document arxiv
+0.0003165521247456758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document arxiv
+0.0002920706460176214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document arxiv
+0.00028396813182810215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document arxiv
+0.00030445161883108107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document arxiv
+0.00031628781276576474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document arxiv
+0.0003083776568189157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document arxiv
+0.0003176359471472902 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document arxiv
+0.0002536009369131698 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document arxiv
+0.0003067491424681363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document arxiv
+0.0002597217257557784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document arxiv
+0.0003788556450109768 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document arxiv
+0.0002796563272052598 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document arxiv
+0.00033573826524290287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document arxiv
+0.00030523658022800287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document arxiv
+0.00032211552192240096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document arxiv
+0.0003329295675164247 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document arxiv
+0.0003101982186639862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document arxiv
+0.00032361798234223355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document arxiv
+0.0003495541581652915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document arxiv
+0.0002821637448858042 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document arxiv
+0.00030399523537629673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document arxiv
+0.0002955658968247219 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document arxiv
+0.00028942158502924254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document arxiv
+0.00028769546171490733 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document arxiv
+0.0002938111057234182 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document arxiv
+0.0002711150403010948 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document arxiv
+0.00031130095874747565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document arxiv
+0.0003002996118160777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document arxiv
+0.0003732757901604459 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document arxiv
+0.00026784205751795894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document arxiv
+0.0002799626521661984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document arxiv
+0.00034334276069078164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document arxiv
+0.0003582469803674965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document arxiv
+0.00031094844818418623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document arxiv
+0.0002766228384977191 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document arxiv
+0.00030297116159471485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document arxiv
+0.00027033888377464685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document arxiv
+0.00030090862368377933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document arxiv
+0.00028543875802490955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document arxiv
+0.00027559768459074204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document arxiv
+0.0003182185533962886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document arxiv
+0.0003311392971435837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document arxiv
+0.00028751652060804325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document arxiv
+0.000303466863212589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document arxiv
+0.00033400462801277524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document arxiv
+0.0002589234031777426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document arxiv
+0.0002913508598466723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document arxiv
+0.0002670572450004856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document arxiv
+0.00032027399105647656 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document arxiv
+0.00032188376258379377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document arxiv
+0.0003161585784100882 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document arxiv
+0.0003184249182974135 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document arxiv
+0.00030381336664000807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document arxiv
+0.0003190437442184283 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document arxiv
+0.0002537961798200545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document arxiv
+0.0003017817117223326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document arxiv
+0.00028685268513240224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document arxiv
+0.00031265179094451165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document arxiv
+0.00034708319096986816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document arxiv
+0.00026650837943080664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document arxiv
+0.00034588832248507335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document arxiv
+0.0002416982248399037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document arxiv
+0.0003089296918222243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document arxiv
+0.00029137184185700827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document arxiv
+0.00026464226846800774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document arxiv
+0.00030545397919456627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document arxiv
+0.0003206778460448875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document arxiv
+0.00030968971641110967 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document arxiv
+0.00023325653928600864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document arxiv
+0.00030526899198338555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document arxiv
+0.00035376719076633584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document arxiv
+0.000290224385981026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document arxiv
+0.000294650083382008 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document arxiv
+0.00028768858128616436 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document arxiv
+0.00030856965235527843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document arxiv
+0.00030579942447879054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document arxiv
+0.0002863101084704357 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document arxiv
+0.0002870032092492213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document arxiv
+0.000264182727569885 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document arxiv
+0.0002974012367036449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document arxiv
+0.00032238412143059203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document arxiv
+0.00031683716893819036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document arxiv
+0.00031157434937617524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document arxiv
+0.0003411742735695989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document arxiv
+0.00026778444816570715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document arxiv
+0.0003037045797275201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document arxiv
+0.00027746114370081314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document arxiv
+0.00027148285946862043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document arxiv
+0.00028042950114678207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document arxiv
+0.0003235607816590721 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document arxiv
+0.0003086692227306295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document arxiv
+0.00033990349455148105 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document arxiv
+0.00030945053208470265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document arxiv
+0.00027309074552265303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document arxiv
+0.00028737393506316194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document arxiv
+0.0003098868328009879 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document arxiv
+0.0002614229162588409 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document arxiv
+0.0002884388407820923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document arxiv
diff --git a/ALCF/data-lists/sunspot/books.txt b/ALCF/data-lists/sunspot/books.txt
new file mode 100644
index 00000000000..a97584853a1
--- /dev/null
+++ b/ALCF/data-lists/sunspot/books.txt
@@ -0,0 +1,5 @@
+0.0031025147279277244 /tegu/datascience/foremans/books-dataset/books-0000_text_document books
+0.003102019887362634 /tegu/datascience/foremans/books-dataset/books-0001_text_document books
+0.0009996745994661548 /tegu/datascience/foremans/books-dataset/books-0002_text_document books
+
+
diff --git a/ALCF/data-lists/sunspot/c4.txt b/ALCF/data-lists/sunspot/c4.txt
new file mode 100644
index 00000000000..ca4836ad814
--- /dev/null
+++ b/ALCF/data-lists/sunspot/c4.txt
@@ -0,0 +1,171 @@
+0.0002406272620255565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document c4
+0.0002404825539493424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document c4
+0.00024062296575435581 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document c4
+0.00024069315766818953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document c4
+0.00024055829162263452 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document c4
+0.00024062053397343032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document c4
+0.0002410715545206964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document c4
+0.00024024881846087368 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document c4
+0.0002407074700790688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document c4
+0.00024072141428809043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document c4
+0.00024027710230872736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document c4
+0.0002409111299205489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document c4
+0.00024081954058275009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document c4
+0.00024086076794990912 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document c4
+0.00024098672620832446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document c4
+0.00024068622303333862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document c4
+0.00024140627024291824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document c4
+0.0002414512033594384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document c4
+0.00024028742594941463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document c4
+0.00024018036089269645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document c4
+0.0002398347365034979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document c4
+0.00024006780153485276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document c4
+0.00024015620270419213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document c4
+0.0002408848259695227 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document c4
+0.0002408023185278831 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document c4
+0.00024021196580140326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document c4
+0.00024077677271297493 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document c4
+0.00024087392454668027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document c4
+0.0002408071293824126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document c4
+0.00024042223828845715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document c4
+0.0002411484752360495 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document c4
+0.00023605263746465907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document c4
+0.00023471222158326908 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document c4
+0.00023432138580287644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document c4
+0.00023407385623382327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document c4
+0.00023487504174367091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document c4
+0.0002341843704976313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document c4
+0.00023421993170282486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document c4
+0.00023445057969132037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document c4
+0.0002337681680073047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document c4
+0.000234627964808109 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document c4
+0.0002338942211888584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document c4
+0.00023403849286843386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document c4
+0.00023405641310796305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document c4
+0.00023349169562397965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document c4
+0.00023381157386048856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document c4
+0.00023388742993790587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document c4
+0.00023363103829469813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document c4
+0.00023421141834630477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document c4
+0.00023420564352232565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document c4
+0.00023367463699173143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document c4
+0.00023344969163567033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document c4
+0.00023372196941547188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document c4
+0.00023399207645297834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document c4
+0.00023357915605505856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document c4
+0.00023337585642190864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document c4
+0.00023385005470157914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document c4
+0.00023301533534493465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document c4
+0.00023377864302541782 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document c4
+0.00023323745848621437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document c4
+0.0002330594611151835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document c4
+0.0002334149675026783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document c4
+0.00023198945902291534 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document c4
+0.00023023784834634142 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document c4
+0.00022985623060187217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document c4
+0.0002292605284569516 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document c4
+0.00022926593333048894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document c4
+0.00022922766406807777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document c4
+0.00022898153911167426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document c4
+0.0002292473111593315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document c4
+0.000228804579400424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document c4
+0.00022865485613513526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document c4
+0.00022937426835887895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document c4
+0.00022917388311587372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document c4
+0.0002291660582019043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document c4
+0.00022907895248360543 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document c4
+0.0002294617879920205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document c4
+0.0002290452150516566 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document c4
+0.00022943405619715553 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document c4
+0.0002296271421006204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document c4
+0.00022854791372910372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document c4
+0.00022923123467686557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document c4
+0.00022852404355738494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document c4
+0.00022847798660086642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document c4
+0.0002289604586810316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document c4
+0.00022835479834950643 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document c4
+0.0002289149402884243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document c4
+0.00022806655474763446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document c4
+0.00022826296420992974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document c4
+0.00022906829636213627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document c4
+0.0002287628414466998 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document c4
+0.0002282673911253445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document c4
+0.00022869309841939134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document c4
+0.0002281540116815451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document c4
+0.0002259755756162738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document c4
+0.00022562331285233504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document c4
+0.0002259061146106053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document c4
+0.00022567670836663787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document c4
+0.00022573165387587061 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document c4
+0.00022508514961670572 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document c4
+0.00022564642513773356 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document c4
+0.00022563088621998788 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document c4
+0.0002250438755373707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document c4
+0.00022524465346241134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document c4
+0.00022531737657666812 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document c4
+0.00022444687519363458 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document c4
+0.00022460397498596298 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document c4
+0.00022454218976501763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document c4
+0.00022447528843671366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document c4
+0.00022501666332178926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document c4
+0.00022453752304377972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document c4
+0.00022484451871163002 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document c4
+0.00022465678847154914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document c4
+0.00022453180917044732 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document c4
+0.0002247278486823009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document c4
+0.00022465794828242097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document c4
+0.00022431000701925386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document c4
+0.00022476020248460963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document c4
+0.00022467531771795015 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document c4
+0.0002236391309945234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document c4
+0.00022458764920536007 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document c4
+0.00022430877426744415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document c4
+0.0002247047786127192 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document c4
+0.0002245298090400035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document c4
+0.0002245648831396188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document c4
+0.00022292894729820784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document c4
+0.00022236668082957533 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document c4
+0.0002217622659895442 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document c4
+0.00022252452726732609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document c4
+0.00022135333211363678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document c4
+0.0002214571757787971 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document c4
+0.0002217188139237798 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document c4
+0.00022144214894640303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document c4
+0.00022100172806631854 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document c4
+0.00022156392409199052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document c4
+0.00022134830143710272 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document c4
+0.00022158598922529453 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document c4
+0.00022142932483041377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document c4
+0.00022120980907786554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document c4
+0.00022117917738112441 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document c4
+0.00022077089397851235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document c4
+0.00022093265074996711 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document c4
+0.00022091299741377004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document c4
+0.0002205849150703338 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document c4
+0.0002210648204787979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document c4
+0.0002214235747364102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document c4
+0.00022083907302221787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document c4
+0.0002206334237915964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document c4
+0.00022065193929912214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document c4
+0.00022079775597767288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document c4
+0.00022091492909963518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document c4
+0.00022095009987097293 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document c4
+0.0002208150577180165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document c4
+0.00022085759102772088 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document c4
+0.00022073789170129016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document c4
+0.00022049322781182384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document c4
+0.00022083270617761285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document c4
+0.00021982452827473632 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document c4
+0.00021899870446514259 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document c4
+0.00021890358773356361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document c4
+0.00021875556609042841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document c4
+0.00021861195987201226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document c4
+0.00021856782186167455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document c4
+0.00021912837771543515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document c4
+0.00021900213768517756 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document c4
+0.00021871675851390374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document c4
+0.0002180537056545586 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document c4
+0.0002188196714327129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document c4
+0.00021851362624523464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document c4
+0.0002183236795498736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document c4
+7.291153618675672e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document c4
diff --git a/ALCF/data-lists/sunspot/cc.txt b/ALCF/data-lists/sunspot/cc.txt
new file mode 100644
index 00000000000..d771efb06ad
--- /dev/null
+++ b/ALCF/data-lists/sunspot/cc.txt
@@ -0,0 +1,1108 @@
+0.0003742481815405742 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document cc
+0.00038204855962733055 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document cc
+0.00038821818392663593 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document cc
+0.00038723332988783727 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document cc
+0.00038916141142149904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document cc
+0.00038049542523949033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document cc
+0.0003854755539534284 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document cc
+0.00024202756466512517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document cc
+0.0003915405155008087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document cc
+0.0003927382151931033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document cc
+0.0003839151202260479 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document cc
+0.00040006817468967907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document cc
+0.00040318965964443476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document cc
+0.0003831013019452741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document cc
+0.00039166638383204036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document cc
+0.00039962784023961004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document cc
+0.00039536707853602614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document cc
+0.0004204304698247758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document cc
+0.00041538899178693555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document cc
+0.00039186953333675306 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document cc
+0.00038945837196504305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document cc
+0.0003919951238929062 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document cc
+0.00044377065718528966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document cc
+0.0004407759068603017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document cc
+0.0002487811895843715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document cc
+0.00039349432045556636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document cc
+0.00041223198559462343 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document cc
+0.0004036573014830213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document cc
+0.0003825982215521807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document cc
+0.00040386867133151386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document cc
+0.00024460575279105167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document cc
+0.000269029789531335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document cc
+0.0003573757493252864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document cc
+0.0004600876681392076 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document cc
+0.0002605354166397086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document cc
+0.0003882502452157999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document cc
+0.0002466747612126512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document cc
+0.0004024726105072402 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document cc
+0.00040820631128483644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document cc
+0.0002691094350403538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document cc
+0.00026916830387277267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document cc
+0.0004204663297880574 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document cc
+0.00042379698687085554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document cc
+0.0004502169227311871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document cc
+0.0002661708937015295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document cc
+0.00031239486948031334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document cc
+0.0003109054589936201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document cc
+0.00045873053079760646 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document cc
+0.00022904931423244635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document cc
+0.0003813462028433663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document cc
+0.00039188129256500874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document cc
+0.00045124222276983765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document cc
+0.00048138658436853695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document cc
+0.0003944178776279866 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document cc
+0.00039941569676754006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document cc
+0.00037952761190240494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document cc
+0.0003944870860881476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document cc
+0.0003891842411856621 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document cc
+0.000387688981934861 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document cc
+0.00039197953876258005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document cc
+0.00039007915280311206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document cc
+0.0003995520363699188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document cc
+0.00039230985654592406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document cc
+0.0003929472067173851 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document cc
+0.0003924096172671473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document cc
+0.0003881636143629905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document cc
+0.000389790617937084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document cc
+0.00037351762309221023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document cc
+0.0003630196170929407 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document cc
+0.00033532465765142113 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document cc
+0.0003076088685761823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document cc
+0.00039463850897720803 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document cc
+0.0002843816115231449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document cc
+0.0002909175709416474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document cc
+0.00028867170997202486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document cc
+0.0002838644617723659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document cc
+0.00029027869525543416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document cc
+0.0002821339567560056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document cc
+0.0002922988877045601 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document cc
+0.0002866955958315786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document cc
+0.0002865271754558126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document cc
+0.0002861247475618473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document cc
+0.0002826681072408606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document cc
+0.0002849746458282827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document cc
+0.0002816966633435316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document cc
+0.00026255342235948463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document cc
+0.0002552895098829678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document cc
+0.00025990194083107813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document cc
+0.0002524062657685835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document cc
+0.0002538577379748611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document cc
+0.0002561415177406761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document cc
+0.00026206253059694905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document cc
+0.00026168095406910565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document cc
+0.0002601305742008613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document cc
+0.00025200823006814814 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document cc
+0.0003229951981263502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document cc
+0.00037289448266476045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document cc
+0.0003807825862179898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document cc
+0.0003616333738191483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document cc
+0.0003665117918907636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document cc
+0.0003684186453633228 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document cc
+0.0003589330610806066 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document cc
+0.00036383861418030395 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document cc
+0.000359841363355303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document cc
+0.00036431044063050464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document cc
+0.0003668574090358279 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document cc
+0.000362768263620199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document cc
+0.0003501888032771077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document cc
+0.000352401968221528 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document cc
+0.0003541019701869794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document cc
+0.0003628121865546891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document cc
+0.0003752582953758773 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document cc
+0.00037902046230424966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document cc
+0.0003777927146925147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document cc
+0.0003760676130509053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document cc
+0.00034046049078755405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document cc
+0.0003338847563259091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document cc
+0.00033294499102761794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document cc
+0.0004912026198265864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document cc
+0.00032064363474664014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document cc
+0.00032154190389541214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document cc
+0.00032309660151746207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document cc
+0.00031181143365304544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document cc
+0.00031046092294569104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document cc
+0.00031150165249068046 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document cc
+0.0003041314265988224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document cc
+0.0003024834909739394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document cc
+0.0003019936835833604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document cc
+0.000292329665283177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document cc
+0.0002867061143144972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document cc
+0.00028443615610701707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document cc
+0.00028462291013755945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document cc
+0.0002793538601205013 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document cc
+0.00027306573977044246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document cc
+0.00027097155673336525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document cc
+0.0002752934202112985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document cc
+0.00043042012694697647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document cc
+0.00047495648822986177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document cc
+0.00047755032493473855 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document cc
+0.0004706974343933747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document cc
+0.00046682163297771817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document cc
+0.0004616765425874178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document cc
+0.00030644496751628097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document cc
+0.0002909492555358308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document cc
+0.00027272036068261724 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document cc
+0.0004101070217315588 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document cc
+0.0003728914338834357 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document cc
+0.00036546911442305647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document cc
+0.0003669945482407483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document cc
+0.0003715902407424017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document cc
+0.00035837486406683366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document cc
+0.0003573318538685469 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document cc
+0.0003553784893071916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document cc
+0.0004920659809912352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document cc
+0.0004533619411303183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document cc
+0.00045067066057818706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document cc
+0.00044396985139270645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document cc
+0.00043198288204468477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document cc
+0.00043005174223738454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document cc
+0.00041847118430776784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document cc
+0.00042952036375796664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document cc
+0.00043420594647324267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document cc
+0.0003461123241053012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document cc
+0.0003408581597849182 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document cc
+0.00033172705422182547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document cc
+0.0003392566490686136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document cc
+0.00033578341518385483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document cc
+0.0003439196710518844 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document cc
+0.00034559163447085543 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document cc
+0.00033762478642902825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document cc
+0.00033215210055107224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document cc
+0.00033423579608014966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document cc
+0.0004963355016025102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document cc
+0.0004996862761456923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document cc
+0.0005000551829325451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document cc
+0.0005004212610098755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document cc
+0.00027768695585500585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document cc
+0.00028395983854338433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document cc
+0.00027835826303062254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document cc
+0.0002740073176010804 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document cc
+0.0002791830529274016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document cc
+0.0002796863816194411 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document cc
+0.00026697453022672804 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document cc
+0.0002594197440280141 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document cc
+0.0003779565697649222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document cc
+0.00041835823476586606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document cc
+0.00043788493575265915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document cc
+0.0002731731970096006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document cc
+0.000276305847423402 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document cc
+0.0002704955773958623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document cc
+0.0002629635944827518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document cc
+0.000260070956974436 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document cc
+0.00025661553791456334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document cc
+0.00025794727207576157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document cc
+0.00025295733980001527 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document cc
+0.0003788106407021029 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document cc
+0.0004882344027669431 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document cc
+0.0003275324309642705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document cc
+0.0004803401856640094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document cc
+0.00046720138323433943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document cc
+0.00043527810307095335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document cc
+0.00043905395741627827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document cc
+0.00048774175867331425 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document cc
+0.00048380704121346737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document cc
+0.0004779011848346118 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document cc
+0.00046255587581908036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document cc
+0.00045127922880511576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document cc
+0.0004503891485256095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document cc
+0.0004450142332303422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document cc
+0.00044630282482516654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document cc
+0.00044325014465743616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document cc
+0.0004263874842796447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document cc
+0.0004217530913646938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document cc
+0.000415120314341852 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document cc
+0.00040987168279144537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document cc
+0.00033468337266607834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document cc
+0.0003353094464683005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document cc
+0.0004833936821707294 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document cc
+0.00047194878988920935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document cc
+0.0004648324126996427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document cc
+0.0004562345003964941 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document cc
+0.0004933203505465098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document cc
+0.0003530166075325466 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document cc
+0.00035368548192804685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document cc
+0.0004872620828289663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document cc
+0.00048293889392426456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document cc
+0.00047936768462267655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document cc
+0.00047821013991587545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document cc
+0.0004660610308564753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document cc
+0.000394683430103437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document cc
+0.00039165053441571324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document cc
+0.0003906936040164381 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document cc
+0.00038074803919159006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document cc
+0.0003686529291578143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document cc
+0.00035832920428870976 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document cc
+0.00035929024535947033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document cc
+0.0003538226556050544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document cc
+0.0003584167868708799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document cc
+0.0003480507542594234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document cc
+0.0003413709023543034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document cc
+0.00034001304759361455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document cc
+0.00033430532902756514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document cc
+0.00046519252660631277 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document cc
+0.0002938876402514769 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document cc
+0.00028676090994509047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document cc
+0.00027296150117506716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document cc
+0.00026513502621960483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document cc
+0.0002680081327926125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document cc
+0.00025831225828720344 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document cc
+0.00026647037295561 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document cc
+0.0002525733734572654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document cc
+0.00025831708887575375 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document cc
+0.00042487627444443476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document cc
+0.0004951213245023891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document cc
+0.0004804051413177752 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document cc
+0.0004662397611340532 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document cc
+0.0004550138655253933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document cc
+0.00044494909122746795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document cc
+0.0002899112253051385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document cc
+0.0004372879736279761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document cc
+0.0004529568099252922 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document cc
+0.00045127826158829573 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document cc
+0.0004436558176737439 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document cc
+0.0004419233237678378 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document cc
+0.000434589215880319 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document cc
+0.00029153613207706566 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document cc
+0.0004312458058738854 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document cc
+0.00028741854968757313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document cc
+0.00046853200754421234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document cc
+0.0004949145252030074 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document cc
+0.00044459683920483167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document cc
+0.0003836095306696336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document cc
+0.0003789760237872398 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document cc
+0.0003749227438304427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document cc
+0.0003628558277173369 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document cc
+0.00039468301394041474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document cc
+0.00038874701821614864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document cc
+0.0004158492456077867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document cc
+0.00042360504554060077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document cc
+0.00040386729844317623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document cc
+0.00027595096702902474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document cc
+0.00043638766787829135 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document cc
+0.0002218691596850179 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document cc
+0.0004437566108089954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document cc
+0.0003889996411609667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document cc
+0.00043454421906537704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document cc
+0.0004522564392830988 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document cc
+0.00041517835659357416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document cc
+0.0002614360863446896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document cc
+0.00037543522111463596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document cc
+0.0004386190133514781 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document cc
+0.00046358333286115075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document cc
+0.00043186261317942404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document cc
+0.0002377581602097957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document cc
+0.00025973334085074254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document cc
+0.00040139099332000796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document cc
+0.00043674860686687174 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document cc
+0.00040853289309329373 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document cc
+0.000242910191729688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document cc
+0.0004431071731750582 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document cc
+0.0004388092670482523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document cc
+0.000381418866255965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document cc
+0.0004100117296419717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document cc
+0.00042469230366022745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document cc
+0.00041744151905374254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document cc
+0.00022835699906752945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document cc
+0.0004380161085387397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document cc
+0.00044803212381807456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document cc
+0.00040554932796137236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document cc
+0.0004234508646347761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document cc
+0.00043341209652360653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document cc
+0.00023966604734537185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document cc
+0.000259165907316014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document cc
+0.0004270653021833602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document cc
+0.0004341547032162028 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document cc
+0.0004111478117275994 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document cc
+0.0004299383567984396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document cc
+0.0004241899124590779 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document cc
+0.0004502719349364145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document cc
+0.00038994621469645615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document cc
+0.0003859912398894952 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document cc
+0.0004247535950310557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document cc
+0.000386982084327716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document cc
+0.0004196451040053251 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document cc
+0.0004096278509782259 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document cc
+0.0004373334932695721 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document cc
+0.0004180889975240641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document cc
+0.00042079636929672745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document cc
+0.00038063574611812913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document cc
+0.0003817505891515542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document cc
+0.0004420096268860222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document cc
+0.00039182670726410623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document cc
+0.0003635667850372299 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document cc
+0.00041564996472055667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document cc
+0.000400529358757286 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document cc
+0.0003939113874958451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document cc
+0.00039066622068940996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document cc
+0.0004290098538807143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document cc
+0.0004240739958197099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document cc
+0.00040775392659215333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document cc
+0.0004091634200396925 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document cc
+0.00042299190476617914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document cc
+0.0003701492680344151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document cc
+0.0003807353844384635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document cc
+0.00038813507771983156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document cc
+0.00040072346558408346 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document cc
+0.0003603595180423597 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document cc
+0.00038799421353112465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document cc
+0.00037575235582264926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document cc
+0.0004239190342959713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document cc
+0.0004606044799136546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document cc
+0.00045107950652529253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document cc
+0.0004391947201871058 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document cc
+0.0004457516661123035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document cc
+0.0004301297170991686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document cc
+0.00044661704164586694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document cc
+0.0004438849846114837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document cc
+0.0004444205734316823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document cc
+0.0004190924165303394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document cc
+0.00043942581131677875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document cc
+0.00021568459798090663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document cc
+0.0003814929225407199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document cc
+0.0003217453179359235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document cc
+0.00031719591470267974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document cc
+0.00032434115726922137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document cc
+0.0004079911120371051 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document cc
+0.000329492766381148 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document cc
+0.0003845916162001633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document cc
+0.0003835208964390098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document cc
+0.00037847334157173194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document cc
+0.00038296039903791865 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document cc
+0.00037896336828472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document cc
+0.00037620974396391355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document cc
+0.00037420590727111843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document cc
+0.000340490625886403 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document cc
+0.0003078314411035827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document cc
+0.00034153990750656097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document cc
+0.0003308858103982067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document cc
+0.0003452640607156025 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document cc
+0.00033095276418403455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document cc
+0.0003116308995860414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document cc
+0.00032446713226408477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document cc
+0.0003015816821912984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document cc
+0.00031612418775706894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document cc
+0.0003278516344971041 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document cc
+0.00033079446736097217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document cc
+0.00032278977146550837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document cc
+0.00032065272988207914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document cc
+0.0003936696452406576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document cc
+0.0003450109536627789 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document cc
+0.0003339787189919641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document cc
+0.0003284303856176974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document cc
+0.00033652677276843477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document cc
+0.0003257822443845694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document cc
+0.0003293985569149334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document cc
+0.0003310360260148262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document cc
+0.0003233770986418526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document cc
+0.0003172280092149422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document cc
+0.0003160674744292835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document cc
+0.00030931090289598506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document cc
+0.0003093173886443107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document cc
+0.00033167847081104083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document cc
+0.00031131501311729723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document cc
+0.00031046608876279845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document cc
+0.00030569235942207244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document cc
+0.00030777943671285197 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document cc
+0.00029303314290956683 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document cc
+0.0003045824546400205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document cc
+0.00030360880677729793 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document cc
+0.00031646239964835433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document cc
+0.0003129122300603785 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document cc
+0.00031060464956661433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document cc
+0.000311819032500067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document cc
+0.0002977872483902282 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document cc
+0.0003009448600922438 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document cc
+0.00028610292098537774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document cc
+0.0002988326876216654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document cc
+0.00028550828372819075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document cc
+0.0002830381750875739 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document cc
+0.0002848495855927156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document cc
+0.0002856443760308144 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document cc
+0.00027442895344188584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document cc
+0.0002681160554049462 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document cc
+0.0003421482544126989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document cc
+0.0004005872948449718 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document cc
+0.0003930123959320308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document cc
+0.0003867271832275778 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document cc
+0.000380805140455254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document cc
+0.0003814769861947819 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document cc
+0.00038025170883282324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document cc
+0.0003738026647867475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document cc
+0.00018960856915036276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document cc
+0.0003697177501953134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document cc
+0.00036674194328136693 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document cc
+0.00036447406838697555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document cc
+0.00036686410861101255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document cc
+0.00035915267825103423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document cc
+0.0003624758404026675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document cc
+0.0002822812140180794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document cc
+0.00030620512946920813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document cc
+0.000294249776520589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document cc
+0.00030238536967523434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document cc
+0.00029509593361580754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document cc
+0.0002906912701830899 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document cc
+0.0002921944165474959 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document cc
+0.00028358919691127954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document cc
+0.0002813182772323272 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document cc
+0.00027442640800299205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document cc
+0.0002747820342933984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document cc
+0.0002747584403979717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document cc
+0.00027499129634862444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document cc
+0.0002712050404257197 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document cc
+0.0002616256943143254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document cc
+0.00026769938929002815 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document cc
+0.00038396081322727017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document cc
+0.0003863140490027991 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document cc
+0.00037702277513203237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document cc
+0.0003633274156107032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document cc
+0.0003587473889240435 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document cc
+0.0003507672084278415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document cc
+0.00033776425499780385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document cc
+0.0003377914127574796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document cc
+0.00032948015659161326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document cc
+0.00033245638541392985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document cc
+0.00031080707640648695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document cc
+0.0002976903331149755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document cc
+0.0002965121463725523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document cc
+0.0002933849695266647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document cc
+0.0002837035078508233 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document cc
+0.00028684569079589323 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document cc
+0.0003145192320802359 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document cc
+0.0003566937253273515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document cc
+0.0003470199109592918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document cc
+0.0003060245312041868 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document cc
+0.0002650817213818789 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document cc
+0.0002643604938780134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document cc
+0.000299350876031416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document cc
+0.0003178540797697938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document cc
+0.000271850367887767 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document cc
+0.00031349896596549 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document cc
+0.00031749734412765755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document cc
+0.0003791137842391209 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document cc
+0.0003742334169957992 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document cc
+0.0003705639757351107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document cc
+0.0003126986769797042 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document cc
+0.00031038132814561196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document cc
+0.00036464437173804883 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document cc
+0.0003569480488951322 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document cc
+0.0003541239221619106 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document cc
+0.00035315297411308053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document cc
+0.0003572451925404141 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document cc
+0.0003514986129411253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document cc
+0.0003521798298425866 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document cc
+0.00034553677439244716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document cc
+0.000349004719809412 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document cc
+0.0003468247484872769 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document cc
+0.0003465822608356558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document cc
+0.00035410983132162007 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document cc
+0.0003487908354969444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document cc
+0.0003479024763238147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document cc
+0.000341412530646823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document cc
+0.00034451316273667034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document cc
+0.0002618849993484869 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document cc
+0.00026788679978901144 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document cc
+0.00027450670773227214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document cc
+0.0002661273129899329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document cc
+0.00026836569676402957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document cc
+0.00026155876975483236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document cc
+0.0002609276830117151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document cc
+0.0002644161630512771 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document cc
+0.00036789208972872557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document cc
+0.00037829849439990513 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document cc
+0.0003788894943523098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document cc
+0.0003617207777959397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document cc
+0.0002541334487248998 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document cc
+0.0002707945538071073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document cc
+0.00027046282716455214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document cc
+0.0002652443167243215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document cc
+0.0002685859923850986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document cc
+0.00025734961751176414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document cc
+0.000259041720872915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document cc
+0.00025340107274823446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document cc
+0.00025757135121837893 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document cc
+0.00025617700500574084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document cc
+0.0002566931670562857 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document cc
+0.0002543871190716101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document cc
+0.00024997565589481713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document cc
+0.0002954079779456287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document cc
+0.00034890741135252835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document cc
+0.0003473298137731525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document cc
+0.0003296959618486435 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document cc
+0.0003304520061604598 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document cc
+0.00032377956175729824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document cc
+0.00031700696295168713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document cc
+0.0003060382346081943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document cc
+0.0003012003005056863 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document cc
+0.0002981074073993884 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document cc
+0.0002922128825950705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document cc
+0.000348901087722931 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document cc
+0.0003408286289467841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document cc
+0.0003410649680770183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document cc
+0.0003358524215576502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document cc
+0.0003343661874989231 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document cc
+0.00032810573699389156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document cc
+0.00032261449539097497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document cc
+0.0003162694866049203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document cc
+0.0003158381156468853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document cc
+0.000317376061083603 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document cc
+0.0003125788639953052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document cc
+0.0003010105041885602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document cc
+0.0003065865059090678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document cc
+0.0003084275726508053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document cc
+0.00030966560718296085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document cc
+0.0002957728057853081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document cc
+0.00029904164542325336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document cc
+0.0002955358888729187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document cc
+0.00028692976446931544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document cc
+0.0002923476214935797 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document cc
+0.0002893691697212419 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document cc
+0.0002855895211981585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document cc
+0.00027968347097626246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document cc
+0.0002810783462604979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document cc
+0.00027794080455729715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document cc
+0.00034784376461416953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document cc
+0.0003488347959010943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document cc
+0.00034790583710250724 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document cc
+0.000345913166618151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document cc
+0.00033801936268066675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document cc
+0.0003290591130212315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document cc
+0.00034051399521366823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document cc
+0.00032470943131841784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document cc
+0.00031679540050914276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document cc
+0.00031814596342422325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document cc
+0.0003156466289485036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document cc
+0.00029985010879003633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document cc
+0.0002905176377776361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document cc
+0.0004206836775460856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document cc
+0.00020660449162246918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document cc
+0.0003461727254468087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document cc
+0.00020592870907067763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document cc
+0.00034173505299233005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document cc
+0.0004052437256652738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document cc
+0.0004080650901351697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document cc
+0.00039778184149144276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document cc
+0.00039046311464950275 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document cc
+0.00039043444911071384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document cc
+0.000388575704932843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document cc
+0.00019737533145666597 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document cc
+0.00037610755595812403 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document cc
+0.00037315400127598317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document cc
+0.00037415028580922163 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document cc
+0.00036694041707212337 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document cc
+0.00018947219857306515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document cc
+0.00037046050826533545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document cc
+0.0003587440768559087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document cc
+0.00034623936498708903 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document cc
+0.0003502289592617922 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document cc
+0.00034692398063649823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document cc
+0.000339340809421849 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document cc
+0.0003360510394816983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document cc
+0.0003354673850814145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document cc
+0.00032937682875877047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document cc
+0.00032844505049317715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document cc
+0.00028287199339908627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document cc
+0.0002795217197003578 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document cc
+0.00028048955601883463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document cc
+0.0002769326396439027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document cc
+0.0002727090021299243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document cc
+0.0002726577841024554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document cc
+0.00026663619593455374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document cc
+0.00026068042672138127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document cc
+0.0002637704114326801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document cc
+0.0002593043567100412 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document cc
+0.0002599897110113453 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document cc
+0.0002435078682758859 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document cc
+0.0002450530071379054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document cc
+0.00024233331983743606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document cc
+0.0002934750947999535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document cc
+0.00033241226364044474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document cc
+0.00032938406090272075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document cc
+0.00032778705403953246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document cc
+0.00032184551480398754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document cc
+0.00031874002264945737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document cc
+0.0003165319685666433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document cc
+0.00031307071173376295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document cc
+0.00031119524184911957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document cc
+0.0003102253344576429 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document cc
+0.0003088976240383192 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document cc
+0.0002951410823077708 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document cc
+0.00029772657676757413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document cc
+0.0003056048989909935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document cc
+0.00031991305381648026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document cc
+0.00030890256978362426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document cc
+0.0003109382904091933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document cc
+0.00031035798529690644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document cc
+0.00030741666395911753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document cc
+0.0002989918594861846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document cc
+0.00029569635443989434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document cc
+0.0002973992445667285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document cc
+0.000293397351001072 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document cc
+0.00028737817438047954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document cc
+0.00028252738144009747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document cc
+0.0002805511898623541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document cc
+0.0003718020784620472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document cc
+0.0003499713845765235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document cc
+0.00034283547445326676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document cc
+0.00031464759888838765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document cc
+0.00033188946446414833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document cc
+0.000326084432195463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document cc
+0.0003764568303917893 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document cc
+0.0003604955598858414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document cc
+0.0003655654554133222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document cc
+0.00035762304033750504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document cc
+0.00038478883950347103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document cc
+0.00027735714341247454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document cc
+0.00028139534607773563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document cc
+0.00019777292251713763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document cc
+0.000285571704874486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document cc
+0.00028543482146244363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document cc
+0.00019434234484256758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document cc
+0.00027854908176986763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document cc
+0.0002847068039566143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document cc
+0.00028672356943064853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document cc
+0.00027782687605808177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document cc
+0.0002843539634105203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document cc
+0.0002894748379090401 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document cc
+0.0002868852440186493 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document cc
+0.0002818504885373851 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document cc
+0.00028680112812941034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document cc
+0.00019258978168723977 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document cc
+0.00028760637934715155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document cc
+0.0002820439443912918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document cc
+0.0002831001054410018 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document cc
+0.00029001901552467397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document cc
+0.00027779449377883156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document cc
+0.00019949837437516796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document cc
+0.0002907306472984446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document cc
+0.00027814858381318327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document cc
+0.00019472790889161432 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document cc
+0.00020472626596924125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document cc
+0.0002870045081974301 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document cc
+0.00019812241927078482 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document cc
+0.0002817553333369554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document cc
+0.00027829782796642117 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document cc
+0.00028289431732284113 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document cc
+0.0002795526296717729 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document cc
+0.00027682829988044574 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document cc
+0.0002895432402719184 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document cc
+0.0002823174903941811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document cc
+0.00028170972351837796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document cc
+0.00027807915877838826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document cc
+0.00028588515681452956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document cc
+0.00028112324090816726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document cc
+0.00020636178289985485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document cc
+0.00019447255290980535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document cc
+0.0002850824220591452 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document cc
+0.00027856429520116784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document cc
+0.0002820880676635633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document cc
+0.00028943902215995714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document cc
+0.0002676366291085329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document cc
+0.00023806333809954687 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document cc
+0.00024526460430233455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document cc
+0.00023876876664622726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document cc
+0.00023379770334179805 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document cc
+0.00024175151269138382 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document cc
+0.00023386583242595706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document cc
+0.00023771797150160827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document cc
+0.0002262748967483896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document cc
+0.0002408148346432682 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document cc
+0.00023398651720444235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document cc
+0.00022989433874474592 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document cc
+0.00023948500543957772 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document cc
+0.0002331594076859196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document cc
+0.00023375132439600242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document cc
+0.00023923410909668642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document cc
+0.00023952796315562954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document cc
+0.0002327466076905069 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document cc
+0.00023082758956797212 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document cc
+0.0002240509275524448 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document cc
+0.00022798879995765268 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document cc
+0.000221172516774386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document cc
+0.00021767045123534623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document cc
+0.00021982832794804484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document cc
+0.00021971626543789102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document cc
+0.00022566565206920132 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document cc
+0.0002181984894194856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document cc
+0.00021831417549554653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document cc
+0.00021601405421187145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document cc
+0.00022275733725519607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document cc
+0.00021847734911973986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document cc
+0.0002243591012664014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document cc
+0.00021688758139483833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document cc
+0.0002182953624789215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document cc
+0.00020475155724026002 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document cc
+0.00021498078062960065 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document cc
+0.0002157914337233064 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document cc
+0.00021781838494967963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document cc
+0.00021723242266814558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document cc
+0.0002176782686553837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document cc
+0.0003486179404943968 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document cc
+0.00034882846352857634 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document cc
+0.00031400868448352596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document cc
+0.00030273484020011963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document cc
+0.00029895889118145404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document cc
+0.00029770764609621714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document cc
+0.0002990181332116852 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document cc
+0.00029653733972285996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document cc
+0.00029624649222942476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document cc
+0.00029625609720203576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document cc
+0.00029731928930852147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document cc
+0.00029011721326148513 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document cc
+0.00028849788197494655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document cc
+0.00021601278623858145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document cc
+0.00021319599281739178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document cc
+0.0002153325290600083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document cc
+0.00018566946174516558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document cc
+0.00020736824394291617 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document cc
+0.00020857419820128004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document cc
+0.00020058526129536423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document cc
+0.00020745812166665217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document cc
+0.00020652171015271702 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document cc
+0.00020643808911278608 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document cc
+0.00020040513914482103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document cc
+0.00020598050188272898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document cc
+0.0001969184139343296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document cc
+0.0001972748812937012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document cc
+0.0002038556751586195 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document cc
+0.00020245186011313464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document cc
+0.00019950381422038783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document cc
+0.00020837055459665258 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document cc
+0.00020371856218246096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document cc
+0.00019537612301625791 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document cc
+0.00019914984508813857 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document cc
+0.0002053787713691309 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document cc
+0.00019082100541008637 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document cc
+0.00020397153334531813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document cc
+0.0002021462693077317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document cc
+0.00019609357008124035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document cc
+0.00019693256622486236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document cc
+0.00020007239732428112 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document cc
+0.00020467075741591954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document cc
+0.00019584883400022932 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document cc
+0.00019135050391176972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document cc
+0.0003362829834208298 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document cc
+0.00034013691154784095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document cc
+0.00033215887031941976 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document cc
+0.00032681189065396707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document cc
+0.0003149138485493094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document cc
+0.00030179177307540077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document cc
+0.0002923278437581119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document cc
+0.00029470052278994486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document cc
+0.0002994095093045731 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document cc
+0.00029033525096085037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document cc
+0.00029390798852496565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document cc
+0.0002916230924130842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document cc
+0.00029419886374594913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document cc
+0.0002865469756730764 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document cc
+0.00021191292549942086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document cc
+0.00021369664817409847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document cc
+0.00021612485624266726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document cc
+0.00022242192634588478 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document cc
+0.00014605095659989698 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document cc
+0.00022070626106341693 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document cc
+0.0002174420774054071 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document cc
+0.00021325858963116995 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document cc
+0.0002124322999488052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document cc
+0.0002081218896969054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document cc
+0.0002108710211556957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document cc
+0.00020686867095978426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document cc
+0.00020895752681041895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document cc
+0.00020741922266415738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document cc
+0.0002069112657197308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document cc
+0.00020644627473468118 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document cc
+0.00020332991338121604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document cc
+0.0003560895677789848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document cc
+0.00032915779111908214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document cc
+0.00033810613317040864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document cc
+0.00033729626594036923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document cc
+0.00033550342864602944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document cc
+0.00034173474024556906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document cc
+0.000331505340748827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document cc
+0.0003270050330117195 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document cc
+0.00032585275329172556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document cc
+0.0003143383203190604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document cc
+0.00031655199110388894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document cc
+0.00030738872158476413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document cc
+0.00030838388352699285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document cc
+0.0003053596995351888 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document cc
+0.00031836304739584593 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document cc
+0.000315315435873905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document cc
+0.0003087116248965243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document cc
+0.00030396790625537645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document cc
+0.0003335812246032149 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document cc
+0.00034570956323095843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document cc
+0.00034563035636675786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document cc
+0.00033411265479076335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document cc
+0.00034439191141692787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document cc
+0.0003364483125496565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document cc
+0.0003299500453608033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document cc
+0.00033163377700074837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document cc
+0.00032638649660627673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document cc
+0.00032616167939645234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document cc
+0.0003205289298760723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document cc
+0.00031939393740815355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document cc
+0.00031593164066731296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document cc
+0.00031928871111254405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document cc
+0.00029670189073175004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document cc
+0.00020517703846735904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document cc
+0.00020128418186172073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document cc
+0.00019662723895606717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document cc
+0.0001981157042081407 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document cc
+0.00019703489037041608 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document cc
+0.00019079796331785068 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document cc
+0.0001909352306690079 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document cc
+0.00018824662295261396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document cc
+0.00019864275319325954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document cc
+0.00018818516521649587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document cc
+0.00018875694972812844 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document cc
+0.00018231621170645482 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document cc
+0.00018349407845798273 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document cc
+0.00018088971427746906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document cc
+0.00018296284236327237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document cc
+0.0001876011825819916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document cc
+0.000329052068725176 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document cc
+0.00032223616273648536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document cc
+0.00031272564089633955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document cc
+0.00031621609908414494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document cc
+0.0003117213560911235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document cc
+0.00030218064069945934 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document cc
+0.00030658916600512085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document cc
+0.0002915863534115821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document cc
+0.0002940280138374372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document cc
+0.00029067860468866085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document cc
+0.00028529228063135635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document cc
+0.00028336893301452256 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document cc
+0.0002794668089130099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document cc
+0.00021681361378827842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document cc
+0.0001484664674497246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document cc
+0.00021950558378215133 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document cc
+0.00021806860758808645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document cc
+0.00021819568718852282 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document cc
+0.00021626925931585001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document cc
+0.0001464536143077762 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document cc
+0.00021432777088808917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document cc
+0.000213473805865147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document cc
+0.00021397067253964538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document cc
+0.00020758957647437263 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document cc
+0.00020687124337683314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document cc
+0.00020630057046511005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document cc
+0.0002091166859352538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document cc
+0.00020777355025615267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document cc
+0.00020709287641496176 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document cc
+0.00020736464660577094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document cc
+0.00020062246741862607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document cc
+0.00020693207561942915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document cc
+0.00021151004871893024 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document cc
+0.00019930249098689716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document cc
+0.00021589710041231824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document cc
+0.00021369204789905741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document cc
+0.0002147099923936778 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document cc
+0.00021077531190389536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document cc
+0.0002100509829113836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document cc
+0.00021185362601571124 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document cc
+0.00020722136637339565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document cc
+0.00020300093701169531 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document cc
+0.00019859737993313477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document cc
+0.00019971314372100164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document cc
+0.00019549908270269278 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document cc
+0.00019649820843534028 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document cc
+0.00019619415513498067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document cc
+0.00019493006120377898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document cc
+0.00019499409035775506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document cc
+0.00019252988593634277 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document cc
+0.00019440768268686405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document cc
+0.00018747161324755577 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document cc
+0.0001879575932372779 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document cc
+0.00019040707058357506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document cc
+0.0001871931095090703 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document cc
+0.00020112966223017096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document cc
+0.00020516878165311017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document cc
+0.00020664735191740533 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document cc
+0.00021041398572882962 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document cc
+0.00020397992929690396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document cc
+0.0002039978580295561 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document cc
+0.00020592785601142126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document cc
+0.0001990755527445265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document cc
+0.00019729564847798732 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document cc
+0.00019958182230527032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document cc
+0.0001985037302636386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document cc
+0.00020204130355115716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document cc
+0.0002000296401958085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document cc
+0.0001983064832295463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document cc
+0.00019663108484195617 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document cc
+0.00019510678560556523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document cc
+0.0001873284057063206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document cc
+0.00019311553072495885 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document cc
+0.00034652137288816547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document cc
+0.0002813690318850024 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document cc
+0.00027697649713138685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document cc
+0.0002755419092534421 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document cc
+0.0002681583054440219 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document cc
+0.00026945753192750824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document cc
+0.00026169470768245737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document cc
+0.00026437008960810825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document cc
+0.0002637294838228 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document cc
+0.00026491867965088836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document cc
+0.00025504483625138986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document cc
+0.0002545040623796586 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document cc
+0.0002546682814073622 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document cc
+0.00025545439487142615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document cc
+0.0002626896557978271 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document cc
+0.00025092040940402784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document cc
+0.0002589154885863872 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document cc
+0.00024106160482721467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document cc
+0.0002483289690087987 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document cc
+0.0002388930282784437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document cc
+0.00024006340759273874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document cc
+0.00023765248178029045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document cc
+0.00023061351965578936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document cc
+0.00024954224883546477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document cc
+0.00017861017233018525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document cc
+0.00017810832743667658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document cc
+0.00017599709170759497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document cc
+0.00017462723516505223 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document cc
+0.0002906316527068669 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document cc
+0.00033762141066247166 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document cc
+0.00017170670574152494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document cc
+0.00017258674515137717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document cc
+0.0002815386173173926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document cc
+0.0002996845935618989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document cc
+0.0002735268488987296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document cc
+0.0002971738713071517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document cc
+0.0002942690674002763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document cc
+0.0003322222207729567 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document cc
+0.0003378721656198464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document cc
+0.00018307262621851067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document cc
+0.00033956081502775057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document cc
+0.00031604820927876276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document cc
+0.00028805657681088917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document cc
+0.00026312293321215633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document cc
+0.00034366936722921455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document cc
+0.0002865256504406559 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document cc
+0.0003063615195861786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document cc
+0.00028412791619666136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document cc
+0.00028060835132727154 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document cc
+0.00032544974761560506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document cc
+0.0002647177833217225 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document cc
+0.0003152621884896575 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document cc
+0.0003054625140336913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document cc
+0.00031183308312292263 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document cc
+0.00018175026696621178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document cc
+0.00017699918328872 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document cc
+0.00018222339261441908 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document cc
+0.00018348005930964137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document cc
+0.0001810735993810541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document cc
+0.00030846441282038914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document cc
+0.0002972326889310354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document cc
+0.00017433421318235594 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document cc
+0.00032799458649525895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document cc
+0.00032482130048512673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document cc
+0.00031943465668672475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document cc
+0.00029615593630484517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document cc
+0.0002893126939511001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document cc
+0.0002849288351723284 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document cc
+0.00028383906633569267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document cc
+0.00028072526091262615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document cc
+0.000284239564292377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document cc
+0.0002778903109432523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document cc
+0.0002771644389501471 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document cc
+0.0002733316182319337 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document cc
+0.00026362539185869363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document cc
+0.0002636325383220217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document cc
+0.00026740622442302886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document cc
+0.0002646771971853427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document cc
+0.0002628566720605389 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document cc
+0.0002644760695434766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document cc
+0.0002623837702310999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document cc
+0.00026088722976772894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document cc
+0.0002567065374799158 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document cc
+0.00018857382101207726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document cc
+0.00019036580399817203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document cc
+0.00018348828065261222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document cc
+0.00018491851780345073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document cc
+0.00018904887260080187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document cc
+0.0001875609304251801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document cc
+0.00018393034720015817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document cc
+0.00018419795526114903 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document cc
+0.00018699955623404795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document cc
+0.00018276256902965128 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document cc
+0.00017698045695190812 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document cc
+0.00018104650132303642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document cc
+0.00017758206731279688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document cc
+0.00017131402995103497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document cc
+0.000175944428350446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document cc
+0.0003416745727147391 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document cc
+0.0003163259373952889 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document cc
+0.0002804489269172448 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document cc
+0.00028748272397403175 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document cc
+0.00027603318345630605 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document cc
+0.000271638824679648 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document cc
+0.0002763761210210942 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document cc
+0.00026501984873172717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document cc
+0.00026422486894694714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document cc
+0.0002686339100849262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document cc
+0.0002610837453940606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document cc
+0.000260974343729353 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document cc
+0.0002599403837029134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document cc
+0.0002937273113238609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document cc
+0.0003341790732600504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document cc
+0.0002620661576600244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document cc
+0.0003027929169239288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document cc
+0.00031944039129326894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document cc
+0.00019025676304139009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document cc
+0.00018680910145009907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document cc
+0.00034215840419416437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document cc
+0.00018618120812119364 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document cc
+0.00018605853095599425 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document cc
+0.00018120712626096538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document cc
+0.00018315079292495327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document cc
+0.00018362556449041974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document cc
+0.0001780024456718171 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document cc
+0.00033296526436178697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document cc
+0.0001802398632282846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document cc
+0.00017340263100798256 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document cc
+0.00017755840547238697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document cc
+0.00018419413735260606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document cc
+0.00017869518174591322 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document cc
+0.00017526271460129484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document cc
+0.00017852168597981907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document cc
+0.00017566536156787157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document cc
+0.00017589867964432936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document cc
+0.00017831487394075305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document cc
+0.00017837310528935862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document cc
+0.00018200908814216548 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document cc
+0.0001795136627511612 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document cc
+0.0003414021775300033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document cc
+0.00017177291787788502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document cc
+0.0003441900648571877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document cc
+0.0003394534597060673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document cc
+0.0003236887233114832 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document cc
+0.0001639544129688747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document cc
+0.00019137443753211255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document cc
+0.00018575146284680153 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document cc
+0.00019184792863440243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document cc
+0.00018966043065679055 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document cc
+0.00017968851317035848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document cc
+0.00018479881897661546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document cc
+0.0001813642692683015 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document cc
+0.0001686449798983066 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document cc
+0.00018516104592230446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document cc
+0.00031283726601066385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document cc
+0.0003248607542883853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document cc
+0.00031583241601202365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document cc
+0.00031238270857730376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document cc
+0.000307150592403979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document cc
+0.00029443829986847044 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document cc
+0.0002942723732234677 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document cc
+0.00023514930666443422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document cc
+0.0020776328951453444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document cc
+0.0021768234410538883 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document cc
+0.002106973549276289 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document cc
+0.002110915756171751 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document cc
+0.0017032382109816464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document cc
+0.0019047944877712286 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document cc
+0.0019402711744016077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document cc
+0.0006264790011223686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document cc
+0.0017885401938106643 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document cc
+
diff --git a/ALCF/data-lists/sunspot/dolma.txt b/ALCF/data-lists/sunspot/dolma.txt
new file mode 100644
index 00000000000..7015d885c1f
--- /dev/null
+++ b/ALCF/data-lists/sunspot/dolma.txt
@@ -0,0 +1,2419 @@
+0.0018520780893211373 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document algebraic-stack-train
+0.0017591050606817512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document algebraic-stack-train
+0.001459052794333798 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document algebraic-stack-train
+0.0007405667281569194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document algebraic-stack-train
+0.00019420030110896795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document algebraic-stack-train
+0.0009008668715801845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document algebraic-stack-train
+0.00015115827957143057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document algebraic-stack-train
+0.0014552844319220648 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document algebraic-stack-train
+0.0012469861325685161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document algebraic-stack-train
+0.00136412011372413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document algebraic-stack-train
+0.0007064279699221103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document algebraic-stack-train
+0.0008472240000687427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document algebraic-stack-train
+0.0001984375713341955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document algebraic-stack-train
+0.0005472773881697123 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document algebraic-stack-train
+0.001815779629850992 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document algebraic-stack-train
+0.0018313600689757324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document algebraic-stack-train
+0.0002583902668716813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document arxiv
+0.0002646575141232155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document arxiv
+0.0003165521247456758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document arxiv
+0.0002920706460176214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document arxiv
+0.00028396813182810215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document arxiv
+0.00030445161883108107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document arxiv
+0.00031628781276576474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document arxiv
+0.0003083776568189157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document arxiv
+0.0003176359471472902 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document arxiv
+0.0002536009369131698 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document arxiv
+0.0003067491424681363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document arxiv
+0.0002597217257557784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document arxiv
+0.0003788556450109768 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document arxiv
+0.0002796563272052598 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document arxiv
+0.00033573826524290287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document arxiv
+0.00030523658022800287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document arxiv
+0.00032211552192240096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document arxiv
+0.0003329295675164247 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document arxiv
+0.0003101982186639862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document arxiv
+0.00032361798234223355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document arxiv
+0.0003495541581652915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document arxiv
+0.0002821637448858042 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document arxiv
+0.00030399523537629673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document arxiv
+0.0002955658968247219 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document arxiv
+0.00028942158502924254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document arxiv
+0.00028769546171490733 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document arxiv
+0.0002938111057234182 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document arxiv
+0.0002711150403010948 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document arxiv
+0.00031130095874747565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document arxiv
+0.0003002996118160777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document arxiv
+0.0003732757901604459 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document arxiv
+0.00026784205751795894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document arxiv
+0.0002799626521661984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document arxiv
+0.00034334276069078164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document arxiv
+0.0003582469803674965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document arxiv
+0.00031094844818418623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document arxiv
+0.0002766228384977191 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document arxiv
+0.00030297116159471485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document arxiv
+0.00027033888377464685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document arxiv
+0.00030090862368377933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document arxiv
+0.00028543875802490955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document arxiv
+0.00027559768459074204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document arxiv
+0.0003182185533962886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document arxiv
+0.0003311392971435837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document arxiv
+0.00028751652060804325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document arxiv
+0.000303466863212589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document arxiv
+0.00033400462801277524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document arxiv
+0.0002589234031777426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document arxiv
+0.0002913508598466723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document arxiv
+0.0002670572450004856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document arxiv
+0.00032027399105647656 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document arxiv
+0.00032188376258379377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document arxiv
+0.0003161585784100882 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document arxiv
+0.0003184249182974135 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document arxiv
+0.00030381336664000807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document arxiv
+0.0003190437442184283 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document arxiv
+0.0002537961798200545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document arxiv
+0.0003017817117223326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document arxiv
+0.00028685268513240224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document arxiv
+0.00031265179094451165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document arxiv
+0.00034708319096986816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document arxiv
+0.00026650837943080664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document arxiv
+0.00034588832248507335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document arxiv
+0.0002416982248399037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document arxiv
+0.0003089296918222243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document arxiv
+0.00029137184185700827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document arxiv
+0.00026464226846800774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document arxiv
+0.00030545397919456627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document arxiv
+0.0003206778460448875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document arxiv
+0.00030968971641110967 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document arxiv
+0.00023325653928600864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document arxiv
+0.00030526899198338555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document arxiv
+0.00035376719076633584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document arxiv
+0.000290224385981026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document arxiv
+0.000294650083382008 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document arxiv
+0.00028768858128616436 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document arxiv
+0.00030856965235527843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document arxiv
+0.00030579942447879054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document arxiv
+0.0002863101084704357 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document arxiv
+0.0002870032092492213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document arxiv
+0.000264182727569885 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document arxiv
+0.0002974012367036449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document arxiv
+0.00032238412143059203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document arxiv
+0.00031683716893819036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document arxiv
+0.00031157434937617524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document arxiv
+0.0003411742735695989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document arxiv
+0.00026778444816570715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document arxiv
+0.0003037045797275201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document arxiv
+0.00027746114370081314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document arxiv
+0.00027148285946862043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document arxiv
+0.00028042950114678207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document arxiv
+0.0003235607816590721 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document arxiv
+0.0003086692227306295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document arxiv
+0.00033990349455148105 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document arxiv
+0.00030945053208470265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document arxiv
+0.00027309074552265303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document arxiv
+0.00028737393506316194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document arxiv
+0.0003098868328009879 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document arxiv
+0.0002614229162588409 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document arxiv
+0.0002884388407820923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document arxiv
+0.0031025147279277244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document books
+0.003102019887362634 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document books
+0.0009996745994661548 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document books
+0.0002406272620255565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document c4
+0.0002404825539493424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document c4
+0.00024062296575435581 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document c4
+0.00024069315766818953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document c4
+0.00024055829162263452 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document c4
+0.00024062053397343032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document c4
+0.0002410715545206964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document c4
+0.00024024881846087368 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document c4
+0.0002407074700790688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document c4
+0.00024072141428809043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document c4
+0.00024027710230872736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document c4
+0.0002409111299205489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document c4
+0.00024081954058275009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document c4
+0.00024086076794990912 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document c4
+0.00024098672620832446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document c4
+0.00024068622303333862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document c4
+0.00024140627024291824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document c4
+0.0002414512033594384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document c4
+0.00024028742594941463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document c4
+0.00024018036089269645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document c4
+0.0002398347365034979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document c4
+0.00024006780153485276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document c4
+0.00024015620270419213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document c4
+0.0002408848259695227 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document c4
+0.0002408023185278831 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document c4
+0.00024021196580140326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document c4
+0.00024077677271297493 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document c4
+0.00024087392454668027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document c4
+0.0002408071293824126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document c4
+0.00024042223828845715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document c4
+0.0002411484752360495 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document c4
+0.00023605263746465907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document c4
+0.00023471222158326908 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document c4
+0.00023432138580287644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document c4
+0.00023407385623382327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document c4
+0.00023487504174367091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document c4
+0.0002341843704976313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document c4
+0.00023421993170282486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document c4
+0.00023445057969132037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document c4
+0.0002337681680073047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document c4
+0.000234627964808109 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document c4
+0.0002338942211888584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document c4
+0.00023403849286843386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document c4
+0.00023405641310796305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document c4
+0.00023349169562397965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document c4
+0.00023381157386048856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document c4
+0.00023388742993790587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document c4
+0.00023363103829469813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document c4
+0.00023421141834630477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document c4
+0.00023420564352232565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document c4
+0.00023367463699173143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document c4
+0.00023344969163567033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document c4
+0.00023372196941547188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document c4
+0.00023399207645297834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document c4
+0.00023357915605505856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document c4
+0.00023337585642190864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document c4
+0.00023385005470157914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document c4
+0.00023301533534493465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document c4
+0.00023377864302541782 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document c4
+0.00023323745848621437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document c4
+0.0002330594611151835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document c4
+0.0002334149675026783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document c4
+0.00023198945902291534 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document c4
+0.00023023784834634142 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document c4
+0.00022985623060187217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document c4
+0.0002292605284569516 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document c4
+0.00022926593333048894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document c4
+0.00022922766406807777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document c4
+0.00022898153911167426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document c4
+0.0002292473111593315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document c4
+0.000228804579400424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document c4
+0.00022865485613513526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document c4
+0.00022937426835887895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document c4
+0.00022917388311587372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document c4
+0.0002291660582019043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document c4
+0.00022907895248360543 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document c4
+0.0002294617879920205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document c4
+0.0002290452150516566 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document c4
+0.00022943405619715553 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document c4
+0.0002296271421006204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document c4
+0.00022854791372910372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document c4
+0.00022923123467686557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document c4
+0.00022852404355738494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document c4
+0.00022847798660086642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document c4
+0.0002289604586810316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document c4
+0.00022835479834950643 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document c4
+0.0002289149402884243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document c4
+0.00022806655474763446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document c4
+0.00022826296420992974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document c4
+0.00022906829636213627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document c4
+0.0002287628414466998 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document c4
+0.0002282673911253445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document c4
+0.00022869309841939134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document c4
+0.0002281540116815451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document c4
+0.0002259755756162738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document c4
+0.00022562331285233504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document c4
+0.0002259061146106053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document c4
+0.00022567670836663787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document c4
+0.00022573165387587061 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document c4
+0.00022508514961670572 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document c4
+0.00022564642513773356 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document c4
+0.00022563088621998788 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document c4
+0.0002250438755373707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document c4
+0.00022524465346241134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document c4
+0.00022531737657666812 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document c4
+0.00022444687519363458 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document c4
+0.00022460397498596298 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document c4
+0.00022454218976501763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document c4
+0.00022447528843671366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document c4
+0.00022501666332178926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document c4
+0.00022453752304377972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document c4
+0.00022484451871163002 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document c4
+0.00022465678847154914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document c4
+0.00022453180917044732 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document c4
+0.0002247278486823009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document c4
+0.00022465794828242097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document c4
+0.00022431000701925386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document c4
+0.00022476020248460963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document c4
+0.00022467531771795015 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document c4
+0.0002236391309945234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document c4
+0.00022458764920536007 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document c4
+0.00022430877426744415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document c4
+0.0002247047786127192 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document c4
+0.0002245298090400035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document c4
+0.0002245648831396188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document c4
+0.00022292894729820784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document c4
+0.00022236668082957533 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document c4
+0.0002217622659895442 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document c4
+0.00022252452726732609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document c4
+0.00022135333211363678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document c4
+0.0002214571757787971 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document c4
+0.0002217188139237798 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document c4
+0.00022144214894640303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document c4
+0.00022100172806631854 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document c4
+0.00022156392409199052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document c4
+0.00022134830143710272 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document c4
+0.00022158598922529453 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document c4
+0.00022142932483041377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document c4
+0.00022120980907786554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document c4
+0.00022117917738112441 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document c4
+0.00022077089397851235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document c4
+0.00022093265074996711 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document c4
+0.00022091299741377004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document c4
+0.0002205849150703338 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document c4
+0.0002210648204787979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document c4
+0.0002214235747364102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document c4
+0.00022083907302221787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document c4
+0.0002206334237915964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document c4
+0.00022065193929912214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document c4
+0.00022079775597767288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document c4
+0.00022091492909963518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document c4
+0.00022095009987097293 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document c4
+0.0002208150577180165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document c4
+0.00022085759102772088 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document c4
+0.00022073789170129016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document c4
+0.00022049322781182384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document c4
+0.00022083270617761285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document c4
+0.00021982452827473632 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document c4
+0.00021899870446514259 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document c4
+0.00021890358773356361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document c4
+0.00021875556609042841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document c4
+0.00021861195987201226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document c4
+0.00021856782186167455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document c4
+0.00021912837771543515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document c4
+0.00021900213768517756 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document c4
+0.00021871675851390374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document c4
+0.0002180537056545586 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document c4
+0.0002188196714327129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document c4
+0.00021851362624523464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document c4
+0.0002183236795498736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document c4
+7.291153618675672e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document c4
+0.0003742481815405742 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document cc
+0.00038204855962733055 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document cc
+0.00038821818392663593 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document cc
+0.00038723332988783727 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document cc
+0.00038916141142149904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document cc
+0.00038049542523949033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document cc
+0.0003854755539534284 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document cc
+0.00024202756466512517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document cc
+0.0003915405155008087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document cc
+0.0003927382151931033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document cc
+0.0003839151202260479 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document cc
+0.00040006817468967907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document cc
+0.00040318965964443476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document cc
+0.0003831013019452741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document cc
+0.00039166638383204036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document cc
+0.00039962784023961004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document cc
+0.00039536707853602614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document cc
+0.0004204304698247758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document cc
+0.00041538899178693555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document cc
+0.00039186953333675306 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document cc
+0.00038945837196504305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document cc
+0.0003919951238929062 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document cc
+0.00044377065718528966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document cc
+0.0004407759068603017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document cc
+0.0002487811895843715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document cc
+0.00039349432045556636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document cc
+0.00041223198559462343 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document cc
+0.0004036573014830213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document cc
+0.0003825982215521807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document cc
+0.00040386867133151386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document cc
+0.00024460575279105167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document cc
+0.000269029789531335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document cc
+0.0003573757493252864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document cc
+0.0004600876681392076 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document cc
+0.0002605354166397086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document cc
+0.0003882502452157999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document cc
+0.0002466747612126512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document cc
+0.0004024726105072402 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document cc
+0.00040820631128483644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document cc
+0.0002691094350403538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document cc
+0.00026916830387277267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document cc
+0.0004204663297880574 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document cc
+0.00042379698687085554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document cc
+0.0004502169227311871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document cc
+0.0002661708937015295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document cc
+0.00031239486948031334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document cc
+0.0003109054589936201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document cc
+0.00045873053079760646 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document cc
+0.00022904931423244635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document cc
+0.0003813462028433663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document cc
+0.00039188129256500874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document cc
+0.00045124222276983765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document cc
+0.00048138658436853695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document cc
+0.0003944178776279866 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document cc
+0.00039941569676754006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document cc
+0.00037952761190240494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document cc
+0.0003944870860881476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document cc
+0.0003891842411856621 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document cc
+0.000387688981934861 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document cc
+0.00039197953876258005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document cc
+0.00039007915280311206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document cc
+0.0003995520363699188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document cc
+0.00039230985654592406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document cc
+0.0003929472067173851 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document cc
+0.0003924096172671473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document cc
+0.0003881636143629905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document cc
+0.000389790617937084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document cc
+0.00037351762309221023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document cc
+0.0003630196170929407 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document cc
+0.00033532465765142113 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document cc
+0.0003076088685761823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document cc
+0.00039463850897720803 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document cc
+0.0002843816115231449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document cc
+0.0002909175709416474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document cc
+0.00028867170997202486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document cc
+0.0002838644617723659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document cc
+0.00029027869525543416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document cc
+0.0002821339567560056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document cc
+0.0002922988877045601 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document cc
+0.0002866955958315786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document cc
+0.0002865271754558126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document cc
+0.0002861247475618473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document cc
+0.0002826681072408606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document cc
+0.0002849746458282827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document cc
+0.0002816966633435316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document cc
+0.00026255342235948463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document cc
+0.0002552895098829678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document cc
+0.00025990194083107813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document cc
+0.0002524062657685835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document cc
+0.0002538577379748611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document cc
+0.0002561415177406761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document cc
+0.00026206253059694905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document cc
+0.00026168095406910565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document cc
+0.0002601305742008613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document cc
+0.00025200823006814814 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document cc
+0.0003229951981263502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document cc
+0.00037289448266476045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document cc
+0.0003807825862179898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document cc
+0.0003616333738191483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document cc
+0.0003665117918907636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document cc
+0.0003684186453633228 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document cc
+0.0003589330610806066 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document cc
+0.00036383861418030395 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document cc
+0.000359841363355303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document cc
+0.00036431044063050464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document cc
+0.0003668574090358279 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document cc
+0.000362768263620199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document cc
+0.0003501888032771077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document cc
+0.000352401968221528 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document cc
+0.0003541019701869794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document cc
+0.0003628121865546891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document cc
+0.0003752582953758773 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document cc
+0.00037902046230424966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document cc
+0.0003777927146925147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document cc
+0.0003760676130509053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document cc
+0.00034046049078755405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document cc
+0.0003338847563259091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document cc
+0.00033294499102761794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document cc
+0.0004912026198265864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document cc
+0.00032064363474664014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document cc
+0.00032154190389541214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document cc
+0.00032309660151746207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document cc
+0.00031181143365304544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document cc
+0.00031046092294569104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document cc
+0.00031150165249068046 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document cc
+0.0003041314265988224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document cc
+0.0003024834909739394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document cc
+0.0003019936835833604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document cc
+0.000292329665283177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document cc
+0.0002867061143144972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document cc
+0.00028443615610701707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document cc
+0.00028462291013755945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document cc
+0.0002793538601205013 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document cc
+0.00027306573977044246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document cc
+0.00027097155673336525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document cc
+0.0002752934202112985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document cc
+0.00043042012694697647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document cc
+0.00047495648822986177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document cc
+0.00047755032493473855 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document cc
+0.0004706974343933747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document cc
+0.00046682163297771817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document cc
+0.0004616765425874178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document cc
+0.00030644496751628097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document cc
+0.0002909492555358308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document cc
+0.00027272036068261724 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document cc
+0.0004101070217315588 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document cc
+0.0003728914338834357 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document cc
+0.00036546911442305647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document cc
+0.0003669945482407483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document cc
+0.0003715902407424017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document cc
+0.00035837486406683366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document cc
+0.0003573318538685469 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document cc
+0.0003553784893071916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document cc
+0.0004920659809912352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document cc
+0.0004533619411303183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document cc
+0.00045067066057818706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document cc
+0.00044396985139270645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document cc
+0.00043198288204468477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document cc
+0.00043005174223738454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document cc
+0.00041847118430776784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document cc
+0.00042952036375796664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document cc
+0.00043420594647324267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document cc
+0.0003461123241053012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document cc
+0.0003408581597849182 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document cc
+0.00033172705422182547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document cc
+0.0003392566490686136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document cc
+0.00033578341518385483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document cc
+0.0003439196710518844 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document cc
+0.00034559163447085543 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document cc
+0.00033762478642902825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document cc
+0.00033215210055107224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document cc
+0.00033423579608014966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document cc
+0.0004963355016025102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document cc
+0.0004996862761456923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document cc
+0.0005000551829325451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document cc
+0.0005004212610098755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document cc
+0.00027768695585500585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document cc
+0.00028395983854338433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document cc
+0.00027835826303062254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document cc
+0.0002740073176010804 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document cc
+0.0002791830529274016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document cc
+0.0002796863816194411 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document cc
+0.00026697453022672804 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document cc
+0.0002594197440280141 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document cc
+0.0003779565697649222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document cc
+0.00041835823476586606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document cc
+0.00043788493575265915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document cc
+0.0002731731970096006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document cc
+0.000276305847423402 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document cc
+0.0002704955773958623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document cc
+0.0002629635944827518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document cc
+0.000260070956974436 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document cc
+0.00025661553791456334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document cc
+0.00025794727207576157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document cc
+0.00025295733980001527 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document cc
+0.0003788106407021029 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document cc
+0.0004882344027669431 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document cc
+0.0003275324309642705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document cc
+0.0004803401856640094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document cc
+0.00046720138323433943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document cc
+0.00043527810307095335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document cc
+0.00043905395741627827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document cc
+0.00048774175867331425 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document cc
+0.00048380704121346737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document cc
+0.0004779011848346118 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document cc
+0.00046255587581908036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document cc
+0.00045127922880511576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document cc
+0.0004503891485256095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document cc
+0.0004450142332303422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document cc
+0.00044630282482516654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document cc
+0.00044325014465743616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document cc
+0.0004263874842796447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document cc
+0.0004217530913646938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document cc
+0.000415120314341852 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document cc
+0.00040987168279144537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document cc
+0.00033468337266607834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document cc
+0.0003353094464683005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document cc
+0.0004833936821707294 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document cc
+0.00047194878988920935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document cc
+0.0004648324126996427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document cc
+0.0004562345003964941 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document cc
+0.0004933203505465098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document cc
+0.0003530166075325466 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document cc
+0.00035368548192804685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document cc
+0.0004872620828289663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document cc
+0.00048293889392426456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document cc
+0.00047936768462267655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document cc
+0.00047821013991587545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document cc
+0.0004660610308564753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document cc
+0.000394683430103437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document cc
+0.00039165053441571324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document cc
+0.0003906936040164381 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document cc
+0.00038074803919159006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document cc
+0.0003686529291578143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document cc
+0.00035832920428870976 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document cc
+0.00035929024535947033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document cc
+0.0003538226556050544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document cc
+0.0003584167868708799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document cc
+0.0003480507542594234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document cc
+0.0003413709023543034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document cc
+0.00034001304759361455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document cc
+0.00033430532902756514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document cc
+0.00046519252660631277 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document cc
+0.0002938876402514769 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document cc
+0.00028676090994509047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document cc
+0.00027296150117506716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document cc
+0.00026513502621960483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document cc
+0.0002680081327926125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document cc
+0.00025831225828720344 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document cc
+0.00026647037295561 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document cc
+0.0002525733734572654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document cc
+0.00025831708887575375 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document cc
+0.00042487627444443476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document cc
+0.0004951213245023891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document cc
+0.0004804051413177752 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document cc
+0.0004662397611340532 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document cc
+0.0004550138655253933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document cc
+0.00044494909122746795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document cc
+0.0002899112253051385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document cc
+0.0004372879736279761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document cc
+0.0004529568099252922 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document cc
+0.00045127826158829573 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document cc
+0.0004436558176737439 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document cc
+0.0004419233237678378 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document cc
+0.000434589215880319 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document cc
+0.00029153613207706566 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document cc
+0.0004312458058738854 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document cc
+0.00028741854968757313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document cc
+0.00046853200754421234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document cc
+0.0004949145252030074 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document cc
+0.00044459683920483167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document cc
+0.0003836095306696336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document cc
+0.0003789760237872398 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document cc
+0.0003749227438304427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document cc
+0.0003628558277173369 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document cc
+0.00039468301394041474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document cc
+0.00038874701821614864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document cc
+0.0004158492456077867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document cc
+0.00042360504554060077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document cc
+0.00040386729844317623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document cc
+0.00027595096702902474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document cc
+0.00043638766787829135 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document cc
+0.0002218691596850179 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document cc
+0.0004437566108089954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document cc
+0.0003889996411609667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document cc
+0.00043454421906537704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document cc
+0.0004522564392830988 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document cc
+0.00041517835659357416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document cc
+0.0002614360863446896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document cc
+0.00037543522111463596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document cc
+0.0004386190133514781 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document cc
+0.00046358333286115075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document cc
+0.00043186261317942404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document cc
+0.0002377581602097957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document cc
+0.00025973334085074254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document cc
+0.00040139099332000796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document cc
+0.00043674860686687174 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document cc
+0.00040853289309329373 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document cc
+0.000242910191729688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document cc
+0.0004431071731750582 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document cc
+0.0004388092670482523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document cc
+0.000381418866255965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document cc
+0.0004100117296419717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document cc
+0.00042469230366022745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document cc
+0.00041744151905374254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document cc
+0.00022835699906752945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document cc
+0.0004380161085387397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document cc
+0.00044803212381807456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document cc
+0.00040554932796137236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document cc
+0.0004234508646347761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document cc
+0.00043341209652360653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document cc
+0.00023966604734537185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document cc
+0.000259165907316014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document cc
+0.0004270653021833602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document cc
+0.0004341547032162028 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document cc
+0.0004111478117275994 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document cc
+0.0004299383567984396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document cc
+0.0004241899124590779 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document cc
+0.0004502719349364145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document cc
+0.00038994621469645615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document cc
+0.0003859912398894952 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document cc
+0.0004247535950310557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document cc
+0.000386982084327716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document cc
+0.0004196451040053251 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document cc
+0.0004096278509782259 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document cc
+0.0004373334932695721 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document cc
+0.0004180889975240641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document cc
+0.00042079636929672745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document cc
+0.00038063574611812913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document cc
+0.0003817505891515542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document cc
+0.0004420096268860222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document cc
+0.00039182670726410623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document cc
+0.0003635667850372299 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document cc
+0.00041564996472055667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document cc
+0.000400529358757286 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document cc
+0.0003939113874958451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document cc
+0.00039066622068940996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document cc
+0.0004290098538807143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document cc
+0.0004240739958197099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document cc
+0.00040775392659215333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document cc
+0.0004091634200396925 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document cc
+0.00042299190476617914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document cc
+0.0003701492680344151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document cc
+0.0003807353844384635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document cc
+0.00038813507771983156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document cc
+0.00040072346558408346 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document cc
+0.0003603595180423597 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document cc
+0.00038799421353112465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document cc
+0.00037575235582264926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document cc
+0.0004239190342959713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document cc
+0.0004606044799136546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document cc
+0.00045107950652529253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document cc
+0.0004391947201871058 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document cc
+0.0004457516661123035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document cc
+0.0004301297170991686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document cc
+0.00044661704164586694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document cc
+0.0004438849846114837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document cc
+0.0004444205734316823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document cc
+0.0004190924165303394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document cc
+0.00043942581131677875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document cc
+0.00021568459798090663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document cc
+0.0003814929225407199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document cc
+0.0003217453179359235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document cc
+0.00031719591470267974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document cc
+0.00032434115726922137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document cc
+0.0004079911120371051 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document cc
+0.000329492766381148 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document cc
+0.0003845916162001633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document cc
+0.0003835208964390098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document cc
+0.00037847334157173194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document cc
+0.00038296039903791865 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document cc
+0.00037896336828472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document cc
+0.00037620974396391355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document cc
+0.00037420590727111843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document cc
+0.000340490625886403 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document cc
+0.0003078314411035827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document cc
+0.00034153990750656097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document cc
+0.0003308858103982067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document cc
+0.0003452640607156025 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document cc
+0.00033095276418403455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document cc
+0.0003116308995860414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document cc
+0.00032446713226408477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document cc
+0.0003015816821912984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document cc
+0.00031612418775706894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document cc
+0.0003278516344971041 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document cc
+0.00033079446736097217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document cc
+0.00032278977146550837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document cc
+0.00032065272988207914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document cc
+0.0003936696452406576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document cc
+0.0003450109536627789 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document cc
+0.0003339787189919641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document cc
+0.0003284303856176974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document cc
+0.00033652677276843477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document cc
+0.0003257822443845694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document cc
+0.0003293985569149334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document cc
+0.0003310360260148262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document cc
+0.0003233770986418526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document cc
+0.0003172280092149422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document cc
+0.0003160674744292835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document cc
+0.00030931090289598506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document cc
+0.0003093173886443107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document cc
+0.00033167847081104083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document cc
+0.00031131501311729723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document cc
+0.00031046608876279845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document cc
+0.00030569235942207244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document cc
+0.00030777943671285197 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document cc
+0.00029303314290956683 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document cc
+0.0003045824546400205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document cc
+0.00030360880677729793 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document cc
+0.00031646239964835433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document cc
+0.0003129122300603785 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document cc
+0.00031060464956661433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document cc
+0.000311819032500067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document cc
+0.0002977872483902282 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document cc
+0.0003009448600922438 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document cc
+0.00028610292098537774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document cc
+0.0002988326876216654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document cc
+0.00028550828372819075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document cc
+0.0002830381750875739 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document cc
+0.0002848495855927156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document cc
+0.0002856443760308144 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document cc
+0.00027442895344188584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document cc
+0.0002681160554049462 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document cc
+0.0003421482544126989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document cc
+0.0004005872948449718 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document cc
+0.0003930123959320308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document cc
+0.0003867271832275778 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document cc
+0.000380805140455254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document cc
+0.0003814769861947819 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document cc
+0.00038025170883282324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document cc
+0.0003738026647867475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document cc
+0.00018960856915036276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document cc
+0.0003697177501953134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document cc
+0.00036674194328136693 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document cc
+0.00036447406838697555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document cc
+0.00036686410861101255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document cc
+0.00035915267825103423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document cc
+0.0003624758404026675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document cc
+0.0002822812140180794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document cc
+0.00030620512946920813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document cc
+0.000294249776520589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document cc
+0.00030238536967523434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document cc
+0.00029509593361580754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document cc
+0.0002906912701830899 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document cc
+0.0002921944165474959 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document cc
+0.00028358919691127954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document cc
+0.0002813182772323272 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document cc
+0.00027442640800299205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document cc
+0.0002747820342933984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document cc
+0.0002747584403979717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document cc
+0.00027499129634862444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document cc
+0.0002712050404257197 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document cc
+0.0002616256943143254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document cc
+0.00026769938929002815 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document cc
+0.00038396081322727017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document cc
+0.0003863140490027991 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document cc
+0.00037702277513203237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document cc
+0.0003633274156107032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document cc
+0.0003587473889240435 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document cc
+0.0003507672084278415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document cc
+0.00033776425499780385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document cc
+0.0003377914127574796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document cc
+0.00032948015659161326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document cc
+0.00033245638541392985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document cc
+0.00031080707640648695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document cc
+0.0002976903331149755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document cc
+0.0002965121463725523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document cc
+0.0002933849695266647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document cc
+0.0002837035078508233 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document cc
+0.00028684569079589323 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document cc
+0.0003145192320802359 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document cc
+0.0003566937253273515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document cc
+0.0003470199109592918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document cc
+0.0003060245312041868 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document cc
+0.0002650817213818789 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document cc
+0.0002643604938780134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document cc
+0.000299350876031416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document cc
+0.0003178540797697938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document cc
+0.000271850367887767 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document cc
+0.00031349896596549 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document cc
+0.00031749734412765755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document cc
+0.0003791137842391209 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document cc
+0.0003742334169957992 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document cc
+0.0003705639757351107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document cc
+0.0003126986769797042 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document cc
+0.00031038132814561196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document cc
+0.00036464437173804883 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document cc
+0.0003569480488951322 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document cc
+0.0003541239221619106 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document cc
+0.00035315297411308053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document cc
+0.0003572451925404141 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document cc
+0.0003514986129411253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document cc
+0.0003521798298425866 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document cc
+0.00034553677439244716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document cc
+0.000349004719809412 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document cc
+0.0003468247484872769 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document cc
+0.0003465822608356558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document cc
+0.00035410983132162007 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document cc
+0.0003487908354969444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document cc
+0.0003479024763238147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document cc
+0.000341412530646823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document cc
+0.00034451316273667034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document cc
+0.0002618849993484869 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document cc
+0.00026788679978901144 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document cc
+0.00027450670773227214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document cc
+0.0002661273129899329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document cc
+0.00026836569676402957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document cc
+0.00026155876975483236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document cc
+0.0002609276830117151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document cc
+0.0002644161630512771 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document cc
+0.00036789208972872557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document cc
+0.00037829849439990513 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document cc
+0.0003788894943523098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document cc
+0.0003617207777959397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document cc
+0.0002541334487248998 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document cc
+0.0002707945538071073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document cc
+0.00027046282716455214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document cc
+0.0002652443167243215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document cc
+0.0002685859923850986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document cc
+0.00025734961751176414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document cc
+0.000259041720872915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document cc
+0.00025340107274823446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document cc
+0.00025757135121837893 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document cc
+0.00025617700500574084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document cc
+0.0002566931670562857 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document cc
+0.0002543871190716101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document cc
+0.00024997565589481713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document cc
+0.0002954079779456287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document cc
+0.00034890741135252835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document cc
+0.0003473298137731525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document cc
+0.0003296959618486435 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document cc
+0.0003304520061604598 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document cc
+0.00032377956175729824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document cc
+0.00031700696295168713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document cc
+0.0003060382346081943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document cc
+0.0003012003005056863 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document cc
+0.0002981074073993884 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document cc
+0.0002922128825950705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document cc
+0.000348901087722931 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document cc
+0.0003408286289467841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document cc
+0.0003410649680770183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document cc
+0.0003358524215576502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document cc
+0.0003343661874989231 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document cc
+0.00032810573699389156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document cc
+0.00032261449539097497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document cc
+0.0003162694866049203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document cc
+0.0003158381156468853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document cc
+0.000317376061083603 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document cc
+0.0003125788639953052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document cc
+0.0003010105041885602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document cc
+0.0003065865059090678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document cc
+0.0003084275726508053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document cc
+0.00030966560718296085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document cc
+0.0002957728057853081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document cc
+0.00029904164542325336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document cc
+0.0002955358888729187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document cc
+0.00028692976446931544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document cc
+0.0002923476214935797 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document cc
+0.0002893691697212419 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document cc
+0.0002855895211981585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document cc
+0.00027968347097626246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document cc
+0.0002810783462604979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document cc
+0.00027794080455729715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document cc
+0.00034784376461416953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document cc
+0.0003488347959010943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document cc
+0.00034790583710250724 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document cc
+0.000345913166618151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document cc
+0.00033801936268066675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document cc
+0.0003290591130212315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document cc
+0.00034051399521366823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document cc
+0.00032470943131841784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document cc
+0.00031679540050914276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document cc
+0.00031814596342422325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document cc
+0.0003156466289485036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document cc
+0.00029985010879003633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document cc
+0.0002905176377776361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document cc
+0.0004206836775460856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document cc
+0.00020660449162246918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document cc
+0.0003461727254468087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document cc
+0.00020592870907067763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document cc
+0.00034173505299233005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document cc
+0.0004052437256652738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document cc
+0.0004080650901351697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document cc
+0.00039778184149144276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document cc
+0.00039046311464950275 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document cc
+0.00039043444911071384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document cc
+0.000388575704932843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document cc
+0.00019737533145666597 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document cc
+0.00037610755595812403 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document cc
+0.00037315400127598317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document cc
+0.00037415028580922163 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document cc
+0.00036694041707212337 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document cc
+0.00018947219857306515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document cc
+0.00037046050826533545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document cc
+0.0003587440768559087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document cc
+0.00034623936498708903 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document cc
+0.0003502289592617922 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document cc
+0.00034692398063649823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document cc
+0.000339340809421849 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document cc
+0.0003360510394816983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document cc
+0.0003354673850814145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document cc
+0.00032937682875877047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document cc
+0.00032844505049317715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document cc
+0.00028287199339908627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document cc
+0.0002795217197003578 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document cc
+0.00028048955601883463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document cc
+0.0002769326396439027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document cc
+0.0002727090021299243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document cc
+0.0002726577841024554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document cc
+0.00026663619593455374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document cc
+0.00026068042672138127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document cc
+0.0002637704114326801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document cc
+0.0002593043567100412 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document cc
+0.0002599897110113453 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document cc
+0.0002435078682758859 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document cc
+0.0002450530071379054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document cc
+0.00024233331983743606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document cc
+0.0002934750947999535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document cc
+0.00033241226364044474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document cc
+0.00032938406090272075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document cc
+0.00032778705403953246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document cc
+0.00032184551480398754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document cc
+0.00031874002264945737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document cc
+0.0003165319685666433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document cc
+0.00031307071173376295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document cc
+0.00031119524184911957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document cc
+0.0003102253344576429 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document cc
+0.0003088976240383192 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document cc
+0.0002951410823077708 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document cc
+0.00029772657676757413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document cc
+0.0003056048989909935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document cc
+0.00031991305381648026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document cc
+0.00030890256978362426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document cc
+0.0003109382904091933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document cc
+0.00031035798529690644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document cc
+0.00030741666395911753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document cc
+0.0002989918594861846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document cc
+0.00029569635443989434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document cc
+0.0002973992445667285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document cc
+0.000293397351001072 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document cc
+0.00028737817438047954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document cc
+0.00028252738144009747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document cc
+0.0002805511898623541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document cc
+0.0003718020784620472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document cc
+0.0003499713845765235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document cc
+0.00034283547445326676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document cc
+0.00031464759888838765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document cc
+0.00033188946446414833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document cc
+0.000326084432195463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document cc
+0.0003764568303917893 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document cc
+0.0003604955598858414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document cc
+0.0003655654554133222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document cc
+0.00035762304033750504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document cc
+0.00038478883950347103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document cc
+0.00027735714341247454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document cc
+0.00028139534607773563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document cc
+0.00019777292251713763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document cc
+0.000285571704874486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document cc
+0.00028543482146244363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document cc
+0.00019434234484256758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document cc
+0.00027854908176986763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document cc
+0.0002847068039566143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document cc
+0.00028672356943064853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document cc
+0.00027782687605808177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document cc
+0.0002843539634105203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document cc
+0.0002894748379090401 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document cc
+0.0002868852440186493 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document cc
+0.0002818504885373851 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document cc
+0.00028680112812941034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document cc
+0.00019258978168723977 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document cc
+0.00028760637934715155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document cc
+0.0002820439443912918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document cc
+0.0002831001054410018 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document cc
+0.00029001901552467397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document cc
+0.00027779449377883156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document cc
+0.00019949837437516796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document cc
+0.0002907306472984446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document cc
+0.00027814858381318327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document cc
+0.00019472790889161432 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document cc
+0.00020472626596924125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document cc
+0.0002870045081974301 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document cc
+0.00019812241927078482 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document cc
+0.0002817553333369554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document cc
+0.00027829782796642117 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document cc
+0.00028289431732284113 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document cc
+0.0002795526296717729 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document cc
+0.00027682829988044574 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document cc
+0.0002895432402719184 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document cc
+0.0002823174903941811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document cc
+0.00028170972351837796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document cc
+0.00027807915877838826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document cc
+0.00028588515681452956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document cc
+0.00028112324090816726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document cc
+0.00020636178289985485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document cc
+0.00019447255290980535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document cc
+0.0002850824220591452 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document cc
+0.00027856429520116784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document cc
+0.0002820880676635633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document cc
+0.00028943902215995714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document cc
+0.0002676366291085329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document cc
+0.00023806333809954687 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document cc
+0.00024526460430233455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document cc
+0.00023876876664622726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document cc
+0.00023379770334179805 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document cc
+0.00024175151269138382 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document cc
+0.00023386583242595706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document cc
+0.00023771797150160827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document cc
+0.0002262748967483896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document cc
+0.0002408148346432682 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document cc
+0.00023398651720444235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document cc
+0.00022989433874474592 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document cc
+0.00023948500543957772 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document cc
+0.0002331594076859196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document cc
+0.00023375132439600242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document cc
+0.00023923410909668642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document cc
+0.00023952796315562954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document cc
+0.0002327466076905069 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document cc
+0.00023082758956797212 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document cc
+0.0002240509275524448 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document cc
+0.00022798879995765268 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document cc
+0.000221172516774386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document cc
+0.00021767045123534623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document cc
+0.00021982832794804484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document cc
+0.00021971626543789102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document cc
+0.00022566565206920132 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document cc
+0.0002181984894194856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document cc
+0.00021831417549554653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document cc
+0.00021601405421187145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document cc
+0.00022275733725519607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document cc
+0.00021847734911973986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document cc
+0.0002243591012664014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document cc
+0.00021688758139483833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document cc
+0.0002182953624789215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document cc
+0.00020475155724026002 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document cc
+0.00021498078062960065 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document cc
+0.0002157914337233064 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document cc
+0.00021781838494967963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document cc
+0.00021723242266814558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document cc
+0.0002176782686553837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document cc
+0.0003486179404943968 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document cc
+0.00034882846352857634 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document cc
+0.00031400868448352596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document cc
+0.00030273484020011963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document cc
+0.00029895889118145404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document cc
+0.00029770764609621714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document cc
+0.0002990181332116852 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document cc
+0.00029653733972285996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document cc
+0.00029624649222942476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document cc
+0.00029625609720203576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document cc
+0.00029731928930852147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document cc
+0.00029011721326148513 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document cc
+0.00028849788197494655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document cc
+0.00021601278623858145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document cc
+0.00021319599281739178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document cc
+0.0002153325290600083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document cc
+0.00018566946174516558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document cc
+0.00020736824394291617 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document cc
+0.00020857419820128004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document cc
+0.00020058526129536423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document cc
+0.00020745812166665217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document cc
+0.00020652171015271702 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document cc
+0.00020643808911278608 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document cc
+0.00020040513914482103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document cc
+0.00020598050188272898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document cc
+0.0001969184139343296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document cc
+0.0001972748812937012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document cc
+0.0002038556751586195 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document cc
+0.00020245186011313464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document cc
+0.00019950381422038783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document cc
+0.00020837055459665258 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document cc
+0.00020371856218246096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document cc
+0.00019537612301625791 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document cc
+0.00019914984508813857 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document cc
+0.0002053787713691309 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document cc
+0.00019082100541008637 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document cc
+0.00020397153334531813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document cc
+0.0002021462693077317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document cc
+0.00019609357008124035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document cc
+0.00019693256622486236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document cc
+0.00020007239732428112 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document cc
+0.00020467075741591954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document cc
+0.00019584883400022932 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document cc
+0.00019135050391176972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document cc
+0.0003362829834208298 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document cc
+0.00034013691154784095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document cc
+0.00033215887031941976 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document cc
+0.00032681189065396707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document cc
+0.0003149138485493094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document cc
+0.00030179177307540077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document cc
+0.0002923278437581119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document cc
+0.00029470052278994486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document cc
+0.0002994095093045731 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document cc
+0.00029033525096085037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document cc
+0.00029390798852496565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document cc
+0.0002916230924130842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document cc
+0.00029419886374594913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document cc
+0.0002865469756730764 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document cc
+0.00021191292549942086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document cc
+0.00021369664817409847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document cc
+0.00021612485624266726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document cc
+0.00022242192634588478 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document cc
+0.00014605095659989698 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document cc
+0.00022070626106341693 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document cc
+0.0002174420774054071 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document cc
+0.00021325858963116995 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document cc
+0.0002124322999488052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document cc
+0.0002081218896969054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document cc
+0.0002108710211556957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document cc
+0.00020686867095978426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document cc
+0.00020895752681041895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document cc
+0.00020741922266415738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document cc
+0.0002069112657197308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document cc
+0.00020644627473468118 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document cc
+0.00020332991338121604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document cc
+0.0003560895677789848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document cc
+0.00032915779111908214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document cc
+0.00033810613317040864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document cc
+0.00033729626594036923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document cc
+0.00033550342864602944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document cc
+0.00034173474024556906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document cc
+0.000331505340748827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document cc
+0.0003270050330117195 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document cc
+0.00032585275329172556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document cc
+0.0003143383203190604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document cc
+0.00031655199110388894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document cc
+0.00030738872158476413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document cc
+0.00030838388352699285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document cc
+0.0003053596995351888 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document cc
+0.00031836304739584593 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document cc
+0.000315315435873905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document cc
+0.0003087116248965243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document cc
+0.00030396790625537645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document cc
+0.0003335812246032149 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document cc
+0.00034570956323095843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document cc
+0.00034563035636675786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document cc
+0.00033411265479076335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document cc
+0.00034439191141692787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document cc
+0.0003364483125496565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document cc
+0.0003299500453608033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document cc
+0.00033163377700074837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document cc
+0.00032638649660627673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document cc
+0.00032616167939645234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document cc
+0.0003205289298760723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document cc
+0.00031939393740815355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document cc
+0.00031593164066731296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document cc
+0.00031928871111254405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document cc
+0.00029670189073175004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document cc
+0.00020517703846735904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document cc
+0.00020128418186172073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document cc
+0.00019662723895606717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document cc
+0.0001981157042081407 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document cc
+0.00019703489037041608 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document cc
+0.00019079796331785068 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document cc
+0.0001909352306690079 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document cc
+0.00018824662295261396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document cc
+0.00019864275319325954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document cc
+0.00018818516521649587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document cc
+0.00018875694972812844 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document cc
+0.00018231621170645482 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document cc
+0.00018349407845798273 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document cc
+0.00018088971427746906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document cc
+0.00018296284236327237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document cc
+0.0001876011825819916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document cc
+0.000329052068725176 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document cc
+0.00032223616273648536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document cc
+0.00031272564089633955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document cc
+0.00031621609908414494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document cc
+0.0003117213560911235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document cc
+0.00030218064069945934 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document cc
+0.00030658916600512085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document cc
+0.0002915863534115821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document cc
+0.0002940280138374372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document cc
+0.00029067860468866085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document cc
+0.00028529228063135635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document cc
+0.00028336893301452256 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document cc
+0.0002794668089130099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document cc
+0.00021681361378827842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document cc
+0.0001484664674497246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document cc
+0.00021950558378215133 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document cc
+0.00021806860758808645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document cc
+0.00021819568718852282 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document cc
+0.00021626925931585001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document cc
+0.0001464536143077762 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document cc
+0.00021432777088808917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document cc
+0.000213473805865147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document cc
+0.00021397067253964538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document cc
+0.00020758957647437263 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document cc
+0.00020687124337683314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document cc
+0.00020630057046511005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document cc
+0.0002091166859352538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document cc
+0.00020777355025615267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document cc
+0.00020709287641496176 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document cc
+0.00020736464660577094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document cc
+0.00020062246741862607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document cc
+0.00020693207561942915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document cc
+0.00021151004871893024 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document cc
+0.00019930249098689716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document cc
+0.00021589710041231824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document cc
+0.00021369204789905741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document cc
+0.0002147099923936778 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document cc
+0.00021077531190389536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document cc
+0.0002100509829113836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document cc
+0.00021185362601571124 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document cc
+0.00020722136637339565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document cc
+0.00020300093701169531 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document cc
+0.00019859737993313477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document cc
+0.00019971314372100164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document cc
+0.00019549908270269278 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document cc
+0.00019649820843534028 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document cc
+0.00019619415513498067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document cc
+0.00019493006120377898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document cc
+0.00019499409035775506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document cc
+0.00019252988593634277 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document cc
+0.00019440768268686405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document cc
+0.00018747161324755577 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document cc
+0.0001879575932372779 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document cc
+0.00019040707058357506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document cc
+0.0001871931095090703 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document cc
+0.00020112966223017096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document cc
+0.00020516878165311017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document cc
+0.00020664735191740533 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document cc
+0.00021041398572882962 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document cc
+0.00020397992929690396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document cc
+0.0002039978580295561 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document cc
+0.00020592785601142126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document cc
+0.0001990755527445265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document cc
+0.00019729564847798732 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document cc
+0.00019958182230527032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document cc
+0.0001985037302636386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document cc
+0.00020204130355115716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document cc
+0.0002000296401958085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document cc
+0.0001983064832295463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document cc
+0.00019663108484195617 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document cc
+0.00019510678560556523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document cc
+0.0001873284057063206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document cc
+0.00019311553072495885 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document cc
+0.00034652137288816547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document cc
+0.0002813690318850024 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document cc
+0.00027697649713138685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document cc
+0.0002755419092534421 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document cc
+0.0002681583054440219 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document cc
+0.00026945753192750824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document cc
+0.00026169470768245737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document cc
+0.00026437008960810825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document cc
+0.0002637294838228 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document cc
+0.00026491867965088836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document cc
+0.00025504483625138986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document cc
+0.0002545040623796586 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document cc
+0.0002546682814073622 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document cc
+0.00025545439487142615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document cc
+0.0002626896557978271 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document cc
+0.00025092040940402784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document cc
+0.0002589154885863872 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document cc
+0.00024106160482721467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document cc
+0.0002483289690087987 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document cc
+0.0002388930282784437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document cc
+0.00024006340759273874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document cc
+0.00023765248178029045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document cc
+0.00023061351965578936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document cc
+0.00024954224883546477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document cc
+0.00017861017233018525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document cc
+0.00017810832743667658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document cc
+0.00017599709170759497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document cc
+0.00017462723516505223 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document cc
+0.0002906316527068669 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document cc
+0.00033762141066247166 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document cc
+0.00017170670574152494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document cc
+0.00017258674515137717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document cc
+0.0002815386173173926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document cc
+0.0002996845935618989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document cc
+0.0002735268488987296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document cc
+0.0002971738713071517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document cc
+0.0002942690674002763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document cc
+0.0003322222207729567 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document cc
+0.0003378721656198464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document cc
+0.00018307262621851067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document cc
+0.00033956081502775057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document cc
+0.00031604820927876276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document cc
+0.00028805657681088917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document cc
+0.00026312293321215633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document cc
+0.00034366936722921455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document cc
+0.0002865256504406559 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document cc
+0.0003063615195861786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document cc
+0.00028412791619666136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document cc
+0.00028060835132727154 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document cc
+0.00032544974761560506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document cc
+0.0002647177833217225 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document cc
+0.0003152621884896575 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document cc
+0.0003054625140336913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document cc
+0.00031183308312292263 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document cc
+0.00018175026696621178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document cc
+0.00017699918328872 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document cc
+0.00018222339261441908 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document cc
+0.00018348005930964137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document cc
+0.0001810735993810541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document cc
+0.00030846441282038914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document cc
+0.0002972326889310354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document cc
+0.00017433421318235594 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document cc
+0.00032799458649525895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document cc
+0.00032482130048512673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document cc
+0.00031943465668672475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document cc
+0.00029615593630484517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document cc
+0.0002893126939511001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document cc
+0.0002849288351723284 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document cc
+0.00028383906633569267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document cc
+0.00028072526091262615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document cc
+0.000284239564292377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document cc
+0.0002778903109432523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document cc
+0.0002771644389501471 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document cc
+0.0002733316182319337 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document cc
+0.00026362539185869363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document cc
+0.0002636325383220217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document cc
+0.00026740622442302886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document cc
+0.0002646771971853427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document cc
+0.0002628566720605389 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document cc
+0.0002644760695434766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document cc
+0.0002623837702310999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document cc
+0.00026088722976772894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document cc
+0.0002567065374799158 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document cc
+0.00018857382101207726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document cc
+0.00019036580399817203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document cc
+0.00018348828065261222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document cc
+0.00018491851780345073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document cc
+0.00018904887260080187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document cc
+0.0001875609304251801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document cc
+0.00018393034720015817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document cc
+0.00018419795526114903 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document cc
+0.00018699955623404795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document cc
+0.00018276256902965128 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document cc
+0.00017698045695190812 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document cc
+0.00018104650132303642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document cc
+0.00017758206731279688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document cc
+0.00017131402995103497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document cc
+0.000175944428350446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document cc
+0.0003416745727147391 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document cc
+0.0003163259373952889 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document cc
+0.0002804489269172448 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document cc
+0.00028748272397403175 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document cc
+0.00027603318345630605 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document cc
+0.000271638824679648 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document cc
+0.0002763761210210942 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document cc
+0.00026501984873172717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document cc
+0.00026422486894694714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document cc
+0.0002686339100849262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document cc
+0.0002610837453940606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document cc
+0.000260974343729353 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document cc
+0.0002599403837029134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document cc
+0.0002937273113238609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document cc
+0.0003341790732600504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document cc
+0.0002620661576600244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document cc
+0.0003027929169239288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document cc
+0.00031944039129326894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document cc
+0.00019025676304139009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document cc
+0.00018680910145009907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document cc
+0.00034215840419416437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document cc
+0.00018618120812119364 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document cc
+0.00018605853095599425 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document cc
+0.00018120712626096538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document cc
+0.00018315079292495327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document cc
+0.00018362556449041974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document cc
+0.0001780024456718171 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document cc
+0.00033296526436178697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document cc
+0.0001802398632282846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document cc
+0.00017340263100798256 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document cc
+0.00017755840547238697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document cc
+0.00018419413735260606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document cc
+0.00017869518174591322 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document cc
+0.00017526271460129484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document cc
+0.00017852168597981907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document cc
+0.00017566536156787157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document cc
+0.00017589867964432936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document cc
+0.00017831487394075305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document cc
+0.00017837310528935862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document cc
+0.00018200908814216548 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document cc
+0.0001795136627511612 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document cc
+0.0003414021775300033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document cc
+0.00017177291787788502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document cc
+0.0003441900648571877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document cc
+0.0003394534597060673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document cc
+0.0003236887233114832 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document cc
+0.0001639544129688747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document cc
+0.00019137443753211255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document cc
+0.00018575146284680153 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document cc
+0.00019184792863440243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document cc
+0.00018966043065679055 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document cc
+0.00017968851317035848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document cc
+0.00018479881897661546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document cc
+0.0001813642692683015 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document cc
+0.0001686449798983066 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document cc
+0.00018516104592230446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document cc
+0.00031283726601066385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document cc
+0.0003248607542883853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document cc
+0.00031583241601202365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document cc
+0.00031238270857730376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document cc
+0.000307150592403979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document cc
+0.00029443829986847044 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document cc
+0.0002942723732234677 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document cc
+0.00023514930666443422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document cc
+0.0020776328951453444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document cc
+0.0021768234410538883 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document cc
+0.002106973549276289 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document cc
+0.002110915756171751 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document cc
+0.0017032382109816464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document cc
+0.0019047944877712286 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document cc
+0.0019402711744016077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document cc
+0.0006264790011223686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document cc
+0.0017885401938106643 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document cc
+0.0003547982093445404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document falcon
+0.00035934014428504944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document falcon
+0.00035707704501371544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document falcon
+0.00035287930712815354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document falcon
+0.00035977166728996823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document falcon
+0.0003581675664109838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document falcon
+0.0003548617059697185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document falcon
+0.0003639582000286208 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document falcon
+0.00035375839698688127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document falcon
+0.0003743722020080678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document falcon
+0.0003530399715341242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document falcon
+0.00035511875882752406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document falcon
+0.0003618733574783154 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document falcon
+0.00035185243285420104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document falcon
+0.0003541503739732106 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document falcon
+0.0003631679485751914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document falcon
+0.00035748045578182274 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document falcon
+0.0003606490690555877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document falcon
+0.0003626383296610091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document falcon
+0.00035442644361264756 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document falcon
+0.00035978370170539796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document falcon
+0.0003585562375341541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document falcon
+0.0003601958372888019 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document falcon
+0.000350277765402227 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document falcon
+0.0003616521184211704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document falcon
+0.0003620625543608188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document falcon
+0.0003560781983850704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document falcon
+0.0003553209610592676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document falcon
+0.00035905348643915075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document falcon
+0.00034744258805696526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document falcon
+0.00035462784035661496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document falcon
+0.00034768186175100895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document falcon
+0.0003568534635532736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document falcon
+0.00035586511544371234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document falcon
+0.0003524567827568137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document falcon
+0.0003512453770426313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document falcon
+0.0003591792726468799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document falcon
+0.0003514024529343127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document falcon
+0.0003584880112586934 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document falcon
+0.00035133552916418045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document falcon
+0.0003600811981350215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document falcon
+0.0003571663974228119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document falcon
+0.00035768103378874214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document falcon
+0.00035939205561113694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document falcon
+0.00035186773916029825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document falcon
+0.0003542829672490847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document falcon
+0.0003592783642898726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document falcon
+0.0003556367340099302 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document falcon
+0.00035391392271377027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document falcon
+0.00035486725707484836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document falcon
+0.00034866743396828035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document falcon
+0.0003517219808644735 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document falcon
+0.00034874458549673823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document falcon
+0.000355773136961014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document falcon
+0.00035611750387841917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document falcon
+0.00035305602013916315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document falcon
+0.0003578207127071924 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document falcon
+0.00035514635841943707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document falcon
+0.00034816946212866206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document falcon
+0.0003512707269761496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document falcon
+0.0003483392117980654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document falcon
+0.0003572169607204321 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document falcon
+0.00035139153281660794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document falcon
+0.00035536422129036537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document falcon
+0.000352017164107143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document falcon
+0.000351889550179365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document falcon
+0.000358759689953589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document falcon
+0.0003569286079869268 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document falcon
+0.0003657752958602099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document falcon
+0.00035396127934790697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document falcon
+0.0003618565071224743 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document falcon
+0.00035146051531973204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document falcon
+0.00036107135765783567 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document falcon
+0.00035019554279994576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document falcon
+0.00035567858879904983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document falcon
+0.0003504753174793183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document falcon
+0.00035931140831329194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document falcon
+0.0003502967866002823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document falcon
+0.0003532911801041972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document falcon
+0.0003583543013070199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document falcon
+0.0003566243489931224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document falcon
+0.0003468752314799221 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document falcon
+0.0003597840618138091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document falcon
+0.00035128822484768084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document falcon
+0.00035889496943437507 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document falcon
+0.000352400524650424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document falcon
+0.0003518689536768735 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document falcon
+0.00035866864741303467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document falcon
+0.0003454687659106334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document falcon
+0.00035348007259317576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document falcon
+0.0003539752270940644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document falcon
+0.00035146495994081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document falcon
+0.00035397212846310423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document falcon
+0.00035208246467162587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document falcon
+0.0003490843168676626 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document falcon
+0.00035299633658644394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document falcon
+0.00034868327466167065 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document falcon
+0.00035941351365601583 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document falcon
+0.0003545343062735255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document falcon
+0.0003528956380445978 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document falcon
+0.0003553355770443352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document falcon
+0.0003644224004937743 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document falcon
+0.00035234291036216907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document falcon
+0.0003596237469847771 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document falcon
+0.0003531996065735989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document falcon
+0.0003547177054106099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document falcon
+0.0003575586499260483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document falcon
+0.00035262635135283667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document falcon
+0.0003624191962188944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document falcon
+0.0003488398052948616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document falcon
+0.0003598294093147917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document falcon
+0.00035583006534466323 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document falcon
+0.00035403139653225103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document falcon
+0.00036134702642187156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document falcon
+0.0003573689927162834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document falcon
+0.0003577141131435527 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document falcon
+0.00035208814419277406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document falcon
+0.00035996720683665625 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document falcon
+0.00035415304658912596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document falcon
+0.00036353353029443546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document falcon
+0.0003537326003150983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document falcon
+0.00036053976358299083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document falcon
+0.000352380489373494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document falcon
+0.00036154661616900994 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document falcon
+0.00035959332325963614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document falcon
+0.0003597954667189692 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document falcon
+0.0003563108270597542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document falcon
+0.0003582891940460143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document falcon
+0.0003497728210484297 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document falcon
+0.0003549834902179354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document falcon
+0.0003529828233484542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document falcon
+0.00034627483903285777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document falcon
+0.00035569006572589215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document falcon
+0.00035449377946910314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document falcon
+0.00035802844396194623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document falcon
+0.0003617277809353208 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document falcon
+0.00035034118898654814 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document falcon
+0.000351091193908611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document falcon
+0.0003527914342210668 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document falcon
+0.00035028288369781376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document falcon
+0.00035775745592780506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document falcon
+0.0003449630690661468 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document falcon
+0.0003583490698830361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document falcon
+0.0003476995746684122 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document falcon
+0.0003535632505019212 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document falcon
+0.00035640180641147417 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document falcon
+0.000361731045691765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document falcon
+0.0003534082129597368 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document falcon
+0.0003550344149828664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document falcon
+0.00035363002411364057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document falcon
+0.0003537265579677396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document falcon
+0.00034950531383577937 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document falcon
+0.00035008511827347514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document falcon
+0.00035594533400871325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document falcon
+0.00035266312861335946 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document falcon
+0.00035280268794863923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document falcon
+0.0003565470391528536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document falcon
+0.0003588492322689137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document falcon
+0.00035469909697832775 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document falcon
+0.00034712082813410526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document falcon
+0.000348701157101807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document falcon
+0.0003500192014479944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document falcon
+0.00035120560544669755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document falcon
+0.00035403656850437445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document falcon
+0.00035852376560749366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document falcon
+0.0003534754068111774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document falcon
+0.00035591740046720765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document falcon
+0.000348522354782563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document falcon
+0.0003533533959664415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document falcon
+0.00035631425964030697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document falcon
+0.0003485886551574741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document falcon
+0.00035917652631065777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document falcon
+0.0003482975272111288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document falcon
+0.00035580661277480167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document falcon
+0.0003492290722955348 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document falcon
+0.00034989284450240613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document falcon
+0.0003545677216162781 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document falcon
+0.00034622286859463484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document falcon
+0.00036070626989861965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document falcon
+0.00035518365036320786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document falcon
+0.00035272907057848406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document falcon
+0.0003547343638218734 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document falcon
+0.0003496450144966242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document falcon
+0.0003537407829294287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document falcon
+0.0003489722653985685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document falcon
+0.00035057186899911295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document falcon
+0.0003507566548933051 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document falcon
+0.00035630360179023747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document falcon
+0.00035631362503416367 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document falcon
+0.0003490204248026821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document falcon
+0.00035761724058371226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document falcon
+0.00035037664777467137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document falcon
+0.000353402110481068 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document falcon
+0.00034524163568371745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document falcon
+0.00035528523728570974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document falcon
+0.00034784916132431703 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document falcon
+0.00034928476408048925 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document falcon
+0.00034989205973784984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document falcon
+0.00034201664404094254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document falcon
+0.0003529676016338611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document falcon
+0.00034643433682346637 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document falcon
+0.0003511666373001904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document falcon
+0.00034828669066575333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document falcon
+0.0003494625207264413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document falcon
+0.0003458957535879216 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document falcon
+0.0003543020478990003 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document falcon
+0.00034754384069014956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document falcon
+0.0003598856392240133 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document falcon
+0.0003503335458553846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document falcon
+0.00035919595619778716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document falcon
+0.00035767737970754404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document falcon
+0.00035197152783998165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document falcon
+0.0003549609834422404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document falcon
+0.0003568184100569753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document falcon
+0.0003512652818651935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document falcon
+0.00035912648958665754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document falcon
+0.00034764526964056546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document falcon
+0.000352439784960359 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document falcon
+0.00035295886560764226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document falcon
+0.0003518132693658672 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document falcon
+0.00035589987915465713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document falcon
+0.00034923863317385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document falcon
+0.0003457987267929692 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document falcon
+0.0003560928663480501 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document falcon
+0.0003529603811204932 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document falcon
+0.0003524438555443043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document falcon
+0.0003438847030263783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document falcon
+0.00035981978898461613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document falcon
+0.0003446342778566972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document falcon
+0.00035529584995236537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document falcon
+0.00034855740895831116 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document falcon
+0.00034932634912802544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document falcon
+0.00035805518303064666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document falcon
+0.0003497941877073061 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document falcon
+0.00035774398685405447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document falcon
+0.0003560421780316607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document falcon
+0.0003508844468369392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document falcon
+0.00035731928892270107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document falcon
+0.0003557884626314314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document falcon
+0.00034992996760289355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document falcon
+0.000360752554360921 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document falcon
+0.0003452321668708545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document falcon
+0.0003591745226131023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document falcon
+0.00035256981433229084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document falcon
+0.00035378123159712034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document falcon
+0.000350464354895999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document falcon
+0.00035074625557389677 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document falcon
+0.00035025894701994667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document falcon
+0.00035437902514857614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document falcon
+0.0003514684519732232 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document falcon
+0.00035449717909633905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document falcon
+0.0003436816402714221 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document falcon
+0.00035139158071782116 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document falcon
+0.0003509424079843335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document falcon
+0.000343894618577506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document falcon
+0.0003500789770661659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document falcon
+0.0003407788080680086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document falcon
+0.0003581908175239701 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document falcon
+0.0003465541618780918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document falcon
+0.00034600228792437736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document falcon
+0.00034416738982773204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document falcon
+0.0003519900340150641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document falcon
+0.000343369616864659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document falcon
+0.0003544993883274688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document falcon
+0.0003504441365073392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document falcon
+0.00034859160702727056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document falcon
+0.00035355909532647185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document falcon
+0.0003471900922691849 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document falcon
+0.0003563015508709187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document falcon
+0.0003487888744148821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document falcon
+0.00034711767548688336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document falcon
+0.0003530734609369085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document falcon
+0.00035123969242560935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document falcon
+0.0003517127620891489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document falcon
+0.00035232835416868673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document falcon
+0.0003524437481912308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document falcon
+0.0003525996167005602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document falcon
+0.00035064770545242043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document falcon
+0.00035311558274981226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document falcon
+0.00034952204800569914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document falcon
+0.0003541471367344846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document falcon
+0.00035418812454561825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document falcon
+0.0003528951372900714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document falcon
+0.0003542338042975688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document falcon
+0.00034937738939942796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document falcon
+0.0003522182190878447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document falcon
+0.0003501406466507449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document falcon
+0.00034973079877492633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document falcon
+0.0003485274567713538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document falcon
+0.00034999308679368985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document falcon
+0.0003570051724707296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document falcon
+0.00034567230462019706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document falcon
+0.00035529000940160696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document falcon
+0.00034956512308671755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document falcon
+0.0003496962834028953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document falcon
+0.0003468745282493457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document falcon
+0.0003502717155809202 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document falcon
+0.0003556240880896514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document falcon
+0.0003515109488424343 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document falcon
+0.0003563156688192592 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document falcon
+0.00035040277363989817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document falcon
+0.0003481408593290717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document falcon
+0.0003624575124332874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document falcon
+0.0003522684124250313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document falcon
+0.00035286996027653544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document falcon
+0.00034967623997256725 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document falcon
+0.00035182649587602765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document falcon
+0.0003524892557026489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document falcon
+0.0003507642477451811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document falcon
+0.00036190408389835666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document falcon
+0.00035102739424880766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document falcon
+0.00035239718753257265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document falcon
+0.00035298076121821316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document falcon
+0.0003478704389752654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document falcon
+0.0003503109191567942 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document falcon
+0.00035143250975654426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document falcon
+0.0003480663923069012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document falcon
+0.00035691540219998623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document falcon
+0.000348815437166351 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document falcon
+0.00035202073257766225 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document falcon
+0.0003491569096274706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document falcon
+0.00035277390475511834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document falcon
+0.0003524972090026609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document falcon
+0.0003504854249750236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document falcon
+0.00034740238025423914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document falcon
+0.00034968015462277606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document falcon
+0.0003493798632762674 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document falcon
+0.0003488202537862122 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document falcon
+0.0003525461864643725 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document falcon
+0.00034903815232825664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document falcon
+0.00035536982539258216 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document falcon
+0.00034858083265155483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document falcon
+0.0003505014973608067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document falcon
+0.00035327984042622104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document falcon
+0.0003503286677453136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document falcon
+0.00035835274842442816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document falcon
+0.00034970302660275595 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document falcon
+0.000357929573140149 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document falcon
+0.0003517238649788585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document falcon
+0.00036097027318848475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document falcon
+0.0003502734074110026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document falcon
+0.00035801510806036273 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document falcon
+0.0003568006373479869 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document falcon
+0.00036128108717454636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document falcon
+0.0003563436883111686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document falcon
+0.00035559725321852463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document falcon
+0.00035089656006854944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document falcon
+0.000359453964362057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document falcon
+0.00035629498059104033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document falcon
+0.0003622207707090437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document falcon
+0.0003540946784512821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document falcon
+0.0003594750565232011 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document falcon
+0.0003566007415086991 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document falcon
+0.0003562142599126134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document falcon
+0.0003569948186744601 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document falcon
+0.00035166554847920186 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document falcon
+0.00035047994419295137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document falcon
+0.0003561578193739437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document falcon
+0.00035470866838811544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document falcon
+0.00034216920464876335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document falcon
+0.0003550021513075795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document falcon
+0.0003488045105938729 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document falcon
+0.0003513340720840151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document falcon
+0.0003448558566387584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document falcon
+0.0003460966026953241 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document falcon
+0.0003488157616036459 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document falcon
+0.0003446120387842362 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document falcon
+0.000351528602987427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document falcon
+0.00035661118227454713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document falcon
+0.0003551342699877457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document falcon
+0.0003478953397924445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document falcon
+0.00034625782458988215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document falcon
+0.0003527515447405871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document falcon
+0.00034823744889805696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document falcon
+0.00034823314560254406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document falcon
+0.00035162668292961944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document falcon
+0.0003477307716074623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document falcon
+0.0003446457989477787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document falcon
+0.00034782916273767795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document falcon
+0.0003517249130302248 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document falcon
+0.0003449873430908556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document falcon
+0.00034841291749669877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document falcon
+0.0003466028498941749 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document falcon
+0.0003486436831199424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document falcon
+0.0003478279234211838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document falcon
+0.0003495903653274374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document falcon
+0.00034896893881218957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document falcon
+0.000348941645312426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document falcon
+0.0003474221308416894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document falcon
+0.0003462621543839385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document falcon
+0.0003669373860863891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document falcon
+0.00034691156268163006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document falcon
+0.0003527774103765281 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document falcon
+0.00034684565672734663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document falcon
+0.0003454250599604457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document falcon
+0.0003541536557159006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document falcon
+0.000345735737037366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document falcon
+0.0003524669816385214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document falcon
+0.0003441817133096468 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document falcon
+0.0003519093265859089 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document falcon
+0.00035080085480352095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document falcon
+0.00035285227929327434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document falcon
+0.00034354836346901676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document falcon
+0.00034789770937373467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document falcon
+0.000343665920520102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document falcon
+0.0003490884931060568 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document falcon
+0.00034380029463398654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document falcon
+0.00034874768005099945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document falcon
+0.0003457058510967673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document falcon
+0.00034644265227023904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document falcon
+0.00035008339858594957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document falcon
+0.0003462377193296194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document falcon
+0.0003620491787114201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document falcon
+0.000348717011044469 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document falcon
+0.00034370072363913706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document falcon
+0.0003551981066775649 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document falcon
+0.0003500119496799342 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document falcon
+0.0003485082952669081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document falcon
+0.0003508155580978919 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document falcon
+0.00035311375163251416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document falcon
+0.00034945972003423253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document falcon
+0.0003474220353789879 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document falcon
+0.0003536443686585001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document falcon
+0.0003560350489042953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document falcon
+0.0003493655927914396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document falcon
+0.0003528423977146383 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document falcon
+0.00035255554724471217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document falcon
+0.0003479760010190111 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document falcon
+0.00035458598862501956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document falcon
+0.0003458990560538315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document falcon
+0.00035157946422379875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document falcon
+0.00034736860650169996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document falcon
+0.0003529152313394119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document falcon
+0.00034586294329524465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document falcon
+0.00035707214923794877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document falcon
+0.0003509580363496512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document falcon
+0.00035244176725524474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document falcon
+0.0003467539557999047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document falcon
+0.00034919687962275546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document falcon
+0.00035094031731719953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document falcon
+0.0003484309008351352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document falcon
+0.0003485409424916253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document falcon
+0.0003499590776117838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document falcon
+0.0003492842758957848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document falcon
+0.0003529712275178912 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document falcon
+0.0003566141287087449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document falcon
+0.0003649496522047409 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document falcon
+0.0003563218912208234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document falcon
+0.00035614782126966145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document falcon
+0.0003531944298453266 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document falcon
+0.0003535950949566616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document falcon
+0.0003544295554928795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document falcon
+0.0003519908503740376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document falcon
+0.00035752817626134463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document falcon
+0.0003515322689589972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document falcon
+0.0003486893890307115 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document falcon
+0.0003446520464889867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document falcon
+0.0003509421562481707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document falcon
+0.00035335015702909084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document falcon
+0.0003490178167345008 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document falcon
+0.0003520497821155174 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document falcon
+0.0003549762618908944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document falcon
+0.00035072190850833103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document falcon
+0.0003542458638526423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document falcon
+0.000352419194572916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document falcon
+0.0003545102564672614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document falcon
+0.0003495437992331806 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document falcon
+0.0003542843376993964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document falcon
+0.000352827529313958 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document falcon
+0.00035442506093223886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document falcon
+0.0003496970719044257 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document falcon
+0.0003553096424442362 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document falcon
+0.00034986845565067564 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document falcon
+0.000352131055186658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document falcon
+0.0003527021708198983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document falcon
+0.00034905885414547214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document falcon
+0.0003583433842468394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document falcon
+0.00034409435202828383 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document falcon
+0.00034846410520871483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document falcon
+0.0003554459991927314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document falcon
+0.00035310507471843076 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document falcon
+0.000350028910786098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document falcon
+0.00035049727458009896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document falcon
+0.0003519047735925826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document falcon
+0.0003513027429919726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document falcon
+0.0003626947260354396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document falcon
+0.0003500087324849783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document falcon
+0.0003618315726725285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document falcon
+0.0003535385113938023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document falcon
+0.0003487064058517615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document falcon
+0.0003618709124780938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document falcon
+0.00035040070335625915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document falcon
+0.0003506279032267829 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document falcon
+0.0003498435310527524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document falcon
+0.0003554634749821431 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document falcon
+0.00035091209738758963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document falcon
+0.00035034103678978573 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document falcon
+0.00035398931854386146 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document falcon
+0.00035495529304989485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document falcon
+0.00036067883473356603 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document falcon
+6.322825248625475e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document megawika
+2.4432314037946264e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document megawika
+5.6313888721313454e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document megawika
+2.4208171781595055e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document megawika
+2.325811856369237e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document megawika
+2.4010790356322705e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document megawika
+5.36773610843632e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document megawika
+1.360574433501002e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document megawika
+1.3076540344853244e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document megawika
+1.3386534334886313e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document megawika
+1.2498103719605153e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document megawika
+1.403763836949682e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document megawika
+1.3636756723495417e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document megawika
+1.2242489446940814e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document megawika
+1.2398255818973339e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document megawika
+1.2972616994216281e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document megawika
+1.3947809855914134e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document megawika
+1.3144843787829514e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document megawika
+1.1693809976572487e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document megawika
+1.3677252682893802e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document megawika
+1.3940876719849597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document megawika
+1.4222245138730965e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document megawika
+1.3201677767919704e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document megawika
+1.1421717796486169e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document megawika
+1.2890514724498703e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document megawika
+1.3649507648749037e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document megawika
+1.2400732563490717e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document megawika
+1.1557681453277616e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document megawika
+1.2294483595964517e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document megawika
+1.2137484472122283e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document megawika
+1.3299663426456e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document megawika
+1.2461984216479532e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document megawika
+1.4666434217609636e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document megawika
+1.1876997894686238e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document megawika
+1.2939155338964078e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document megawika
+1.3859590039728515e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document megawika
+1.317917848615668e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document megawika
+1.1335281536110342e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document megawika
+1.2889923952861426e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document megawika
+1.3471671647053326e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document megawika
+1.2221720014475102e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document megawika
+1.2632647276287541e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document megawika
+1.28276219004076e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document megawika
+1.36213704321643e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document megawika
+1.2414858625261553e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document megawika
+1.3173700421883744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document megawika
+1.295597796725686e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document megawika
+1.242783936442904e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document megawika
+1.2417374088427464e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document megawika
+1.2134479405400744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document megawika
+1.3090040663304255e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document megawika
+1.2713470581614905e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document megawika
+5.5750231378906594e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document megawika
+5.777597358425469e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document megawika
+5.349786767471258e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document megawika
+5.675165050453583e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document megawika
+5.482611216158831e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document megawika
+5.065421899890121e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document megawika
+5.384718357480146e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document megawika
+4.872037363236061e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document megawika
+4.532709250783155e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document megawika
+5.7257963030489613e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document megawika
+4.9014365579652036e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document megawika
+5.722863552770969e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document megawika
+6.149911636146833e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document megawika
+5.2178057608273506e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document megawika
+4.990228161160431e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document megawika
+5.866186875255134e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document megawika
+5.004185734360719e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document megawika
+4.79401853705107e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document megawika
+5.435219965052376e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document megawika
+5.035997225792266e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document megawika
+5.622401774211625e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document megawika
+5.028826157387559e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document megawika
+5.596379470128795e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document megawika
+6.027824493191489e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document megawika
+5.5358270009931474e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document megawika
+5.9839051807685496e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document megawika
+5.1221077499249595e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document megawika
+5.517228560620279e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document megawika
+5.1687858285052305e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document megawika
+5.684188244145645e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document megawika
+5.212693275535878e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document megawika
+4.8551007022784084e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document megawika
+5.4888506639203145e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document megawika
+5.345098688527242e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document megawika
+4.8506420625516594e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document megawika
+5.132168603397676e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document megawika
+5.719476795114223e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document megawika
+5.7448621149792696e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document megawika
+4.9068410568059265e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document megawika
+5.382937299647678e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document megawika
+4.8288432136304634e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document megawika
+5.841703200305416e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document megawika
+5.1589611587885584e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document megawika
+6.031113829732574e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document megawika
+5.4558202844532094e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document megawika
+5.341852317196142e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document megawika
+5.1402942738369954e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document megawika
+5.735421384377395e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document megawika
+5.473629863586958e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document megawika
+5.4708993245733936e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document megawika
+4.931161863634078e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document megawika
+5.104173022127248e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document megawika
+5.510157161510824e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document megawika
+5.652501401782597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document megawika
+5.7273656573031666e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document megawika
+5.638363224821738e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document megawika
+5.6128115396668704e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document megawika
+5.00304877998141e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document megawika
+5.596120554779096e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document megawika
+5.5280923889040006e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document megawika
+5.223477917938408e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document megawika
+5.29472809986569e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document megawika
+2.205682378243213e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document megawika
+1.4367563720603185e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document megawika
+3.5506193487931076e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document megawika
+3.0442910855821778e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document megawika
+2.2540042508019627e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document megawika
+2.6880163202623216e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document megawika
+2.534473148048727e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document megawika
+2.6560945431318916e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document megawika
+2.547470248967691e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document megawika
+2.5248825388073738e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document megawika
+2.5828729575000054e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document megawika
+2.4026583817957736e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document megawika
+2.3930425429834413e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document megawika
+2.5037365362599724e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document megawika
+2.6696745470595603e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document megawika
+2.140323051341762e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document megawika
+2.617354786691592e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document megawika
+1.538359101762691e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document megawika
+1.2871029252377856e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document megawika
+2.255195411289217e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document megawika
+2.4832313897952067e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document megawika
+9.303873918189968e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document megawika
+2.179532302620228e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document megawika
+1.9750517506901206e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document megawika
+2.7740420380648435e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document megawika
+2.7813714782319335e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document megawika
+4.1595357937609806e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document megawika
+2.741365122389175e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document megawika
+2.117451071361901e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document megawika
+1.7132649760565998e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document megawika
+1.7492547092602047e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document megawika
+1.7499951097392276e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document megawika
+1.6632444789170958e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document megawika
+1.6678802252361607e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document megawika
+1.5519208704558896e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document megawika
+1.652420992967167e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document megawika
+1.6119931034508755e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document megawika
+1.6638882076736552e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document megawika
+1.7198076782652946e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document megawika
+1.572927860565175e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document megawika
+1.5194822618169918e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document megawika
+1.6677776832669846e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document megawika
+1.595612492245688e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document megawika
+1.682350633181197e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document megawika
+1.663983380609724e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document megawika
+1.710187842689243e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document megawika
+1.5733697527539038e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document megawika
+1.6972104757911438e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document megawika
+1.6610142847616577e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document megawika
+1.61094882403031e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document megawika
+1.4789207305138325e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document megawika
+1.639299617676302e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document megawika
+1.3241204512116132e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document megawika
+8.582260726625535e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document megawika
+8.213000975576739e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document megawika
+9.549247732811947e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document megawika
+9.17242785339013e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document megawika
+7.632868223725218e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document megawika
+8.674401118222175e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document megawika
+9.124384255505347e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document megawika
+8.344222222417358e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document megawika
+8.992299957499065e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document megawika
+8.76689497361025e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document megawika
+7.973396239586015e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document megawika
+9.006935606644125e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document megawika
+8.725545954955498e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document megawika
+1.215449694669174e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document megawika
+3.3041720284158646e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document megawika
+2.0593512412624502e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document megawika
+1.893608946986248e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document megawika
+1.737111666788535e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document megawika
+1.4915923449873955e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document megawika
+2.289370239067605e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document megawika
+2.8615335689614638e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document megawika
+8.847283630883125e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document megawika
+1.8175470362373804e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document megawika
+1.8152226683368038e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document megawika
+1.789149655314284e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document megawika
+1.7690523036477663e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document megawika
+1.8333732213753644e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document megawika
+1.8794105687718654e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document megawika
+1.721841156706417e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document megawika
+2.0612008685724796e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document megawika
+1.9297370681336376e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document megawika
+2.0188440409661018e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document megawika
+5.1741216329695265e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document megawika
+1.3417913926038429e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document megawika
+1.1010813016469651e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document megawika
+1.1252416134320087e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document megawika
+1.2801744104313002e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document megawika
+1.3041514955795817e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document megawika
+1.3428837580879075e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document megawika
+1.320809382267804e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document megawika
+1.3451566676555968e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document megawika
+1.228284926657501e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document megawika
+1.2410599573923043e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document megawika
+1.3815343367377182e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document megawika
+1.3895126265148832e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document megawika
+1.2306773644401741e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document megawika
+1.32981021906281e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document megawika
+1.101337469221607e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document megawika
+1.513094184404692e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document megawika
+1.1073759547073234e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document megawika
+1.2879348765857567e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document megawika
+9.619595770228435e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document megawika
+1.2384340836286436e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document megawika
+1.1766667232211577e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document megawika
+1.2871049236196452e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document megawika
+1.2010645926497744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document megawika
+1.3971428231518597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document megawika
+1.2283733550547932e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document megawika
+1.2659530508255308e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document megawika
+1.551775613074462e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document megawika
+1.1169413343776979e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document megawika
+1.1433700593712463e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document megawika
+4.964773647323492e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document megawika
+1.0995586595687313e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document megawika
+1.2957393071411267e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document megawika
+2.75899247407709e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document megawika
+2.8269344597344854e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document megawika
+2.329108187246831e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document megawika
+2.4231761430460284e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document megawika
+1.2434140512230442e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document megawika
+1.638718338352859e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document megawika
+3.272953556801187e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document megawika
+6.061314500486327e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document megawika
+1.2465979731210292e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document megawika
+1.2737557327967737e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document megawika
+1.038428658075627e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document megawika
+2.61666472045566e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document megawika
+3.6506873212272224e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document megawika
+1.5066359138295701e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document megawika
+1.1166290872121178e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document megawika
+1.5546966228590285e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document megawika
+1.2583434625014828e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document megawika
+1.3398826881300862e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document megawika
+1.2944933160515968e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document megawika
+1.0971437399901365e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document megawika
+1.2787922795775774e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document megawika
+1.404979227816985e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document megawika
+1.3344734431324463e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document megawika
+4.886031157107555e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document megawika
+3.277261443596394e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document megawika
+3.5057957685786495e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document megawika
+3.287625301718589e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document megawika
+3.1370056372668855e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document megawika
+3.186092015785841e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document megawika
+7.271819324142512e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document megawika
+0.001451215788905126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document open-web-math-train
+0.0014486847196258788 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document open-web-math-train
+0.0008861032722895899 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document open-web-math-train
+0.0018119590809459816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document open-web-math-train
+0.0008916937917547129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document open-web-math-train
+6.960128832809415e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document open-web-math-train
+0.002008403651063623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document open-web-math-train
+0.0014374900742131454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document open-web-math-train
+0.00180213596996716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document open-web-math-train
+0.001956178877532413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document open-web-math-train
+0.0008829547017667033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document open-web-math-train
+0.0008910853619157279 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document open-web-math-train
+0.0018260998845299973 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document open-web-math-train
+0.0012499632072059553 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document pes2o
+0.00125398260359913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document pes2o
+0.0012541704774729071 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document pes2o
+0.0012527268234360602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document pes2o
+0.0012532925243737164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document pes2o
+0.0012456396241204315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document pes2o
+0.0012589894424352072 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document pes2o
+0.001508020123999618 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document pes2o
+0.00333096950781965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document pes2o
+0.0033233414614415547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document pes2o
+0.003512387990689828 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document pes2o
+0.0035091382940513126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document pes2o
+0.003514155927147005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document pes2o
+0.003327108000579638 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document pes2o
+0.003329106196589836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document pes2o
+0.003505604148738077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document pes2o
+0.003324825759567855 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document pes2o
+0.0033248240149804913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document pes2o
+0.0033385962112851358 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document pes2o
+0.0035043186296553615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document pes2o
+0.003340469505431529 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document pes2o
+0.0035106889084796276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document pes2o
+0.0033309469281030167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document pes2o
+0.003340337858029757 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document pes2o
+0.003505919861097801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document pes2o
+0.0003882924098240512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document pes2o
+0.0005759963691850877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document reddit
+0.0005959971675332674 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document reddit
+0.0006026179290353799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document reddit
+0.0005824184320784846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document reddit
+0.0005854598548616037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document reddit
+0.0005903767055633473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document reddit
+0.0005930306490982049 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document reddit
+0.000569425602700746 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document reddit
+0.0005675060415179408 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document reddit
+0.0005772431621253389 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document reddit
+0.0005678026053826858 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document reddit
+0.0005700398263483378 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document reddit
+0.0005669467963528824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document reddit
+0.0005701015953324305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document reddit
+0.0005795907287413296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document reddit
+0.0005735602737531164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document reddit
+0.0005749862745842101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document reddit
+0.0005693257015931971 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document reddit
+0.0005716568794795563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document reddit
+0.0005761083919774021 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document reddit
+0.0005688343169797355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document reddit
+0.0005807913190929842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document reddit
+0.0005710229258078636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document reddit
+0.0005704083039826862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document reddit
+0.0005862132348308056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document reddit
+0.0005717662049559556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document reddit
+0.0005858155213694451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document reddit
+0.0005812012281792392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document reddit
+0.0005803981414588498 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document reddit
+0.0005700102108287723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document reddit
+0.0005719243459052329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document reddit
+0.0005867253401661752 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document reddit
+0.0005731087218860733 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document reddit
+0.0005712197789109317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document reddit
+0.0005702376926310089 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document reddit
+0.0005700411527742972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document reddit
+0.0005828090098178196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document reddit
+0.0005770140826168056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document reddit
+0.0005723509664597896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document reddit
+0.0005755499231836962 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document reddit
+0.0005636407438471367 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document reddit
+0.0005640281556500104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document reddit
+0.0005633159058766496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document reddit
+0.0005638034311151449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document reddit
+0.0005630066273073224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document reddit
+0.0005631803831128559 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document reddit
+0.0005631228881679657 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document reddit
+0.0005628178701487633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document reddit
+0.0005624448092256196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document reddit
+0.0005620957024062329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document reddit
+0.0005614201504177484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document reddit
+0.0005616890951464056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document reddit
+0.0005611348559279058 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document reddit
+0.0005604238061828518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document reddit
+0.0005603301490194237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document reddit
+0.0005607291294548833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document reddit
+0.0005605234569930727 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document reddit
+0.0005613778566640694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document reddit
+0.0005610248539992471 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document reddit
+0.0005599977416780475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document reddit
+0.0005603632562116935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document reddit
+0.0005599177479509897 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document reddit
+0.0005595202318298379 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document reddit
+0.0005600975633499175 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document reddit
+0.0005614075491213365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document reddit
+0.000612563885043477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document reddit
+0.0005515469909644413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document reddit
+0.0005526782014946906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document reddit
+0.0005472463408095445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document reddit
+0.0005502284746004587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document reddit
+0.0005414514790555363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document reddit
+0.0005513499500134784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document reddit
+0.0005391391454105187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document reddit
+0.0005415836910001838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document reddit
+0.0005208132468536551 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document reddit
+0.0005889827143132871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document reddit
+0.0005822520817765276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document reddit
+0.0004173155230758696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document reddit
+0.0009994361338078242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document stackexchange
+0.001087156194657966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document stackexchange
+0.0010667737163656816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document stackexchange
+0.0009602877882124873 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document stackexchange
+0.0008968956271971105 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document stackexchange
+0.0009198034843762967 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document stackexchange
+0.0009423901016715341 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document stackexchange
+0.0009674094553686345 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document stackexchange
+0.0009858331322519164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document stackexchange
+0.0009970593645879198 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document stackexchange
+0.0010027035193731686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document stackexchange
+0.0010128291154221853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document stackexchange
+0.0010215631382631918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document stackexchange
+0.0010288663771461238 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document stackexchange
+0.0010346219929285867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document stackexchange
+0.00104544019940344 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document stackexchange
+0.0010525172676724333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document stackexchange
+0.0010609529620775127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document stackexchange
+0.0010725892748610153 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document stackexchange
+0.0010818563598181568 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document stackexchange
+0.0010992760196793917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document stackexchange
+0.0011178992762079917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document stackexchange
+0.001124687532085676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document stackexchange
+0.001118303661267191 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document stackexchange
+0.0010206825575416534 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document stackexchange
+0.0005512280117499715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document stackexchange
+0.004474659408857016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document starcoder
+0.00409944473890653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document starcoder
+0.005137179939941845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document starcoder
+0.005143172251066109 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document starcoder
+0.005206134363352808 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document starcoder
+0.004892747858974329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document starcoder
+0.004844731352552902 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document starcoder
+0.005308320169123755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document starcoder
+0.005124709815666577 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document starcoder
+0.005424710744483826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document starcoder
+0.00538244648861977 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document starcoder
+0.0029107284679086853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document starcoder
+0.0026825258998444705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document starcoder
+0.0026904503191419243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document starcoder
+0.002687906577174073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document starcoder
+0.002850165346048818 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document starcoder
+0.005322698571717847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document starcoder
+0.004450334290869719 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document starcoder
+0.004700990083440683 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document starcoder
+0.003903568556500995 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document starcoder
+0.00390561515396931 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document starcoder
+0.0039046402900912262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document starcoder
+0.003907454839379547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document starcoder
+0.0038583224578603824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document starcoder
+0.0037914116657695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document starcoder
+0.003786665266798682 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document starcoder
+0.003792000802430658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document starcoder
+0.00319266847466091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document starcoder
+0.0032658716699838944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document starcoder
+0.0034801959532460023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document starcoder
+0.0028307012092022594 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document starcoder
+0.0028420360878146276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document starcoder
+0.0028410455248484914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document starcoder
+0.00283497183526842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document starcoder
+0.002840187195459487 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document starcoder
+0.0028398709431369834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document starcoder
+0.004364722843422023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document starcoder
+0.004093255713117101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document starcoder
+0.004092331079566252 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document starcoder
+0.004005326985579649 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document starcoder
+0.0036205502856964207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document starcoder
+0.003625316793034984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document starcoder
+0.003604743435602363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document starcoder
+0.0035405823343673125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document starcoder
+0.0041601413517253945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document starcoder
+0.005886303658937057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document starcoder
+0.003600909532810332 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document starcoder
+0.0034941365817168658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document starcoder
+0.0004992164842980224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document starcoder
+0.00032927705604725614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document tulu
+0.0002860154190878753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document tulu
+0.0002845217585425619 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document tulu
+0.0002743528685497456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document tulu
+0.00026025323737738766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document tulu
+0.00023493876414603155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document tulu
+0.00029665994994226705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document tulu
+0.00031808102075993956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document tulu
+0.00031813573046011285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document tulu
+0.0002711905171855542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document tulu
+0.00028892513401817095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document tulu
+0.00030003908676979083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document tulu
+0.00026839878771944684 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document tulu
+0.00029155935002690497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document tulu
+0.0002998624927624209 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document tulu
+0.0003091705447974841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document tulu
+0.00026873195794309786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document tulu
+0.00027721873498527547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document tulu
+0.0002841662554024377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document tulu
+0.0002839461156551537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document tulu
+0.0002861705604659811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document tulu
+0.0002460995649635886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document tulu
+0.00019420142619795496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document tulu
+0.00021967677816173628 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document tulu
+0.0002620283200480949 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document tulu
+0.0002433390542188936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document tulu
+0.00021254976608350767 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document tulu
+0.00022094815569522115 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document tulu
+0.000342862378668244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document tulu
+0.00033784225259118157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document tulu
+0.0003367278459543952 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document tulu
+0.00029843279042852765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document tulu
+0.0002926583661257988 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document tulu
+0.00029320337282010673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document tulu
+0.00029281450669483455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document tulu
+0.0002915338187002653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document tulu
+0.0002864226923084572 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document tulu
+0.00028643439083586396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document tulu
+0.00028253710956299054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document tulu
+0.0002810856078805806 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document tulu
+0.00031474941344656715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document tulu
+0.0002139130222205655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document tulu
+0.0003084648871862831 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document tulu
+0.0003309477872140129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document tulu
+0.0003360096824695161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document tulu
+0.0003355452655196557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document tulu
+0.00038119390366386037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document tulu
+0.00038078927630086064 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document tulu
+0.0003386200917551554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document tulu
+0.0002158905159938882 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document tulu
+0.00021621682877018768 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document tulu
+0.00021553306942740535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document tulu
+0.00021581563462722296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document tulu
+0.0002157694110556169 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document tulu
+0.000215643699847159 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document tulu
+0.00021532716715168094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document tulu
+0.00021531221326022472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document tulu
+0.0002831801179028896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document tulu
+0.0002514844936507595 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document tulu
+0.00031638782778107964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document tulu
+0.0002749197545278445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document tulu
+0.00026159721512464495 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document tulu
+0.0002630052420096968 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document tulu
+0.00031106811228913666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document tulu
+0.0002852973415334161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document tulu
+3.7555372465932136e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document tulu
+0.003548077173506675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document wiki
+0.0018372203137874265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document wiki
diff --git a/ALCF/data-lists/sunspot/dolma_v1_7_file_list.txt b/ALCF/data-lists/sunspot/dolma_v1_7_file_list.txt
new file mode 100644
index 00000000000..5d142522a76
--- /dev/null
+++ b/ALCF/data-lists/sunspot/dolma_v1_7_file_list.txt
@@ -0,0 +1,2419 @@
+0.0018520780893211373 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0000_text_document
+0.0017591050606817512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0001_text_document
+0.001459052794333798 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0002_text_document
+0.0007405667281569194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0003_text_document
+0.00019420030110896795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0004_text_document
+0.0009008668715801845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0005_text_document
+0.00015115827957143057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0006_text_document
+0.0014552844319220648 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0007_text_document
+0.0012469861325685161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0008_text_document
+0.00136412011372413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0009_text_document
+0.0007064279699221103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0010_text_document
+0.0008472240000687427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0011_text_document
+0.0001984375713341955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0012_text_document
+0.0005472773881697123 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0013_text_document
+0.001815779629850992 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0014_text_document
+0.0018313600689757324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/algebraic-stack-train-0015_text_document
+0.0002583902668716813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0000_text_document
+0.0002646575141232155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0001_text_document
+0.0003165521247456758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0002_text_document
+0.0002920706460176214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0003_text_document
+0.00028396813182810215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0004_text_document
+0.00030445161883108107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0005_text_document
+0.00031628781276576474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0006_text_document
+0.0003083776568189157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0007_text_document
+0.0003176359471472902 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0008_text_document
+0.0002536009369131698 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0009_text_document
+0.0003067491424681363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0010_text_document
+0.0002597217257557784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0011_text_document
+0.0003788556450109768 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0012_text_document
+0.0002796563272052598 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0013_text_document
+0.00033573826524290287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0014_text_document
+0.00030523658022800287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0015_text_document
+0.00032211552192240096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0016_text_document
+0.0003329295675164247 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0017_text_document
+0.0003101982186639862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0018_text_document
+0.00032361798234223355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0019_text_document
+0.0003495541581652915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0020_text_document
+0.0002821637448858042 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0021_text_document
+0.00030399523537629673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0022_text_document
+0.0002955658968247219 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0023_text_document
+0.00028942158502924254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0024_text_document
+0.00028769546171490733 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0025_text_document
+0.0002938111057234182 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0026_text_document
+0.0002711150403010948 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0027_text_document
+0.00031130095874747565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0028_text_document
+0.0003002996118160777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0029_text_document
+0.0003732757901604459 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0030_text_document
+0.00026784205751795894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0031_text_document
+0.0002799626521661984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0032_text_document
+0.00034334276069078164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0033_text_document
+0.0003582469803674965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0034_text_document
+0.00031094844818418623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0035_text_document
+0.0002766228384977191 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0036_text_document
+0.00030297116159471485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0037_text_document
+0.00027033888377464685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0038_text_document
+0.00030090862368377933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0039_text_document
+0.00028543875802490955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0040_text_document
+0.00027559768459074204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0041_text_document
+0.0003182185533962886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0042_text_document
+0.0003311392971435837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0043_text_document
+0.00028751652060804325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0044_text_document
+0.000303466863212589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0045_text_document
+0.00033400462801277524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0046_text_document
+0.0002589234031777426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0047_text_document
+0.0002913508598466723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0048_text_document
+0.0002670572450004856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0049_text_document
+0.00032027399105647656 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0050_text_document
+0.00032188376258379377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0051_text_document
+0.0003161585784100882 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0052_text_document
+0.0003184249182974135 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0053_text_document
+0.00030381336664000807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0054_text_document
+0.0003190437442184283 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0055_text_document
+0.0002537961798200545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0056_text_document
+0.0003017817117223326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0057_text_document
+0.00028685268513240224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0058_text_document
+0.00031265179094451165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0059_text_document
+0.00034708319096986816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0060_text_document
+0.00026650837943080664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0061_text_document
+0.00034588832248507335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0062_text_document
+0.0002416982248399037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0063_text_document
+0.0003089296918222243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0064_text_document
+0.00029137184185700827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0065_text_document
+0.00026464226846800774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0066_text_document
+0.00030545397919456627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0067_text_document
+0.0003206778460448875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0068_text_document
+0.00030968971641110967 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0069_text_document
+0.00023325653928600864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0070_text_document
+0.00030526899198338555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0071_text_document
+0.00035376719076633584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0072_text_document
+0.000290224385981026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0073_text_document
+0.000294650083382008 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0074_text_document
+0.00028768858128616436 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0075_text_document
+0.00030856965235527843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0076_text_document
+0.00030579942447879054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0077_text_document
+0.0002863101084704357 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0078_text_document
+0.0002870032092492213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0079_text_document
+0.000264182727569885 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0080_text_document
+0.0002974012367036449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0081_text_document
+0.00032238412143059203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0082_text_document
+0.00031683716893819036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0083_text_document
+0.00031157434937617524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0084_text_document
+0.0003411742735695989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0085_text_document
+0.00026778444816570715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0086_text_document
+0.0003037045797275201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0087_text_document
+0.00027746114370081314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0088_text_document
+0.00027148285946862043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0089_text_document
+0.00028042950114678207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0090_text_document
+0.0003235607816590721 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0091_text_document
+0.0003086692227306295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0092_text_document
+0.00033990349455148105 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0093_text_document
+0.00030945053208470265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0094_text_document
+0.00027309074552265303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0095_text_document
+0.00028737393506316194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0096_text_document
+0.0003098868328009879 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0097_text_document
+0.0002614229162588409 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0098_text_document
+0.0002884388407820923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/arxiv-0099_text_document
+0.0031025147279277244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0000_text_document
+0.003102019887362634 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0001_text_document
+0.0009996745994661548 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document
+0.0002406272620255565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0000_text_document
+0.0002404825539493424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0001_text_document
+0.00024062296575435581 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0002_text_document
+0.00024069315766818953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0003_text_document
+0.00024055829162263452 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0004_text_document
+0.00024062053397343032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0005_text_document
+0.0002410715545206964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0006_text_document
+0.00024024881846087368 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0007_text_document
+0.0002407074700790688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0008_text_document
+0.00024072141428809043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0009_text_document
+0.00024027710230872736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0010_text_document
+0.0002409111299205489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0011_text_document
+0.00024081954058275009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0012_text_document
+0.00024086076794990912 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0013_text_document
+0.00024098672620832446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0014_text_document
+0.00024068622303333862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0015_text_document
+0.00024140627024291824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0016_text_document
+0.0002414512033594384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0017_text_document
+0.00024028742594941463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0018_text_document
+0.00024018036089269645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0019_text_document
+0.0002398347365034979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0020_text_document
+0.00024006780153485276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0021_text_document
+0.00024015620270419213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0022_text_document
+0.0002408848259695227 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0023_text_document
+0.0002408023185278831 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0024_text_document
+0.00024021196580140326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0025_text_document
+0.00024077677271297493 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0026_text_document
+0.00024087392454668027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0027_text_document
+0.0002408071293824126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0028_text_document
+0.00024042223828845715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0029_text_document
+0.0002411484752360495 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0030_text_document
+0.00023605263746465907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0031_text_document
+0.00023471222158326908 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0032_text_document
+0.00023432138580287644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0033_text_document
+0.00023407385623382327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0034_text_document
+0.00023487504174367091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0035_text_document
+0.0002341843704976313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0036_text_document
+0.00023421993170282486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0037_text_document
+0.00023445057969132037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0038_text_document
+0.0002337681680073047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0039_text_document
+0.000234627964808109 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0040_text_document
+0.0002338942211888584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0041_text_document
+0.00023403849286843386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0042_text_document
+0.00023405641310796305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0043_text_document
+0.00023349169562397965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0044_text_document
+0.00023381157386048856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0045_text_document
+0.00023388742993790587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0046_text_document
+0.00023363103829469813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0047_text_document
+0.00023421141834630477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0048_text_document
+0.00023420564352232565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0049_text_document
+0.00023367463699173143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0050_text_document
+0.00023344969163567033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0051_text_document
+0.00023372196941547188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0052_text_document
+0.00023399207645297834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0053_text_document
+0.00023357915605505856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0054_text_document
+0.00023337585642190864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0055_text_document
+0.00023385005470157914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0056_text_document
+0.00023301533534493465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0057_text_document
+0.00023377864302541782 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0058_text_document
+0.00023323745848621437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0059_text_document
+0.0002330594611151835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0060_text_document
+0.0002334149675026783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0061_text_document
+0.00023198945902291534 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0062_text_document
+0.00023023784834634142 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0063_text_document
+0.00022985623060187217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0064_text_document
+0.0002292605284569516 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0065_text_document
+0.00022926593333048894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0066_text_document
+0.00022922766406807777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0067_text_document
+0.00022898153911167426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0068_text_document
+0.0002292473111593315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0069_text_document
+0.000228804579400424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0070_text_document
+0.00022865485613513526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0071_text_document
+0.00022937426835887895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0072_text_document
+0.00022917388311587372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0073_text_document
+0.0002291660582019043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0074_text_document
+0.00022907895248360543 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0075_text_document
+0.0002294617879920205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0076_text_document
+0.0002290452150516566 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0077_text_document
+0.00022943405619715553 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0078_text_document
+0.0002296271421006204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0079_text_document
+0.00022854791372910372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0080_text_document
+0.00022923123467686557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0081_text_document
+0.00022852404355738494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0082_text_document
+0.00022847798660086642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0083_text_document
+0.0002289604586810316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0084_text_document
+0.00022835479834950643 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0085_text_document
+0.0002289149402884243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0086_text_document
+0.00022806655474763446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0087_text_document
+0.00022826296420992974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0088_text_document
+0.00022906829636213627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0089_text_document
+0.0002287628414466998 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0090_text_document
+0.0002282673911253445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0091_text_document
+0.00022869309841939134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0092_text_document
+0.0002281540116815451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0093_text_document
+0.0002259755756162738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0094_text_document
+0.00022562331285233504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0095_text_document
+0.0002259061146106053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0096_text_document
+0.00022567670836663787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0097_text_document
+0.00022573165387587061 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0098_text_document
+0.00022508514961670572 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0099_text_document
+0.00022564642513773356 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0100_text_document
+0.00022563088621998788 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0101_text_document
+0.0002250438755373707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0102_text_document
+0.00022524465346241134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0103_text_document
+0.00022531737657666812 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0104_text_document
+0.00022444687519363458 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0105_text_document
+0.00022460397498596298 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0106_text_document
+0.00022454218976501763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0107_text_document
+0.00022447528843671366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0108_text_document
+0.00022501666332178926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0109_text_document
+0.00022453752304377972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0110_text_document
+0.00022484451871163002 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0111_text_document
+0.00022465678847154914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0112_text_document
+0.00022453180917044732 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0113_text_document
+0.0002247278486823009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0114_text_document
+0.00022465794828242097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0115_text_document
+0.00022431000701925386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0116_text_document
+0.00022476020248460963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0117_text_document
+0.00022467531771795015 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0118_text_document
+0.0002236391309945234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0119_text_document
+0.00022458764920536007 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0120_text_document
+0.00022430877426744415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0121_text_document
+0.0002247047786127192 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0122_text_document
+0.0002245298090400035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0123_text_document
+0.0002245648831396188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0124_text_document
+0.00022292894729820784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0125_text_document
+0.00022236668082957533 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0126_text_document
+0.0002217622659895442 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0127_text_document
+0.00022252452726732609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0128_text_document
+0.00022135333211363678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0129_text_document
+0.0002214571757787971 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0130_text_document
+0.0002217188139237798 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0131_text_document
+0.00022144214894640303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0132_text_document
+0.00022100172806631854 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0133_text_document
+0.00022156392409199052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0134_text_document
+0.00022134830143710272 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0135_text_document
+0.00022158598922529453 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0136_text_document
+0.00022142932483041377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0137_text_document
+0.00022120980907786554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0138_text_document
+0.00022117917738112441 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0139_text_document
+0.00022077089397851235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0140_text_document
+0.00022093265074996711 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0141_text_document
+0.00022091299741377004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0142_text_document
+0.0002205849150703338 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0143_text_document
+0.0002210648204787979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0144_text_document
+0.0002214235747364102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0145_text_document
+0.00022083907302221787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0146_text_document
+0.0002206334237915964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0147_text_document
+0.00022065193929912214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0148_text_document
+0.00022079775597767288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0149_text_document
+0.00022091492909963518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0150_text_document
+0.00022095009987097293 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0151_text_document
+0.0002208150577180165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0152_text_document
+0.00022085759102772088 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0153_text_document
+0.00022073789170129016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0154_text_document
+0.00022049322781182384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0155_text_document
+0.00022083270617761285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0156_text_document
+0.00021982452827473632 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0157_text_document
+0.00021899870446514259 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0158_text_document
+0.00021890358773356361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0159_text_document
+0.00021875556609042841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0160_text_document
+0.00021861195987201226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0161_text_document
+0.00021856782186167455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0162_text_document
+0.00021912837771543515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0163_text_document
+0.00021900213768517756 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0164_text_document
+0.00021871675851390374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0165_text_document
+0.0002180537056545586 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0166_text_document
+0.0002188196714327129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0167_text_document
+0.00021851362624523464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0168_text_document
+0.0002183236795498736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0169_text_document
+7.291153618675672e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/c4-0170_text_document
+0.0003742481815405742 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0000_text_document
+0.00038204855962733055 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0001_text_document
+0.00038821818392663593 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0002_text_document
+0.00038723332988783727 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0003_text_document
+0.00038916141142149904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0004_text_document
+0.00038049542523949033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0005_text_document
+0.0003854755539534284 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0006_text_document
+0.00024202756466512517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0007_text_document
+0.0003915405155008087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0008_text_document
+0.0003927382151931033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0009_text_document
+0.0003839151202260479 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0010_text_document
+0.00040006817468967907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0011_text_document
+0.00040318965964443476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0012_text_document
+0.0003831013019452741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0013_text_document
+0.00039166638383204036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0014_text_document
+0.00039962784023961004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0015_text_document
+0.00039536707853602614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0016_text_document
+0.0004204304698247758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0017_text_document
+0.00041538899178693555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0018_text_document
+0.00039186953333675306 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0019_text_document
+0.00038945837196504305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0020_text_document
+0.0003919951238929062 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0021_text_document
+0.00044377065718528966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0022_text_document
+0.0004407759068603017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0023_text_document
+0.0002487811895843715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0024_text_document
+0.00039349432045556636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0025_text_document
+0.00041223198559462343 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0026_text_document
+0.0004036573014830213 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0027_text_document
+0.0003825982215521807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0028_text_document
+0.00040386867133151386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0029_text_document
+0.00024460575279105167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0030_text_document
+0.000269029789531335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0031_text_document
+0.0003573757493252864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0032_text_document
+0.0004600876681392076 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0033_text_document
+0.0002605354166397086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0034_text_document
+0.0003882502452157999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0035_text_document
+0.0002466747612126512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0036_text_document
+0.0004024726105072402 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0037_text_document
+0.00040820631128483644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0038_text_document
+0.0002691094350403538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0039_text_document
+0.00026916830387277267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0040_text_document
+0.0004204663297880574 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0041_text_document
+0.00042379698687085554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0042_text_document
+0.0004502169227311871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0043_text_document
+0.0002661708937015295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0044_text_document
+0.00031239486948031334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0045_text_document
+0.0003109054589936201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0046_text_document
+0.00045873053079760646 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0047_text_document
+0.00022904931423244635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0048_text_document
+0.0003813462028433663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0049_text_document
+0.00039188129256500874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0050_text_document
+0.00045124222276983765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0051_text_document
+0.00048138658436853695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0052_text_document
+0.0003944178776279866 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0053_text_document
+0.00039941569676754006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0054_text_document
+0.00037952761190240494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0055_text_document
+0.0003944870860881476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0056_text_document
+0.0003891842411856621 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0057_text_document
+0.000387688981934861 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0058_text_document
+0.00039197953876258005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0059_text_document
+0.00039007915280311206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0060_text_document
+0.0003995520363699188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0061_text_document
+0.00039230985654592406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0062_text_document
+0.0003929472067173851 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0063_text_document
+0.0003924096172671473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0064_text_document
+0.0003881636143629905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0065_text_document
+0.000389790617937084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0066_text_document
+0.00037351762309221023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0067_text_document
+0.0003630196170929407 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0068_text_document
+0.00033532465765142113 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0069_text_document
+0.0003076088685761823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0070_text_document
+0.00039463850897720803 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0071_text_document
+0.0002843816115231449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0072_text_document
+0.0002909175709416474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0073_text_document
+0.00028867170997202486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0074_text_document
+0.0002838644617723659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0075_text_document
+0.00029027869525543416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0076_text_document
+0.0002821339567560056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0077_text_document
+0.0002922988877045601 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0078_text_document
+0.0002866955958315786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0079_text_document
+0.0002865271754558126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0080_text_document
+0.0002861247475618473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0081_text_document
+0.0002826681072408606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0082_text_document
+0.0002849746458282827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0083_text_document
+0.0002816966633435316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0084_text_document
+0.00026255342235948463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0085_text_document
+0.0002552895098829678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0086_text_document
+0.00025990194083107813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0087_text_document
+0.0002524062657685835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0088_text_document
+0.0002538577379748611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0089_text_document
+0.0002561415177406761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0090_text_document
+0.00026206253059694905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0091_text_document
+0.00026168095406910565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0092_text_document
+0.0002601305742008613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0093_text_document
+0.00025200823006814814 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0094_text_document
+0.0003229951981263502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0095_text_document
+0.00037289448266476045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0096_text_document
+0.0003807825862179898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0097_text_document
+0.0003616333738191483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0098_text_document
+0.0003665117918907636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0099_text_document
+0.0003684186453633228 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0100_text_document
+0.0003589330610806066 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0101_text_document
+0.00036383861418030395 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0102_text_document
+0.000359841363355303 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0103_text_document
+0.00036431044063050464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0104_text_document
+0.0003668574090358279 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0105_text_document
+0.000362768263620199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0106_text_document
+0.0003501888032771077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0107_text_document
+0.000352401968221528 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0108_text_document
+0.0003541019701869794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0109_text_document
+0.0003628121865546891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0110_text_document
+0.0003752582953758773 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0111_text_document
+0.00037902046230424966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0112_text_document
+0.0003777927146925147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0113_text_document
+0.0003760676130509053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0114_text_document
+0.00034046049078755405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0115_text_document
+0.0003338847563259091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0116_text_document
+0.00033294499102761794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0117_text_document
+0.0004912026198265864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0118_text_document
+0.00032064363474664014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0119_text_document
+0.00032154190389541214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0120_text_document
+0.00032309660151746207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0121_text_document
+0.00031181143365304544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0122_text_document
+0.00031046092294569104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0123_text_document
+0.00031150165249068046 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0124_text_document
+0.0003041314265988224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0125_text_document
+0.0003024834909739394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0126_text_document
+0.0003019936835833604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0127_text_document
+0.000292329665283177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0128_text_document
+0.0002867061143144972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0129_text_document
+0.00028443615610701707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0130_text_document
+0.00028462291013755945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0131_text_document
+0.0002793538601205013 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0132_text_document
+0.00027306573977044246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0133_text_document
+0.00027097155673336525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0134_text_document
+0.0002752934202112985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0135_text_document
+0.00043042012694697647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0136_text_document
+0.00047495648822986177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0137_text_document
+0.00047755032493473855 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0138_text_document
+0.0004706974343933747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0139_text_document
+0.00046682163297771817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0140_text_document
+0.0004616765425874178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0141_text_document
+0.00030644496751628097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0142_text_document
+0.0002909492555358308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0143_text_document
+0.00027272036068261724 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0144_text_document
+0.0004101070217315588 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0145_text_document
+0.0003728914338834357 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0146_text_document
+0.00036546911442305647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0147_text_document
+0.0003669945482407483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0148_text_document
+0.0003715902407424017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0149_text_document
+0.00035837486406683366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0150_text_document
+0.0003573318538685469 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0151_text_document
+0.0003553784893071916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0152_text_document
+0.0004920659809912352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0153_text_document
+0.0004533619411303183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0154_text_document
+0.00045067066057818706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0155_text_document
+0.00044396985139270645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0156_text_document
+0.00043198288204468477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0157_text_document
+0.00043005174223738454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0158_text_document
+0.00041847118430776784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0159_text_document
+0.00042952036375796664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0160_text_document
+0.00043420594647324267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0161_text_document
+0.0003461123241053012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0162_text_document
+0.0003408581597849182 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0163_text_document
+0.00033172705422182547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0164_text_document
+0.0003392566490686136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0165_text_document
+0.00033578341518385483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0166_text_document
+0.0003439196710518844 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0167_text_document
+0.00034559163447085543 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0168_text_document
+0.00033762478642902825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0169_text_document
+0.00033215210055107224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0170_text_document
+0.00033423579608014966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0171_text_document
+0.0004963355016025102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0172_text_document
+0.0004996862761456923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0173_text_document
+0.0005000551829325451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0174_text_document
+0.0005004212610098755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0175_text_document
+0.00027768695585500585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0176_text_document
+0.00028395983854338433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0177_text_document
+0.00027835826303062254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0178_text_document
+0.0002740073176010804 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0179_text_document
+0.0002791830529274016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0180_text_document
+0.0002796863816194411 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0181_text_document
+0.00026697453022672804 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0182_text_document
+0.0002594197440280141 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0183_text_document
+0.0003779565697649222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0184_text_document
+0.00041835823476586606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0185_text_document
+0.00043788493575265915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0186_text_document
+0.0002731731970096006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0187_text_document
+0.000276305847423402 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0188_text_document
+0.0002704955773958623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0189_text_document
+0.0002629635944827518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0190_text_document
+0.000260070956974436 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0191_text_document
+0.00025661553791456334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0192_text_document
+0.00025794727207576157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0193_text_document
+0.00025295733980001527 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0194_text_document
+0.0003788106407021029 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0195_text_document
+0.0004882344027669431 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0196_text_document
+0.0003275324309642705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0197_text_document
+0.0004803401856640094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0198_text_document
+0.00046720138323433943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0199_text_document
+0.00043527810307095335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0200_text_document
+0.00043905395741627827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0201_text_document
+0.00048774175867331425 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0202_text_document
+0.00048380704121346737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0203_text_document
+0.0004779011848346118 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0204_text_document
+0.00046255587581908036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0205_text_document
+0.00045127922880511576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0206_text_document
+0.0004503891485256095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0207_text_document
+0.0004450142332303422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0208_text_document
+0.00044630282482516654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0209_text_document
+0.00044325014465743616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0210_text_document
+0.0004263874842796447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0211_text_document
+0.0004217530913646938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0212_text_document
+0.000415120314341852 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0213_text_document
+0.00040987168279144537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0214_text_document
+0.00033468337266607834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0215_text_document
+0.0003353094464683005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0216_text_document
+0.0004833936821707294 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0217_text_document
+0.00047194878988920935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0218_text_document
+0.0004648324126996427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0219_text_document
+0.0004562345003964941 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0220_text_document
+0.0004933203505465098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0221_text_document
+0.0003530166075325466 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0222_text_document
+0.00035368548192804685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0223_text_document
+0.0004872620828289663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0224_text_document
+0.00048293889392426456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0225_text_document
+0.00047936768462267655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0226_text_document
+0.00047821013991587545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0227_text_document
+0.0004660610308564753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0228_text_document
+0.000394683430103437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0229_text_document
+0.00039165053441571324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0230_text_document
+0.0003906936040164381 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0231_text_document
+0.00038074803919159006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0232_text_document
+0.0003686529291578143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0233_text_document
+0.00035832920428870976 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0234_text_document
+0.00035929024535947033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0235_text_document
+0.0003538226556050544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0236_text_document
+0.0003584167868708799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0237_text_document
+0.0003480507542594234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0238_text_document
+0.0003413709023543034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0239_text_document
+0.00034001304759361455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0240_text_document
+0.00033430532902756514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0241_text_document
+0.00046519252660631277 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0242_text_document
+0.0002938876402514769 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0243_text_document
+0.00028676090994509047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0244_text_document
+0.00027296150117506716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0245_text_document
+0.00026513502621960483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0246_text_document
+0.0002680081327926125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0247_text_document
+0.00025831225828720344 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0248_text_document
+0.00026647037295561 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0249_text_document
+0.0002525733734572654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0250_text_document
+0.00025831708887575375 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0251_text_document
+0.00042487627444443476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0252_text_document
+0.0004951213245023891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0253_text_document
+0.0004804051413177752 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0254_text_document
+0.0004662397611340532 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0255_text_document
+0.0004550138655253933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0256_text_document
+0.00044494909122746795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0257_text_document
+0.0002899112253051385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0258_text_document
+0.0004372879736279761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0259_text_document
+0.0004529568099252922 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0260_text_document
+0.00045127826158829573 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0261_text_document
+0.0004436558176737439 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0262_text_document
+0.0004419233237678378 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0263_text_document
+0.000434589215880319 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0264_text_document
+0.00029153613207706566 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0265_text_document
+0.0004312458058738854 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0266_text_document
+0.00028741854968757313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0267_text_document
+0.00046853200754421234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0268_text_document
+0.0004949145252030074 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0269_text_document
+0.00044459683920483167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0270_text_document
+0.0003836095306696336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0271_text_document
+0.0003789760237872398 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0272_text_document
+0.0003749227438304427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0273_text_document
+0.0003628558277173369 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_head-0274_text_document
+0.00039468301394041474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0000_text_document
+0.00038874701821614864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0001_text_document
+0.0004158492456077867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0002_text_document
+0.00042360504554060077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0003_text_document
+0.00040386729844317623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0004_text_document
+0.00027595096702902474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0005_text_document
+0.00043638766787829135 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0006_text_document
+0.0002218691596850179 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0007_text_document
+0.0004437566108089954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0008_text_document
+0.0003889996411609667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0009_text_document
+0.00043454421906537704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0010_text_document
+0.0004522564392830988 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0011_text_document
+0.00041517835659357416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0012_text_document
+0.0002614360863446896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0013_text_document
+0.00037543522111463596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0014_text_document
+0.0004386190133514781 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0015_text_document
+0.00046358333286115075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0016_text_document
+0.00043186261317942404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0017_text_document
+0.0002377581602097957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0018_text_document
+0.00025973334085074254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0019_text_document
+0.00040139099332000796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0020_text_document
+0.00043674860686687174 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0021_text_document
+0.00040853289309329373 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0022_text_document
+0.000242910191729688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0023_text_document
+0.0004431071731750582 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0024_text_document
+0.0004388092670482523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0025_text_document
+0.000381418866255965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0026_text_document
+0.0004100117296419717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0027_text_document
+0.00042469230366022745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0028_text_document
+0.00041744151905374254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0029_text_document
+0.00022835699906752945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0030_text_document
+0.0004380161085387397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0031_text_document
+0.00044803212381807456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0032_text_document
+0.00040554932796137236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0033_text_document
+0.0004234508646347761 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0034_text_document
+0.00043341209652360653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0035_text_document
+0.00023966604734537185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0036_text_document
+0.000259165907316014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0037_text_document
+0.0004270653021833602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0038_text_document
+0.0004341547032162028 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0039_text_document
+0.0004111478117275994 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0040_text_document
+0.0004299383567984396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0041_text_document
+0.0004241899124590779 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0042_text_document
+0.0004502719349364145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0043_text_document
+0.00038994621469645615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0044_text_document
+0.0003859912398894952 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0045_text_document
+0.0004247535950310557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0046_text_document
+0.000386982084327716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0047_text_document
+0.0004196451040053251 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0048_text_document
+0.0004096278509782259 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0049_text_document
+0.0004373334932695721 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0050_text_document
+0.0004180889975240641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0051_text_document
+0.00042079636929672745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0052_text_document
+0.00038063574611812913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0053_text_document
+0.0003817505891515542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0054_text_document
+0.0004420096268860222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0055_text_document
+0.00039182670726410623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0056_text_document
+0.0003635667850372299 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0057_text_document
+0.00041564996472055667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0058_text_document
+0.000400529358757286 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0059_text_document
+0.0003939113874958451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0060_text_document
+0.00039066622068940996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0061_text_document
+0.0004290098538807143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0062_text_document
+0.0004240739958197099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0063_text_document
+0.00040775392659215333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0064_text_document
+0.0004091634200396925 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0065_text_document
+0.00042299190476617914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0066_text_document
+0.0003701492680344151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0067_text_document
+0.0003807353844384635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0068_text_document
+0.00038813507771983156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0069_text_document
+0.00040072346558408346 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0070_text_document
+0.0003603595180423597 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0071_text_document
+0.00038799421353112465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0072_text_document
+0.00037575235582264926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0073_text_document
+0.0004239190342959713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0074_text_document
+0.0004606044799136546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0075_text_document
+0.00045107950652529253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0076_text_document
+0.0004391947201871058 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0077_text_document
+0.0004457516661123035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0078_text_document
+0.0004301297170991686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0079_text_document
+0.00044661704164586694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0080_text_document
+0.0004438849846114837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0081_text_document
+0.0004444205734316823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0082_text_document
+0.0004190924165303394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0083_text_document
+0.00043942581131677875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0084_text_document
+0.00021568459798090663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0085_text_document
+0.0003814929225407199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0086_text_document
+0.0003217453179359235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0087_text_document
+0.00031719591470267974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0088_text_document
+0.00032434115726922137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0089_text_document
+0.0004079911120371051 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0090_text_document
+0.000329492766381148 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0091_text_document
+0.0003845916162001633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0092_text_document
+0.0003835208964390098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0093_text_document
+0.00037847334157173194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0094_text_document
+0.00038296039903791865 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0095_text_document
+0.00037896336828472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0096_text_document
+0.00037620974396391355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0097_text_document
+0.00037420590727111843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0098_text_document
+0.000340490625886403 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0099_text_document
+0.0003078314411035827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0100_text_document
+0.00034153990750656097 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0101_text_document
+0.0003308858103982067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0102_text_document
+0.0003452640607156025 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0103_text_document
+0.00033095276418403455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0104_text_document
+0.0003116308995860414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0105_text_document
+0.00032446713226408477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0106_text_document
+0.0003015816821912984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0107_text_document
+0.00031612418775706894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0108_text_document
+0.0003278516344971041 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0109_text_document
+0.00033079446736097217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0110_text_document
+0.00032278977146550837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0111_text_document
+0.00032065272988207914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0112_text_document
+0.0003936696452406576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0113_text_document
+0.0003450109536627789 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0114_text_document
+0.0003339787189919641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0115_text_document
+0.0003284303856176974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0116_text_document
+0.00033652677276843477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0117_text_document
+0.0003257822443845694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0118_text_document
+0.0003293985569149334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0119_text_document
+0.0003310360260148262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0120_text_document
+0.0003233770986418526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0121_text_document
+0.0003172280092149422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0122_text_document
+0.0003160674744292835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0123_text_document
+0.00030931090289598506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0124_text_document
+0.0003093173886443107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0125_text_document
+0.00033167847081104083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0126_text_document
+0.00031131501311729723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0127_text_document
+0.00031046608876279845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0128_text_document
+0.00030569235942207244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0129_text_document
+0.00030777943671285197 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0130_text_document
+0.00029303314290956683 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0131_text_document
+0.0003045824546400205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0132_text_document
+0.00030360880677729793 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0133_text_document
+0.00031646239964835433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0134_text_document
+0.0003129122300603785 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0135_text_document
+0.00031060464956661433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0136_text_document
+0.000311819032500067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0137_text_document
+0.0002977872483902282 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0138_text_document
+0.0003009448600922438 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0139_text_document
+0.00028610292098537774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0140_text_document
+0.0002988326876216654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0141_text_document
+0.00028550828372819075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0142_text_document
+0.0002830381750875739 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0143_text_document
+0.0002848495855927156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0144_text_document
+0.0002856443760308144 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0145_text_document
+0.00027442895344188584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0146_text_document
+0.0002681160554049462 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0147_text_document
+0.0003421482544126989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0148_text_document
+0.0004005872948449718 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0149_text_document
+0.0003930123959320308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0150_text_document
+0.0003867271832275778 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0151_text_document
+0.000380805140455254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0152_text_document
+0.0003814769861947819 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0153_text_document
+0.00038025170883282324 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0154_text_document
+0.0003738026647867475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0155_text_document
+0.00018960856915036276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0156_text_document
+0.0003697177501953134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0157_text_document
+0.00036674194328136693 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0158_text_document
+0.00036447406838697555 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0159_text_document
+0.00036686410861101255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0160_text_document
+0.00035915267825103423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0161_text_document
+0.0003624758404026675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0162_text_document
+0.0002822812140180794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0163_text_document
+0.00030620512946920813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0164_text_document
+0.000294249776520589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0165_text_document
+0.00030238536967523434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0166_text_document
+0.00029509593361580754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0167_text_document
+0.0002906912701830899 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0168_text_document
+0.0002921944165474959 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0169_text_document
+0.00028358919691127954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0170_text_document
+0.0002813182772323272 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0171_text_document
+0.00027442640800299205 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0172_text_document
+0.0002747820342933984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0173_text_document
+0.0002747584403979717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0174_text_document
+0.00027499129634862444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0175_text_document
+0.0002712050404257197 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0176_text_document
+0.0002616256943143254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0177_text_document
+0.00026769938929002815 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0178_text_document
+0.00038396081322727017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0179_text_document
+0.0003863140490027991 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0180_text_document
+0.00037702277513203237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0181_text_document
+0.0003633274156107032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0182_text_document
+0.0003587473889240435 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0183_text_document
+0.0003507672084278415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0184_text_document
+0.00033776425499780385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0185_text_document
+0.0003377914127574796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0186_text_document
+0.00032948015659161326 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0187_text_document
+0.00033245638541392985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0188_text_document
+0.00031080707640648695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0189_text_document
+0.0002976903331149755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0190_text_document
+0.0002965121463725523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0191_text_document
+0.0002933849695266647 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0192_text_document
+0.0002837035078508233 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0193_text_document
+0.00028684569079589323 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0194_text_document
+0.0003145192320802359 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0195_text_document
+0.0003566937253273515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0196_text_document
+0.0003470199109592918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0197_text_document
+0.0003060245312041868 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0198_text_document
+0.0002650817213818789 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0199_text_document
+0.0002643604938780134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0200_text_document
+0.000299350876031416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0201_text_document
+0.0003178540797697938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0202_text_document
+0.000271850367887767 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0203_text_document
+0.00031349896596549 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0204_text_document
+0.00031749734412765755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0205_text_document
+0.0003791137842391209 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0206_text_document
+0.0003742334169957992 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0207_text_document
+0.0003705639757351107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0208_text_document
+0.0003126986769797042 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0209_text_document
+0.00031038132814561196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0210_text_document
+0.00036464437173804883 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0211_text_document
+0.0003569480488951322 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0212_text_document
+0.0003541239221619106 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0213_text_document
+0.00035315297411308053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0214_text_document
+0.0003572451925404141 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0215_text_document
+0.0003514986129411253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0216_text_document
+0.0003521798298425866 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0217_text_document
+0.00034553677439244716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0218_text_document
+0.000349004719809412 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0219_text_document
+0.0003468247484872769 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0220_text_document
+0.0003465822608356558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0221_text_document
+0.00035410983132162007 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0222_text_document
+0.0003487908354969444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0223_text_document
+0.0003479024763238147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0224_text_document
+0.000341412530646823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0225_text_document
+0.00034451316273667034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0226_text_document
+0.0002618849993484869 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0227_text_document
+0.00026788679978901144 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0228_text_document
+0.00027450670773227214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0229_text_document
+0.0002661273129899329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0230_text_document
+0.00026836569676402957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0231_text_document
+0.00026155876975483236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0232_text_document
+0.0002609276830117151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0233_text_document
+0.0002644161630512771 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0234_text_document
+0.00036789208972872557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0235_text_document
+0.00037829849439990513 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0236_text_document
+0.0003788894943523098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0237_text_document
+0.0003617207777959397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0238_text_document
+0.0002541334487248998 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0240_text_document
+0.0002707945538071073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0241_text_document
+0.00027046282716455214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0242_text_document
+0.0002652443167243215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0243_text_document
+0.0002685859923850986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0244_text_document
+0.00025734961751176414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0245_text_document
+0.000259041720872915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0246_text_document
+0.00025340107274823446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0247_text_document
+0.00025757135121837893 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0248_text_document
+0.00025617700500574084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0249_text_document
+0.0002566931670562857 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0250_text_document
+0.0002543871190716101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0251_text_document
+0.00024997565589481713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0252_text_document
+0.0002954079779456287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0253_text_document
+0.00034890741135252835 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0254_text_document
+0.0003473298137731525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0255_text_document
+0.0003296959618486435 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0256_text_document
+0.0003304520061604598 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0257_text_document
+0.00032377956175729824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0258_text_document
+0.00031700696295168713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0259_text_document
+0.0003060382346081943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0260_text_document
+0.0003012003005056863 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0261_text_document
+0.0002981074073993884 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0262_text_document
+0.0002922128825950705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0263_text_document
+0.000348901087722931 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0264_text_document
+0.0003408286289467841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0265_text_document
+0.0003410649680770183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0266_text_document
+0.0003358524215576502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0267_text_document
+0.0003343661874989231 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0268_text_document
+0.00032810573699389156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0269_text_document
+0.00032261449539097497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0270_text_document
+0.0003162694866049203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0271_text_document
+0.0003158381156468853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0272_text_document
+0.000317376061083603 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0273_text_document
+0.0003125788639953052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0274_text_document
+0.0003010105041885602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0275_text_document
+0.0003065865059090678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0276_text_document
+0.0003084275726508053 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0277_text_document
+0.00030966560718296085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0278_text_document
+0.0002957728057853081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0279_text_document
+0.00029904164542325336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0280_text_document
+0.0002955358888729187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0281_text_document
+0.00028692976446931544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0282_text_document
+0.0002923476214935797 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0283_text_document
+0.0002893691697212419 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0284_text_document
+0.0002855895211981585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0285_text_document
+0.00027968347097626246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0286_text_document
+0.0002810783462604979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0287_text_document
+0.00027794080455729715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0288_text_document
+0.00034784376461416953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0289_text_document
+0.0003488347959010943 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0290_text_document
+0.00034790583710250724 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0291_text_document
+0.000345913166618151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0292_text_document
+0.00033801936268066675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0293_text_document
+0.0003290591130212315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0294_text_document
+0.00034051399521366823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0295_text_document
+0.00032470943131841784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0296_text_document
+0.00031679540050914276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0297_text_document
+0.00031814596342422325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0298_text_document
+0.0003156466289485036 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0299_text_document
+0.00029985010879003633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0300_text_document
+0.0002905176377776361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0301_text_document
+0.0004206836775460856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0302_text_document
+0.00020660449162246918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0303_text_document
+0.0003461727254468087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0304_text_document
+0.00020592870907067763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0305_text_document
+0.00034173505299233005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0306_text_document
+0.0004052437256652738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0307_text_document
+0.0004080650901351697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0308_text_document
+0.00039778184149144276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0309_text_document
+0.00039046311464950275 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0310_text_document
+0.00039043444911071384 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0311_text_document
+0.000388575704932843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0312_text_document
+0.00019737533145666597 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0313_text_document
+0.00037610755595812403 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0314_text_document
+0.00037315400127598317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0315_text_document
+0.00037415028580922163 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0316_text_document
+0.00036694041707212337 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0317_text_document
+0.00018947219857306515 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0318_text_document
+0.00037046050826533545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0319_text_document
+0.0003587440768559087 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0320_text_document
+0.00034623936498708903 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0321_text_document
+0.0003502289592617922 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0322_text_document
+0.00034692398063649823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0323_text_document
+0.000339340809421849 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0324_text_document
+0.0003360510394816983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0325_text_document
+0.0003354673850814145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0326_text_document
+0.00032937682875877047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0327_text_document
+0.00032844505049317715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0328_text_document
+0.00028287199339908627 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0329_text_document
+0.0002795217197003578 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0330_text_document
+0.00028048955601883463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0331_text_document
+0.0002769326396439027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0332_text_document
+0.0002727090021299243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0333_text_document
+0.0002726577841024554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0334_text_document
+0.00026663619593455374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0335_text_document
+0.00026068042672138127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0336_text_document
+0.0002637704114326801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0337_text_document
+0.0002593043567100412 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0338_text_document
+0.0002599897110113453 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0339_text_document
+0.0002435078682758859 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0340_text_document
+0.0002450530071379054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0341_text_document
+0.00024233331983743606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0342_text_document
+0.0002934750947999535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0343_text_document
+0.00033241226364044474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0344_text_document
+0.00032938406090272075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0345_text_document
+0.00032778705403953246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0346_text_document
+0.00032184551480398754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0347_text_document
+0.00031874002264945737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0348_text_document
+0.0003165319685666433 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0349_text_document
+0.00031307071173376295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0350_text_document
+0.00031119524184911957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0351_text_document
+0.0003102253344576429 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0352_text_document
+0.0003088976240383192 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0353_text_document
+0.0002951410823077708 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0354_text_document
+0.00029772657676757413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0355_text_document
+0.0003056048989909935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0356_text_document
+0.00031991305381648026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0357_text_document
+0.00030890256978362426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0358_text_document
+0.0003109382904091933 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0359_text_document
+0.00031035798529690644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0360_text_document
+0.00030741666395911753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0361_text_document
+0.0002989918594861846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0362_text_document
+0.00029569635443989434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0363_text_document
+0.0002973992445667285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0364_text_document
+0.000293397351001072 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0365_text_document
+0.00028737817438047954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0366_text_document
+0.00028252738144009747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0367_text_document
+0.0002805511898623541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0368_text_document
+0.0003718020784620472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0369_text_document
+0.0003499713845765235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0370_text_document
+0.00034283547445326676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0371_text_document
+0.00031464759888838765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0372_text_document
+0.00033188946446414833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0373_text_document
+0.000326084432195463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0374_text_document
+0.0003764568303917893 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0375_text_document
+0.0003604955598858414 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0376_text_document
+0.0003655654554133222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0377_text_document
+0.00035762304033750504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0378_text_document
+0.00038478883950347103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_middle-0379_text_document
+0.00027735714341247454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0000_text_document
+0.00028139534607773563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0001_text_document
+0.00019777292251713763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0002_text_document
+0.000285571704874486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0003_text_document
+0.00028543482146244363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0004_text_document
+0.00019434234484256758 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0005_text_document
+0.00027854908176986763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0006_text_document
+0.0002847068039566143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0007_text_document
+0.00028672356943064853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0008_text_document
+0.00027782687605808177 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0009_text_document
+0.0002843539634105203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0010_text_document
+0.0002894748379090401 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0011_text_document
+0.0002868852440186493 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0012_text_document
+0.0002818504885373851 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0013_text_document
+0.00028680112812941034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0014_text_document
+0.00019258978168723977 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0015_text_document
+0.00028760637934715155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0016_text_document
+0.0002820439443912918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0017_text_document
+0.0002831001054410018 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0018_text_document
+0.00029001901552467397 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0019_text_document
+0.00027779449377883156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0020_text_document
+0.00019949837437516796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0021_text_document
+0.0002907306472984446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0022_text_document
+0.00027814858381318327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0023_text_document
+0.00019472790889161432 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0024_text_document
+0.00020472626596924125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0025_text_document
+0.0002870045081974301 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0026_text_document
+0.00019812241927078482 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0027_text_document
+0.0002817553333369554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0028_text_document
+0.00027829782796642117 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0029_text_document
+0.00028289431732284113 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0030_text_document
+0.0002795526296717729 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0031_text_document
+0.00027682829988044574 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0032_text_document
+0.0002895432402719184 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0033_text_document
+0.0002823174903941811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0034_text_document
+0.00028170972351837796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0035_text_document
+0.00027807915877838826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0036_text_document
+0.00028588515681452956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0037_text_document
+0.00028112324090816726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0038_text_document
+0.00020636178289985485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0039_text_document
+0.00019447255290980535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0040_text_document
+0.0002850824220591452 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0041_text_document
+0.00027856429520116784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0042_text_document
+0.0002820880676635633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0043_text_document
+0.00028943902215995714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0044_text_document
+0.0002676366291085329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0045_text_document
+0.00023806333809954687 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0046_text_document
+0.00024526460430233455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0047_text_document
+0.00023876876664622726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0048_text_document
+0.00023379770334179805 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0049_text_document
+0.00024175151269138382 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0050_text_document
+0.00023386583242595706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0051_text_document
+0.00023771797150160827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0052_text_document
+0.0002262748967483896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0053_text_document
+0.0002408148346432682 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0054_text_document
+0.00023398651720444235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0055_text_document
+0.00022989433874474592 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0056_text_document
+0.00023948500543957772 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0057_text_document
+0.0002331594076859196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0058_text_document
+0.00023375132439600242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0059_text_document
+0.00023923410909668642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0060_text_document
+0.00023952796315562954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0061_text_document
+0.0002327466076905069 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0062_text_document
+0.00023082758956797212 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0063_text_document
+0.0002240509275524448 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0064_text_document
+0.00022798879995765268 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0065_text_document
+0.000221172516774386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0066_text_document
+0.00021767045123534623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0067_text_document
+0.00021982832794804484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0068_text_document
+0.00021971626543789102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0069_text_document
+0.00022566565206920132 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0070_text_document
+0.0002181984894194856 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0071_text_document
+0.00021831417549554653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0072_text_document
+0.00021601405421187145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0073_text_document
+0.00022275733725519607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0074_text_document
+0.00021847734911973986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0075_text_document
+0.0002243591012664014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0076_text_document
+0.00021688758139483833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0077_text_document
+0.0002182953624789215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0078_text_document
+0.00020475155724026002 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0079_text_document
+0.00021498078062960065 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0080_text_document
+0.0002157914337233064 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0081_text_document
+0.00021781838494967963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0082_text_document
+0.00021723242266814558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0083_text_document
+0.0002176782686553837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0084_text_document
+0.0003486179404943968 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0085_text_document
+0.00034882846352857634 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0086_text_document
+0.00031400868448352596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0087_text_document
+0.00030273484020011963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0088_text_document
+0.00029895889118145404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0089_text_document
+0.00029770764609621714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0090_text_document
+0.0002990181332116852 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0091_text_document
+0.00029653733972285996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0092_text_document
+0.00029624649222942476 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0093_text_document
+0.00029625609720203576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0094_text_document
+0.00029731928930852147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0095_text_document
+0.00029011721326148513 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0096_text_document
+0.00028849788197494655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0097_text_document
+0.00021601278623858145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0098_text_document
+0.00021319599281739178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0099_text_document
+0.0002153325290600083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0100_text_document
+0.00018566946174516558 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0101_text_document
+0.00020736824394291617 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0102_text_document
+0.00020857419820128004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0103_text_document
+0.00020058526129536423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0104_text_document
+0.00020745812166665217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0105_text_document
+0.00020652171015271702 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0106_text_document
+0.00020643808911278608 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0107_text_document
+0.00020040513914482103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0108_text_document
+0.00020598050188272898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0109_text_document
+0.0001969184139343296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0110_text_document
+0.0001972748812937012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0111_text_document
+0.0002038556751586195 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0112_text_document
+0.00020245186011313464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0113_text_document
+0.00019950381422038783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0114_text_document
+0.00020837055459665258 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0115_text_document
+0.00020371856218246096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0116_text_document
+0.00019537612301625791 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0117_text_document
+0.00019914984508813857 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0118_text_document
+0.0002053787713691309 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0119_text_document
+0.00019082100541008637 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0120_text_document
+0.00020397153334531813 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0121_text_document
+0.0002021462693077317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0122_text_document
+0.00019609357008124035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0123_text_document
+0.00019693256622486236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0124_text_document
+0.00020007239732428112 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0125_text_document
+0.00020467075741591954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0126_text_document
+0.00019584883400022932 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0127_text_document
+0.00019135050391176972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0128_text_document
+0.0003362829834208298 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0129_text_document
+0.00034013691154784095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0130_text_document
+0.00033215887031941976 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0131_text_document
+0.00032681189065396707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0132_text_document
+0.0003149138485493094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0133_text_document
+0.00030179177307540077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0134_text_document
+0.0002923278437581119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0135_text_document
+0.00029470052278994486 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0136_text_document
+0.0002994095093045731 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0137_text_document
+0.00029033525096085037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0138_text_document
+0.00029390798852496565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0139_text_document
+0.0002916230924130842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0140_text_document
+0.00029419886374594913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0141_text_document
+0.0002865469756730764 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0142_text_document
+0.00021191292549942086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0143_text_document
+0.00021369664817409847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0144_text_document
+0.00021612485624266726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0145_text_document
+0.00022242192634588478 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0146_text_document
+0.00014605095659989698 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0147_text_document
+0.00022070626106341693 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0148_text_document
+0.0002174420774054071 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0149_text_document
+0.00021325858963116995 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0150_text_document
+0.0002124322999488052 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0151_text_document
+0.0002081218896969054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0152_text_document
+0.0002108710211556957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0154_text_document
+0.00020686867095978426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0155_text_document
+0.00020895752681041895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0156_text_document
+0.00020741922266415738 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0157_text_document
+0.0002069112657197308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0158_text_document
+0.00020644627473468118 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0159_text_document
+0.00020332991338121604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0160_text_document
+0.0003560895677789848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0161_text_document
+0.00032915779111908214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0162_text_document
+0.00033810613317040864 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0163_text_document
+0.00033729626594036923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0164_text_document
+0.00033550342864602944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0165_text_document
+0.00034173474024556906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0166_text_document
+0.000331505340748827 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0167_text_document
+0.0003270050330117195 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0168_text_document
+0.00032585275329172556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0169_text_document
+0.0003143383203190604 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0170_text_document
+0.00031655199110388894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0171_text_document
+0.00030738872158476413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0172_text_document
+0.00030838388352699285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0173_text_document
+0.0003053596995351888 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0174_text_document
+0.00031836304739584593 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0175_text_document
+0.000315315435873905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0176_text_document
+0.0003087116248965243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0177_text_document
+0.00030396790625537645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0178_text_document
+0.0003335812246032149 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0179_text_document
+0.00034570956323095843 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0180_text_document
+0.00034563035636675786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0181_text_document
+0.00033411265479076335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0182_text_document
+0.00034439191141692787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0183_text_document
+0.0003364483125496565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0184_text_document
+0.0003299500453608033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0185_text_document
+0.00033163377700074837 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0186_text_document
+0.00032638649660627673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0187_text_document
+0.00032616167939645234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0188_text_document
+0.0003205289298760723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0189_text_document
+0.00031939393740815355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0190_text_document
+0.00031593164066731296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0191_text_document
+0.00031928871111254405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0192_text_document
+0.00029670189073175004 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0193_text_document
+0.00020517703846735904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0194_text_document
+0.00020128418186172073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0195_text_document
+0.00019662723895606717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0196_text_document
+0.0001981157042081407 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0197_text_document
+0.00019703489037041608 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0198_text_document
+0.00019079796331785068 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0199_text_document
+0.0001909352306690079 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0200_text_document
+0.00018824662295261396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0201_text_document
+0.00019864275319325954 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0202_text_document
+0.00018818516521649587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0203_text_document
+0.00018875694972812844 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0204_text_document
+0.00018231621170645482 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0205_text_document
+0.00018349407845798273 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0206_text_document
+0.00018088971427746906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0207_text_document
+0.00018296284236327237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0208_text_document
+0.0001876011825819916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0209_text_document
+0.000329052068725176 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0210_text_document
+0.00032223616273648536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0211_text_document
+0.00031272564089633955 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0212_text_document
+0.00031621609908414494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0213_text_document
+0.0003117213560911235 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0214_text_document
+0.00030218064069945934 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0215_text_document
+0.00030658916600512085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0216_text_document
+0.0002915863534115821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0217_text_document
+0.0002940280138374372 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0218_text_document
+0.00029067860468866085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0219_text_document
+0.00028529228063135635 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0220_text_document
+0.00028336893301452256 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0221_text_document
+0.0002794668089130099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0222_text_document
+0.00021681361378827842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0223_text_document
+0.0001484664674497246 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0224_text_document
+0.00021950558378215133 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0225_text_document
+0.00021806860758808645 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0226_text_document
+0.00021819568718852282 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0227_text_document
+0.00021626925931585001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0228_text_document
+0.0001464536143077762 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0229_text_document
+0.00021432777088808917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0230_text_document
+0.000213473805865147 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0231_text_document
+0.00021397067253964538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0232_text_document
+0.00020758957647437263 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0233_text_document
+0.00020687124337683314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0234_text_document
+0.00020630057046511005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0235_text_document
+0.0002091166859352538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0236_text_document
+0.00020777355025615267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0237_text_document
+0.00020709287641496176 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0238_text_document
+0.00020736464660577094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0239_text_document
+0.00020062246741862607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0240_text_document
+0.00020693207561942915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0241_text_document
+0.00021151004871893024 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0242_text_document
+0.00019930249098689716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0243_text_document
+0.00021589710041231824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0244_text_document
+0.00021369204789905741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0245_text_document
+0.0002147099923936778 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0246_text_document
+0.00021077531190389536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0247_text_document
+0.0002100509829113836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0248_text_document
+0.00021185362601571124 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0249_text_document
+0.00020722136637339565 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0250_text_document
+0.00020300093701169531 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0251_text_document
+0.00019859737993313477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0252_text_document
+0.00019971314372100164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0253_text_document
+0.00019549908270269278 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0254_text_document
+0.00019649820843534028 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0255_text_document
+0.00019619415513498067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0256_text_document
+0.00019493006120377898 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0257_text_document
+0.00019499409035775506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0258_text_document
+0.00019252988593634277 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0259_text_document
+0.00019440768268686405 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0260_text_document
+0.00018747161324755577 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0261_text_document
+0.0001879575932372779 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0262_text_document
+0.00019040707058357506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0263_text_document
+0.0001871931095090703 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0264_text_document
+0.00020112966223017096 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0265_text_document
+0.00020516878165311017 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0266_text_document
+0.00020664735191740533 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0267_text_document
+0.00021041398572882962 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0268_text_document
+0.00020397992929690396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0269_text_document
+0.0002039978580295561 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0270_text_document
+0.00020592785601142126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0271_text_document
+0.0001990755527445265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0272_text_document
+0.00019729564847798732 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0273_text_document
+0.00019958182230527032 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0274_text_document
+0.0001985037302636386 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0275_text_document
+0.00020204130355115716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0276_text_document
+0.0002000296401958085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0277_text_document
+0.0001983064832295463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0278_text_document
+0.00019663108484195617 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0279_text_document
+0.00019510678560556523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0280_text_document
+0.0001873284057063206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0281_text_document
+0.00019311553072495885 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0282_text_document
+0.00034652137288816547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0283_text_document
+0.0002813690318850024 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0284_text_document
+0.00027697649713138685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0285_text_document
+0.0002755419092534421 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0286_text_document
+0.0002681583054440219 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0287_text_document
+0.00026945753192750824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0288_text_document
+0.00026169470768245737 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0289_text_document
+0.00026437008960810825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0290_text_document
+0.0002637294838228 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0291_text_document
+0.00026491867965088836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0292_text_document
+0.00025504483625138986 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0293_text_document
+0.0002545040623796586 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0294_text_document
+0.0002546682814073622 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0295_text_document
+0.00025545439487142615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0296_text_document
+0.0002626896557978271 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0297_text_document
+0.00025092040940402784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0298_text_document
+0.0002589154885863872 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0299_text_document
+0.00024106160482721467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0300_text_document
+0.0002483289690087987 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0301_text_document
+0.0002388930282784437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0302_text_document
+0.00024006340759273874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0303_text_document
+0.00023765248178029045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0304_text_document
+0.00023061351965578936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0305_text_document
+0.00024954224883546477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0306_text_document
+0.00017861017233018525 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0307_text_document
+0.00017810832743667658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0308_text_document
+0.00017599709170759497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0309_text_document
+0.00017462723516505223 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0310_text_document
+0.0002906316527068669 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0311_text_document
+0.00033762141066247166 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0312_text_document
+0.00017170670574152494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0313_text_document
+0.00017258674515137717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0314_text_document
+0.0002815386173173926 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0315_text_document
+0.0002996845935618989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0316_text_document
+0.0002735268488987296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0317_text_document
+0.0002971738713071517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0318_text_document
+0.0002942690674002763 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0319_text_document
+0.0003322222207729567 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0320_text_document
+0.0003378721656198464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0321_text_document
+0.00018307262621851067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0322_text_document
+0.00033956081502775057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0323_text_document
+0.00031604820927876276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0324_text_document
+0.00028805657681088917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0325_text_document
+0.00026312293321215633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0326_text_document
+0.00034366936722921455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0327_text_document
+0.0002865256504406559 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0328_text_document
+0.0003063615195861786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0329_text_document
+0.00028412791619666136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0330_text_document
+0.00028060835132727154 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0331_text_document
+0.00032544974761560506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0332_text_document
+0.0002647177833217225 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0333_text_document
+0.0003152621884896575 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0334_text_document
+0.0003054625140336913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0335_text_document
+0.00031183308312292263 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0336_text_document
+0.00018175026696621178 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0337_text_document
+0.00017699918328872 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0338_text_document
+0.00018222339261441908 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0339_text_document
+0.00018348005930964137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0340_text_document
+0.0001810735993810541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0341_text_document
+0.00030846441282038914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0342_text_document
+0.0002972326889310354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0343_text_document
+0.00017433421318235594 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0344_text_document
+0.00032799458649525895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0345_text_document
+0.00032482130048512673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0346_text_document
+0.00031943465668672475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0347_text_document
+0.00029615593630484517 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0348_text_document
+0.0002893126939511001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0349_text_document
+0.0002849288351723284 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0350_text_document
+0.00028383906633569267 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0351_text_document
+0.00028072526091262615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0352_text_document
+0.000284239564292377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0353_text_document
+0.0002778903109432523 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0354_text_document
+0.0002771644389501471 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0355_text_document
+0.0002733316182319337 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0356_text_document
+0.00026362539185869363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0357_text_document
+0.0002636325383220217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0358_text_document
+0.00026740622442302886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0359_text_document
+0.0002646771971853427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0360_text_document
+0.0002628566720605389 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0361_text_document
+0.0002644760695434766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0362_text_document
+0.0002623837702310999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0363_text_document
+0.00026088722976772894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0364_text_document
+0.0002567065374799158 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0365_text_document
+0.00018857382101207726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0366_text_document
+0.00019036580399817203 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0367_text_document
+0.00018348828065261222 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0368_text_document
+0.00018491851780345073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0369_text_document
+0.00018904887260080187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0370_text_document
+0.0001875609304251801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0371_text_document
+0.00018393034720015817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0372_text_document
+0.00018419795526114903 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0373_text_document
+0.00018699955623404795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0374_text_document
+0.00018276256902965128 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0375_text_document
+0.00017698045695190812 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0376_text_document
+0.00018104650132303642 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0377_text_document
+0.00017758206731279688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0378_text_document
+0.00017131402995103497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0379_text_document
+0.000175944428350446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0380_text_document
+0.0003416745727147391 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0381_text_document
+0.0003163259373952889 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0382_text_document
+0.0002804489269172448 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0383_text_document
+0.00028748272397403175 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0384_text_document
+0.00027603318345630605 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0385_text_document
+0.000271638824679648 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0386_text_document
+0.0002763761210210942 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0387_text_document
+0.00026501984873172717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0388_text_document
+0.00026422486894694714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0389_text_document
+0.0002686339100849262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0390_text_document
+0.0002610837453940606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0391_text_document
+0.000260974343729353 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0392_text_document
+0.0002599403837029134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0393_text_document
+0.0002937273113238609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0394_text_document
+0.0003341790732600504 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0395_text_document
+0.0002620661576600244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0396_text_document
+0.0003027929169239288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0397_text_document
+0.00031944039129326894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0398_text_document
+0.00019025676304139009 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0399_text_document
+0.00018680910145009907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0400_text_document
+0.00034215840419416437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0401_text_document
+0.00018618120812119364 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0402_text_document
+0.00018605853095599425 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0403_text_document
+0.00018120712626096538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0404_text_document
+0.00018315079292495327 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0405_text_document
+0.00018362556449041974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0406_text_document
+0.0001780024456718171 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0407_text_document
+0.00033296526436178697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0408_text_document
+0.0001802398632282846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0409_text_document
+0.00017340263100798256 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0410_text_document
+0.00017755840547238697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0411_text_document
+0.00018419413735260606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0412_text_document
+0.00017869518174591322 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0413_text_document
+0.00017526271460129484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0414_text_document
+0.00017852168597981907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0415_text_document
+0.00017566536156787157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0416_text_document
+0.00017589867964432936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0417_text_document
+0.00017831487394075305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0418_text_document
+0.00017837310528935862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0419_text_document
+0.00018200908814216548 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0420_text_document
+0.0001795136627511612 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0421_text_document
+0.0003414021775300033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0422_text_document
+0.00017177291787788502 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0423_text_document
+0.0003441900648571877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0424_text_document
+0.0003394534597060673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0425_text_document
+0.0003236887233114832 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0426_text_document
+0.0001639544129688747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0427_text_document
+0.00019137443753211255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0428_text_document
+0.00018575146284680153 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0429_text_document
+0.00019184792863440243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0430_text_document
+0.00018966043065679055 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0431_text_document
+0.00017968851317035848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0432_text_document
+0.00018479881897661546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0433_text_document
+0.0001813642692683015 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0434_text_document
+0.0001686449798983066 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0435_text_document
+0.00018516104592230446 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0436_text_document
+0.00031283726601066385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0437_text_document
+0.0003248607542883853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0438_text_document
+0.00031583241601202365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0439_text_document
+0.00031238270857730376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0440_text_document
+0.000307150592403979 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0441_text_document
+0.00029443829986847044 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0442_text_document
+0.0002942723732234677 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0443_text_document
+0.00023514930666443422 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_en_tail-0444_text_document
+0.0020776328951453444 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0000_text_document
+0.0021768234410538883 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0001_text_document
+0.002106973549276289 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0002_text_document
+0.002110915756171751 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0003_text_document
+0.0017032382109816464 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_head-0004_text_document
+0.0019047944877712286 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0000_text_document
+0.0019402711744016077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0001_text_document
+0.0006264790011223686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_middle-0002_text_document
+0.0017885401938106643 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/cc_news_tail-0000_text_document
+0.0003547982093445404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document
+0.00035934014428504944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document
+0.00035707704501371544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document
+0.00035287930712815354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document
+0.00035977166728996823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document
+0.0003581675664109838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document
+0.0003548617059697185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document
+0.0003639582000286208 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document
+0.00035375839698688127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document
+0.0003743722020080678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document
+0.0003530399715341242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document
+0.00035511875882752406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document
+0.0003618733574783154 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document
+0.00035185243285420104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document
+0.0003541503739732106 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document
+0.0003631679485751914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document
+0.00035748045578182274 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document
+0.0003606490690555877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document
+0.0003626383296610091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document
+0.00035442644361264756 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document
+0.00035978370170539796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document
+0.0003585562375341541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document
+0.0003601958372888019 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document
+0.000350277765402227 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document
+0.0003616521184211704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document
+0.0003620625543608188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document
+0.0003560781983850704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document
+0.0003553209610592676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document
+0.00035905348643915075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document
+0.00034744258805696526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document
+0.00035462784035661496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document
+0.00034768186175100895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document
+0.0003568534635532736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document
+0.00035586511544371234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document
+0.0003524567827568137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document
+0.0003512453770426313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document
+0.0003591792726468799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document
+0.0003514024529343127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document
+0.0003584880112586934 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document
+0.00035133552916418045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document
+0.0003600811981350215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document
+0.0003571663974228119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document
+0.00035768103378874214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document
+0.00035939205561113694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document
+0.00035186773916029825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document
+0.0003542829672490847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document
+0.0003592783642898726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document
+0.0003556367340099302 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document
+0.00035391392271377027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document
+0.00035486725707484836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document
+0.00034866743396828035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document
+0.0003517219808644735 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document
+0.00034874458549673823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document
+0.000355773136961014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document
+0.00035611750387841917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document
+0.00035305602013916315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document
+0.0003578207127071924 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document
+0.00035514635841943707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document
+0.00034816946212866206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document
+0.0003512707269761496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document
+0.0003483392117980654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document
+0.0003572169607204321 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document
+0.00035139153281660794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document
+0.00035536422129036537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document
+0.000352017164107143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document
+0.000351889550179365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document
+0.000358759689953589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document
+0.0003569286079869268 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document
+0.0003657752958602099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document
+0.00035396127934790697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document
+0.0003618565071224743 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document
+0.00035146051531973204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document
+0.00036107135765783567 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document
+0.00035019554279994576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document
+0.00035567858879904983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document
+0.0003504753174793183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document
+0.00035931140831329194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document
+0.0003502967866002823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document
+0.0003532911801041972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document
+0.0003583543013070199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document
+0.0003566243489931224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document
+0.0003468752314799221 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document
+0.0003597840618138091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document
+0.00035128822484768084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document
+0.00035889496943437507 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document
+0.000352400524650424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document
+0.0003518689536768735 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document
+0.00035866864741303467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document
+0.0003454687659106334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document
+0.00035348007259317576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document
+0.0003539752270940644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document
+0.00035146495994081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document
+0.00035397212846310423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document
+0.00035208246467162587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document
+0.0003490843168676626 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document
+0.00035299633658644394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document
+0.00034868327466167065 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document
+0.00035941351365601583 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document
+0.0003545343062735255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document
+0.0003528956380445978 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document
+0.0003553355770443352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document
+0.0003644224004937743 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document
+0.00035234291036216907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document
+0.0003596237469847771 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document
+0.0003531996065735989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document
+0.0003547177054106099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document
+0.0003575586499260483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document
+0.00035262635135283667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document
+0.0003624191962188944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document
+0.0003488398052948616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document
+0.0003598294093147917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document
+0.00035583006534466323 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document
+0.00035403139653225103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document
+0.00036134702642187156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document
+0.0003573689927162834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document
+0.0003577141131435527 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document
+0.00035208814419277406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document
+0.00035996720683665625 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document
+0.00035415304658912596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document
+0.00036353353029443546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document
+0.0003537326003150983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document
+0.00036053976358299083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document
+0.000352380489373494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document
+0.00036154661616900994 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document
+0.00035959332325963614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document
+0.0003597954667189692 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document
+0.0003563108270597542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document
+0.0003582891940460143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document
+0.0003497728210484297 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document
+0.0003549834902179354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document
+0.0003529828233484542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document
+0.00034627483903285777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document
+0.00035569006572589215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document
+0.00035449377946910314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document
+0.00035802844396194623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document
+0.0003617277809353208 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document
+0.00035034118898654814 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document
+0.000351091193908611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document
+0.0003527914342210668 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document
+0.00035028288369781376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document
+0.00035775745592780506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document
+0.0003449630690661468 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document
+0.0003583490698830361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document
+0.0003476995746684122 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document
+0.0003535632505019212 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document
+0.00035640180641147417 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document
+0.000361731045691765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document
+0.0003534082129597368 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document
+0.0003550344149828664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document
+0.00035363002411364057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document
+0.0003537265579677396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document
+0.00034950531383577937 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document
+0.00035008511827347514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document
+0.00035594533400871325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document
+0.00035266312861335946 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document
+0.00035280268794863923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document
+0.0003565470391528536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document
+0.0003588492322689137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document
+0.00035469909697832775 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document
+0.00034712082813410526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document
+0.000348701157101807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document
+0.0003500192014479944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document
+0.00035120560544669755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document
+0.00035403656850437445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document
+0.00035852376560749366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document
+0.0003534754068111774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document
+0.00035591740046720765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document
+0.000348522354782563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document
+0.0003533533959664415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document
+0.00035631425964030697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document
+0.0003485886551574741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document
+0.00035917652631065777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document
+0.0003482975272111288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document
+0.00035580661277480167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document
+0.0003492290722955348 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document
+0.00034989284450240613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document
+0.0003545677216162781 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document
+0.00034622286859463484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document
+0.00036070626989861965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document
+0.00035518365036320786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document
+0.00035272907057848406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document
+0.0003547343638218734 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document
+0.0003496450144966242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document
+0.0003537407829294287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document
+0.0003489722653985685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document
+0.00035057186899911295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document
+0.0003507566548933051 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document
+0.00035630360179023747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document
+0.00035631362503416367 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document
+0.0003490204248026821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document
+0.00035761724058371226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document
+0.00035037664777467137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document
+0.000353402110481068 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document
+0.00034524163568371745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document
+0.00035528523728570974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document
+0.00034784916132431703 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document
+0.00034928476408048925 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document
+0.00034989205973784984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document
+0.00034201664404094254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document
+0.0003529676016338611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document
+0.00034643433682346637 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document
+0.0003511666373001904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document
+0.00034828669066575333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document
+0.0003494625207264413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document
+0.0003458957535879216 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document
+0.0003543020478990003 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document
+0.00034754384069014956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document
+0.0003598856392240133 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document
+0.0003503335458553846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document
+0.00035919595619778716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document
+0.00035767737970754404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document
+0.00035197152783998165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document
+0.0003549609834422404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document
+0.0003568184100569753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document
+0.0003512652818651935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document
+0.00035912648958665754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document
+0.00034764526964056546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document
+0.000352439784960359 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document
+0.00035295886560764226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document
+0.0003518132693658672 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document
+0.00035589987915465713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document
+0.00034923863317385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document
+0.0003457987267929692 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document
+0.0003560928663480501 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document
+0.0003529603811204932 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document
+0.0003524438555443043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document
+0.0003438847030263783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document
+0.00035981978898461613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document
+0.0003446342778566972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document
+0.00035529584995236537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document
+0.00034855740895831116 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document
+0.00034932634912802544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document
+0.00035805518303064666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document
+0.0003497941877073061 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document
+0.00035774398685405447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document
+0.0003560421780316607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document
+0.0003508844468369392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document
+0.00035731928892270107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document
+0.0003557884626314314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document
+0.00034992996760289355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document
+0.000360752554360921 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document
+0.0003452321668708545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document
+0.0003591745226131023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document
+0.00035256981433229084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document
+0.00035378123159712034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document
+0.000350464354895999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document
+0.00035074625557389677 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document
+0.00035025894701994667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document
+0.00035437902514857614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document
+0.0003514684519732232 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document
+0.00035449717909633905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document
+0.0003436816402714221 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document
+0.00035139158071782116 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document
+0.0003509424079843335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document
+0.000343894618577506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document
+0.0003500789770661659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document
+0.0003407788080680086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document
+0.0003581908175239701 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document
+0.0003465541618780918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document
+0.00034600228792437736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document
+0.00034416738982773204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document
+0.0003519900340150641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document
+0.000343369616864659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document
+0.0003544993883274688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document
+0.0003504441365073392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document
+0.00034859160702727056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document
+0.00035355909532647185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document
+0.0003471900922691849 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document
+0.0003563015508709187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document
+0.0003487888744148821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document
+0.00034711767548688336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document
+0.0003530734609369085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document
+0.00035123969242560935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document
+0.0003517127620891489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document
+0.00035232835416868673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document
+0.0003524437481912308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document
+0.0003525996167005602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document
+0.00035064770545242043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document
+0.00035311558274981226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document
+0.00034952204800569914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document
+0.0003541471367344846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document
+0.00035418812454561825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document
+0.0003528951372900714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document
+0.0003542338042975688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document
+0.00034937738939942796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document
+0.0003522182190878447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document
+0.0003501406466507449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document
+0.00034973079877492633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document
+0.0003485274567713538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document
+0.00034999308679368985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document
+0.0003570051724707296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document
+0.00034567230462019706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document
+0.00035529000940160696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document
+0.00034956512308671755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document
+0.0003496962834028953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document
+0.0003468745282493457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document
+0.0003502717155809202 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document
+0.0003556240880896514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document
+0.0003515109488424343 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document
+0.0003563156688192592 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document
+0.00035040277363989817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document
+0.0003481408593290717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document
+0.0003624575124332874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document
+0.0003522684124250313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document
+0.00035286996027653544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document
+0.00034967623997256725 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document
+0.00035182649587602765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document
+0.0003524892557026489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document
+0.0003507642477451811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document
+0.00036190408389835666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document
+0.00035102739424880766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document
+0.00035239718753257265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document
+0.00035298076121821316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document
+0.0003478704389752654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document
+0.0003503109191567942 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document
+0.00035143250975654426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document
+0.0003480663923069012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document
+0.00035691540219998623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document
+0.000348815437166351 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document
+0.00035202073257766225 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document
+0.0003491569096274706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document
+0.00035277390475511834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document
+0.0003524972090026609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document
+0.0003504854249750236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document
+0.00034740238025423914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document
+0.00034968015462277606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document
+0.0003493798632762674 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document
+0.0003488202537862122 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document
+0.0003525461864643725 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document
+0.00034903815232825664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document
+0.00035536982539258216 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document
+0.00034858083265155483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document
+0.0003505014973608067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document
+0.00035327984042622104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document
+0.0003503286677453136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document
+0.00035835274842442816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document
+0.00034970302660275595 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document
+0.000357929573140149 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document
+0.0003517238649788585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document
+0.00036097027318848475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document
+0.0003502734074110026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document
+0.00035801510806036273 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document
+0.0003568006373479869 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document
+0.00036128108717454636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document
+0.0003563436883111686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document
+0.00035559725321852463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document
+0.00035089656006854944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document
+0.000359453964362057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document
+0.00035629498059104033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document
+0.0003622207707090437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document
+0.0003540946784512821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document
+0.0003594750565232011 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document
+0.0003566007415086991 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document
+0.0003562142599126134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document
+0.0003569948186744601 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document
+0.00035166554847920186 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document
+0.00035047994419295137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document
+0.0003561578193739437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document
+0.00035470866838811544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document
+0.00034216920464876335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document
+0.0003550021513075795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document
+0.0003488045105938729 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document
+0.0003513340720840151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document
+0.0003448558566387584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document
+0.0003460966026953241 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document
+0.0003488157616036459 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document
+0.0003446120387842362 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document
+0.000351528602987427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document
+0.00035661118227454713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document
+0.0003551342699877457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document
+0.0003478953397924445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document
+0.00034625782458988215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document
+0.0003527515447405871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document
+0.00034823744889805696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document
+0.00034823314560254406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document
+0.00035162668292961944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document
+0.0003477307716074623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document
+0.0003446457989477787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document
+0.00034782916273767795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document
+0.0003517249130302248 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document
+0.0003449873430908556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document
+0.00034841291749669877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document
+0.0003466028498941749 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document
+0.0003486436831199424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document
+0.0003478279234211838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document
+0.0003495903653274374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document
+0.00034896893881218957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document
+0.000348941645312426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document
+0.0003474221308416894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document
+0.0003462621543839385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document
+0.0003669373860863891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document
+0.00034691156268163006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document
+0.0003527774103765281 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document
+0.00034684565672734663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document
+0.0003454250599604457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document
+0.0003541536557159006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document
+0.000345735737037366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document
+0.0003524669816385214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document
+0.0003441817133096468 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document
+0.0003519093265859089 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document
+0.00035080085480352095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document
+0.00035285227929327434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document
+0.00034354836346901676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document
+0.00034789770937373467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document
+0.000343665920520102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document
+0.0003490884931060568 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document
+0.00034380029463398654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document
+0.00034874768005099945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document
+0.0003457058510967673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document
+0.00034644265227023904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document
+0.00035008339858594957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document
+0.0003462377193296194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document
+0.0003620491787114201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document
+0.000348717011044469 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document
+0.00034370072363913706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document
+0.0003551981066775649 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document
+0.0003500119496799342 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document
+0.0003485082952669081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document
+0.0003508155580978919 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document
+0.00035311375163251416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document
+0.00034945972003423253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document
+0.0003474220353789879 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document
+0.0003536443686585001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document
+0.0003560350489042953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document
+0.0003493655927914396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document
+0.0003528423977146383 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document
+0.00035255554724471217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document
+0.0003479760010190111 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document
+0.00035458598862501956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document
+0.0003458990560538315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document
+0.00035157946422379875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document
+0.00034736860650169996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document
+0.0003529152313394119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document
+0.00034586294329524465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document
+0.00035707214923794877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document
+0.0003509580363496512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document
+0.00035244176725524474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document
+0.0003467539557999047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document
+0.00034919687962275546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document
+0.00035094031731719953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document
+0.0003484309008351352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document
+0.0003485409424916253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document
+0.0003499590776117838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document
+0.0003492842758957848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document
+0.0003529712275178912 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document
+0.0003566141287087449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document
+0.0003649496522047409 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document
+0.0003563218912208234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document
+0.00035614782126966145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document
+0.0003531944298453266 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document
+0.0003535950949566616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document
+0.0003544295554928795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document
+0.0003519908503740376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document
+0.00035752817626134463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document
+0.0003515322689589972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document
+0.0003486893890307115 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document
+0.0003446520464889867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document
+0.0003509421562481707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document
+0.00035335015702909084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document
+0.0003490178167345008 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document
+0.0003520497821155174 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document
+0.0003549762618908944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document
+0.00035072190850833103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document
+0.0003542458638526423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document
+0.000352419194572916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document
+0.0003545102564672614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document
+0.0003495437992331806 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document
+0.0003542843376993964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document
+0.000352827529313958 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document
+0.00035442506093223886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document
+0.0003496970719044257 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document
+0.0003553096424442362 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document
+0.00034986845565067564 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document
+0.000352131055186658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document
+0.0003527021708198983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document
+0.00034905885414547214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document
+0.0003583433842468394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document
+0.00034409435202828383 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document
+0.00034846410520871483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document
+0.0003554459991927314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document
+0.00035310507471843076 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document
+0.000350028910786098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document
+0.00035049727458009896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document
+0.0003519047735925826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document
+0.0003513027429919726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document
+0.0003626947260354396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document
+0.0003500087324849783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document
+0.0003618315726725285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document
+0.0003535385113938023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document
+0.0003487064058517615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document
+0.0003618709124780938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document
+0.00035040070335625915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document
+0.0003506279032267829 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document
+0.0003498435310527524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document
+0.0003554634749821431 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document
+0.00035091209738758963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document
+0.00035034103678978573 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document
+0.00035398931854386146 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document
+0.00035495529304989485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document
+0.00036067883473356603 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document
+6.322825248625475e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document
+2.4432314037946264e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document
+5.6313888721313454e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document
+2.4208171781595055e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document
+2.325811856369237e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document
+2.4010790356322705e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document
+5.36773610843632e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document
+1.360574433501002e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document
+1.3076540344853244e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document
+1.3386534334886313e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document
+1.2498103719605153e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document
+1.403763836949682e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document
+1.3636756723495417e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document
+1.2242489446940814e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document
+1.2398255818973339e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document
+1.2972616994216281e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document
+1.3947809855914134e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document
+1.3144843787829514e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document
+1.1693809976572487e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document
+1.3677252682893802e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document
+1.3940876719849597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document
+1.4222245138730965e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document
+1.3201677767919704e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document
+1.1421717796486169e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document
+1.2890514724498703e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document
+1.3649507648749037e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document
+1.2400732563490717e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document
+1.1557681453277616e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document
+1.2294483595964517e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document
+1.2137484472122283e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document
+1.3299663426456e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document
+1.2461984216479532e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document
+1.4666434217609636e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document
+1.1876997894686238e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document
+1.2939155338964078e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document
+1.3859590039728515e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document
+1.317917848615668e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document
+1.1335281536110342e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document
+1.2889923952861426e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document
+1.3471671647053326e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document
+1.2221720014475102e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document
+1.2632647276287541e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document
+1.28276219004076e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document
+1.36213704321643e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document
+1.2414858625261553e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document
+1.3173700421883744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document
+1.295597796725686e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document
+1.242783936442904e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document
+1.2417374088427464e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document
+1.2134479405400744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document
+1.3090040663304255e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document
+1.2713470581614905e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document
+5.5750231378906594e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document
+5.777597358425469e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document
+5.349786767471258e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document
+5.675165050453583e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document
+5.482611216158831e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document
+5.065421899890121e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document
+5.384718357480146e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document
+4.872037363236061e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document
+4.532709250783155e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document
+5.7257963030489613e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document
+4.9014365579652036e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document
+5.722863552770969e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document
+6.149911636146833e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document
+5.2178057608273506e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document
+4.990228161160431e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document
+5.866186875255134e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document
+5.004185734360719e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document
+4.79401853705107e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document
+5.435219965052376e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document
+5.035997225792266e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document
+5.622401774211625e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document
+5.028826157387559e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document
+5.596379470128795e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document
+6.027824493191489e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document
+5.5358270009931474e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document
+5.9839051807685496e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document
+5.1221077499249595e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document
+5.517228560620279e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document
+5.1687858285052305e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document
+5.684188244145645e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document
+5.212693275535878e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document
+4.8551007022784084e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document
+5.4888506639203145e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document
+5.345098688527242e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document
+4.8506420625516594e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document
+5.132168603397676e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document
+5.719476795114223e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document
+5.7448621149792696e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document
+4.9068410568059265e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document
+5.382937299647678e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document
+4.8288432136304634e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document
+5.841703200305416e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document
+5.1589611587885584e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document
+6.031113829732574e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document
+5.4558202844532094e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document
+5.341852317196142e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document
+5.1402942738369954e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document
+5.735421384377395e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document
+5.473629863586958e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document
+5.4708993245733936e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document
+4.931161863634078e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document
+5.104173022127248e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document
+5.510157161510824e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document
+5.652501401782597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document
+5.7273656573031666e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document
+5.638363224821738e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document
+5.6128115396668704e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document
+5.00304877998141e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document
+5.596120554779096e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document
+5.5280923889040006e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document
+5.223477917938408e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document
+5.29472809986569e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document
+2.205682378243213e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document
+1.4367563720603185e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document
+3.5506193487931076e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document
+3.0442910855821778e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document
+2.2540042508019627e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document
+2.6880163202623216e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document
+2.534473148048727e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document
+2.6560945431318916e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document
+2.547470248967691e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document
+2.5248825388073738e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document
+2.5828729575000054e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document
+2.4026583817957736e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document
+2.3930425429834413e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document
+2.5037365362599724e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document
+2.6696745470595603e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document
+2.140323051341762e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document
+2.617354786691592e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document
+1.538359101762691e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document
+1.2871029252377856e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document
+2.255195411289217e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document
+2.4832313897952067e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document
+9.303873918189968e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document
+2.179532302620228e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document
+1.9750517506901206e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document
+2.7740420380648435e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document
+2.7813714782319335e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document
+4.1595357937609806e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document
+2.741365122389175e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document
+2.117451071361901e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document
+1.7132649760565998e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document
+1.7492547092602047e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document
+1.7499951097392276e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document
+1.6632444789170958e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document
+1.6678802252361607e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document
+1.5519208704558896e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document
+1.652420992967167e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document
+1.6119931034508755e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document
+1.6638882076736552e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document
+1.7198076782652946e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document
+1.572927860565175e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document
+1.5194822618169918e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document
+1.6677776832669846e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document
+1.595612492245688e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document
+1.682350633181197e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document
+1.663983380609724e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document
+1.710187842689243e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document
+1.5733697527539038e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document
+1.6972104757911438e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document
+1.6610142847616577e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document
+1.61094882403031e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document
+1.4789207305138325e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document
+1.639299617676302e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document
+1.3241204512116132e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document
+8.582260726625535e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document
+8.213000975576739e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document
+9.549247732811947e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document
+9.17242785339013e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document
+7.632868223725218e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document
+8.674401118222175e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document
+9.124384255505347e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document
+8.344222222417358e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document
+8.992299957499065e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document
+8.76689497361025e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document
+7.973396239586015e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document
+9.006935606644125e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document
+8.725545954955498e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document
+1.215449694669174e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document
+3.3041720284158646e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document
+2.0593512412624502e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document
+1.893608946986248e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document
+1.737111666788535e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document
+1.4915923449873955e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document
+2.289370239067605e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document
+2.8615335689614638e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document
+8.847283630883125e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document
+1.8175470362373804e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document
+1.8152226683368038e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document
+1.789149655314284e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document
+1.7690523036477663e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document
+1.8333732213753644e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document
+1.8794105687718654e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document
+1.721841156706417e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document
+2.0612008685724796e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document
+1.9297370681336376e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document
+2.0188440409661018e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document
+5.1741216329695265e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document
+1.3417913926038429e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document
+1.1010813016469651e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document
+1.1252416134320087e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document
+1.2801744104313002e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document
+1.3041514955795817e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document
+1.3428837580879075e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document
+1.320809382267804e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document
+1.3451566676555968e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document
+1.228284926657501e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document
+1.2410599573923043e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document
+1.3815343367377182e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document
+1.3895126265148832e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document
+1.2306773644401741e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document
+1.32981021906281e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document
+1.101337469221607e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document
+1.513094184404692e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document
+1.1073759547073234e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document
+1.2879348765857567e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document
+9.619595770228435e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document
+1.2384340836286436e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document
+1.1766667232211577e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document
+1.2871049236196452e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document
+1.2010645926497744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document
+1.3971428231518597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document
+1.2283733550547932e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document
+1.2659530508255308e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document
+1.551775613074462e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document
+1.1169413343776979e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document
+1.1433700593712463e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document
+4.964773647323492e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document
+1.0995586595687313e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document
+1.2957393071411267e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document
+2.75899247407709e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document
+2.8269344597344854e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document
+2.329108187246831e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document
+2.4231761430460284e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document
+1.2434140512230442e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document
+1.638718338352859e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document
+3.272953556801187e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document
+6.061314500486327e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document
+1.2465979731210292e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document
+1.2737557327967737e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document
+1.038428658075627e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document
+2.61666472045566e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document
+3.6506873212272224e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document
+1.5066359138295701e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document
+1.1166290872121178e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document
+1.5546966228590285e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document
+1.2583434625014828e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document
+1.3398826881300862e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document
+1.2944933160515968e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document
+1.0971437399901365e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document
+1.2787922795775774e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document
+1.404979227816985e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document
+1.3344734431324463e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document
+4.886031157107555e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document
+3.277261443596394e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document
+3.5057957685786495e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document
+3.287625301718589e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document
+3.1370056372668855e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document
+3.186092015785841e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document
+7.271819324142512e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document
+0.001451215788905126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document
+0.0014486847196258788 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document
+0.0008861032722895899 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document
+0.0018119590809459816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document
+0.0008916937917547129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document
+6.960128832809415e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document
+0.002008403651063623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document
+0.0014374900742131454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document
+0.00180213596996716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document
+0.001956178877532413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document
+0.0008829547017667033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document
+0.0008910853619157279 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document
+0.0018260998845299973 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document
+0.0012499632072059553 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document
+0.00125398260359913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document
+0.0012541704774729071 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document
+0.0012527268234360602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document
+0.0012532925243737164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document
+0.0012456396241204315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document
+0.0012589894424352072 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document
+0.001508020123999618 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document
+0.00333096950781965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document
+0.0033233414614415547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document
+0.003512387990689828 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document
+0.0035091382940513126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document
+0.003514155927147005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document
+0.003327108000579638 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document
+0.003329106196589836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document
+0.003505604148738077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document
+0.003324825759567855 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document
+0.0033248240149804913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document
+0.0033385962112851358 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document
+0.0035043186296553615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document
+0.003340469505431529 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document
+0.0035106889084796276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document
+0.0033309469281030167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document
+0.003340337858029757 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document
+0.003505919861097801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document
+0.0003882924098240512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document
+0.0005759963691850877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document
+0.0005959971675332674 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document
+0.0006026179290353799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document
+0.0005824184320784846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document
+0.0005854598548616037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document
+0.0005903767055633473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document
+0.0005930306490982049 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document
+0.000569425602700746 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document
+0.0005675060415179408 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document
+0.0005772431621253389 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document
+0.0005678026053826858 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document
+0.0005700398263483378 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document
+0.0005669467963528824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document
+0.0005701015953324305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document
+0.0005795907287413296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document
+0.0005735602737531164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document
+0.0005749862745842101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document
+0.0005693257015931971 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document
+0.0005716568794795563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document
+0.0005761083919774021 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document
+0.0005688343169797355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document
+0.0005807913190929842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document
+0.0005710229258078636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document
+0.0005704083039826862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document
+0.0005862132348308056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document
+0.0005717662049559556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document
+0.0005858155213694451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document
+0.0005812012281792392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document
+0.0005803981414588498 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document
+0.0005700102108287723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document
+0.0005719243459052329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document
+0.0005867253401661752 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document
+0.0005731087218860733 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document
+0.0005712197789109317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document
+0.0005702376926310089 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document
+0.0005700411527742972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document
+0.0005828090098178196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document
+0.0005770140826168056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document
+0.0005723509664597896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document
+0.0005755499231836962 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document
+0.0005636407438471367 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document
+0.0005640281556500104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document
+0.0005633159058766496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document
+0.0005638034311151449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document
+0.0005630066273073224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document
+0.0005631803831128559 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document
+0.0005631228881679657 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document
+0.0005628178701487633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document
+0.0005624448092256196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document
+0.0005620957024062329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document
+0.0005614201504177484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document
+0.0005616890951464056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document
+0.0005611348559279058 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document
+0.0005604238061828518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document
+0.0005603301490194237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document
+0.0005607291294548833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document
+0.0005605234569930727 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document
+0.0005613778566640694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document
+0.0005610248539992471 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document
+0.0005599977416780475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document
+0.0005603632562116935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document
+0.0005599177479509897 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document
+0.0005595202318298379 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document
+0.0005600975633499175 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document
+0.0005614075491213365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document
+0.000612563885043477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document
+0.0005515469909644413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document
+0.0005526782014946906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document
+0.0005472463408095445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document
+0.0005502284746004587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document
+0.0005414514790555363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document
+0.0005513499500134784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document
+0.0005391391454105187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document
+0.0005415836910001838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document
+0.0005208132468536551 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document
+0.0005889827143132871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document
+0.0005822520817765276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document
+0.0004173155230758696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document
+0.0009994361338078242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document
+0.001087156194657966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document
+0.0010667737163656816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document
+0.0009602877882124873 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document
+0.0008968956271971105 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document
+0.0009198034843762967 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document
+0.0009423901016715341 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document
+0.0009674094553686345 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document
+0.0009858331322519164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document
+0.0009970593645879198 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document
+0.0010027035193731686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document
+0.0010128291154221853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document
+0.0010215631382631918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document
+0.0010288663771461238 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document
+0.0010346219929285867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document
+0.00104544019940344 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document
+0.0010525172676724333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document
+0.0010609529620775127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document
+0.0010725892748610153 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document
+0.0010818563598181568 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document
+0.0010992760196793917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document
+0.0011178992762079917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document
+0.001124687532085676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document
+0.001118303661267191 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document
+0.0010206825575416534 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document
+0.0005512280117499715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document
+0.004474659408857016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document
+0.00409944473890653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document
+0.005137179939941845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document
+0.005143172251066109 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document
+0.005206134363352808 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document
+0.004892747858974329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document
+0.004844731352552902 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document
+0.005308320169123755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document
+0.005124709815666577 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document
+0.005424710744483826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document
+0.00538244648861977 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document
+0.0029107284679086853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document
+0.0026825258998444705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document
+0.0026904503191419243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document
+0.002687906577174073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document
+0.002850165346048818 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document
+0.005322698571717847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document
+0.004450334290869719 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document
+0.004700990083440683 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document
+0.003903568556500995 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document
+0.00390561515396931 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document
+0.0039046402900912262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document
+0.003907454839379547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document
+0.0038583224578603824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document
+0.0037914116657695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document
+0.003786665266798682 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document
+0.003792000802430658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document
+0.00319266847466091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document
+0.0032658716699838944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document
+0.0034801959532460023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document
+0.0028307012092022594 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document
+0.0028420360878146276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document
+0.0028410455248484914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document
+0.00283497183526842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document
+0.002840187195459487 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document
+0.0028398709431369834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document
+0.004364722843422023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document
+0.004093255713117101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document
+0.004092331079566252 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document
+0.004005326985579649 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document
+0.0036205502856964207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document
+0.003625316793034984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document
+0.003604743435602363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document
+0.0035405823343673125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document
+0.0041601413517253945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document
+0.005886303658937057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document
+0.003600909532810332 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document
+0.0034941365817168658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document
+0.0004992164842980224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document
+0.00032927705604725614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document
+0.0002860154190878753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document
+0.0002845217585425619 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document
+0.0002743528685497456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document
+0.00026025323737738766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document
+0.00023493876414603155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document
+0.00029665994994226705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document
+0.00031808102075993956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document
+0.00031813573046011285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document
+0.0002711905171855542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document
+0.00028892513401817095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document
+0.00030003908676979083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document
+0.00026839878771944684 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document
+0.00029155935002690497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document
+0.0002998624927624209 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document
+0.0003091705447974841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document
+0.00026873195794309786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document
+0.00027721873498527547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document
+0.0002841662554024377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document
+0.0002839461156551537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document
+0.0002861705604659811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document
+0.0002460995649635886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document
+0.00019420142619795496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document
+0.00021967677816173628 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document
+0.0002620283200480949 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document
+0.0002433390542188936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document
+0.00021254976608350767 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document
+0.00022094815569522115 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document
+0.000342862378668244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document
+0.00033784225259118157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document
+0.0003367278459543952 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document
+0.00029843279042852765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document
+0.0002926583661257988 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document
+0.00029320337282010673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document
+0.00029281450669483455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document
+0.0002915338187002653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document
+0.0002864226923084572 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document
+0.00028643439083586396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document
+0.00028253710956299054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document
+0.0002810856078805806 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document
+0.00031474941344656715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document
+0.0002139130222205655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document
+0.0003084648871862831 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document
+0.0003309477872140129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document
+0.0003360096824695161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document
+0.0003355452655196557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document
+0.00038119390366386037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document
+0.00038078927630086064 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document
+0.0003386200917551554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document
+0.0002158905159938882 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document
+0.00021621682877018768 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document
+0.00021553306942740535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document
+0.00021581563462722296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document
+0.0002157694110556169 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document
+0.000215643699847159 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document
+0.00021532716715168094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document
+0.00021531221326022472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document
+0.0002831801179028896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document
+0.0002514844936507595 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document
+0.00031638782778107964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document
+0.0002749197545278445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document
+0.00026159721512464495 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document
+0.0002630052420096968 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document
+0.00031106811228913666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document
+0.0002852973415334161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document
+3.7555372465932136e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document
+0.003548077173506675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document
+0.0018372203137874265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document
diff --git a/ALCF/data-lists/sunspot/falcon.txt b/ALCF/data-lists/sunspot/falcon.txt
new file mode 100644
index 00000000000..e5afb892839
--- /dev/null
+++ b/ALCF/data-lists/sunspot/falcon.txt
@@ -0,0 +1,501 @@
+0.0003547982093445404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0000_text_document falcon
+0.00035934014428504944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0001_text_document falcon
+0.00035707704501371544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0002_text_document falcon
+0.00035287930712815354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0003_text_document falcon
+0.00035977166728996823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0004_text_document falcon
+0.0003581675664109838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0005_text_document falcon
+0.0003548617059697185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0006_text_document falcon
+0.0003639582000286208 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0007_text_document falcon
+0.00035375839698688127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0008_text_document falcon
+0.0003743722020080678 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0009_text_document falcon
+0.0003530399715341242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0010_text_document falcon
+0.00035511875882752406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0011_text_document falcon
+0.0003618733574783154 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0012_text_document falcon
+0.00035185243285420104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0013_text_document falcon
+0.0003541503739732106 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0014_text_document falcon
+0.0003631679485751914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0015_text_document falcon
+0.00035748045578182274 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0016_text_document falcon
+0.0003606490690555877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0017_text_document falcon
+0.0003626383296610091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0018_text_document falcon
+0.00035442644361264756 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0019_text_document falcon
+0.00035978370170539796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0020_text_document falcon
+0.0003585562375341541 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0021_text_document falcon
+0.0003601958372888019 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0022_text_document falcon
+0.000350277765402227 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0023_text_document falcon
+0.0003616521184211704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0024_text_document falcon
+0.0003620625543608188 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0025_text_document falcon
+0.0003560781983850704 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0026_text_document falcon
+0.0003553209610592676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0027_text_document falcon
+0.00035905348643915075 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0028_text_document falcon
+0.00034744258805696526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0029_text_document falcon
+0.00035462784035661496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0030_text_document falcon
+0.00034768186175100895 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0031_text_document falcon
+0.0003568534635532736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0032_text_document falcon
+0.00035586511544371234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0033_text_document falcon
+0.0003524567827568137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0034_text_document falcon
+0.0003512453770426313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0035_text_document falcon
+0.0003591792726468799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0036_text_document falcon
+0.0003514024529343127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0037_text_document falcon
+0.0003584880112586934 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0038_text_document falcon
+0.00035133552916418045 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0039_text_document falcon
+0.0003600811981350215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0040_text_document falcon
+0.0003571663974228119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0041_text_document falcon
+0.00035768103378874214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0042_text_document falcon
+0.00035939205561113694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0043_text_document falcon
+0.00035186773916029825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0044_text_document falcon
+0.0003542829672490847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0045_text_document falcon
+0.0003592783642898726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0046_text_document falcon
+0.0003556367340099302 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0047_text_document falcon
+0.00035391392271377027 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0048_text_document falcon
+0.00035486725707484836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0049_text_document falcon
+0.00034866743396828035 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0050_text_document falcon
+0.0003517219808644735 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0051_text_document falcon
+0.00034874458549673823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0052_text_document falcon
+0.000355773136961014 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0053_text_document falcon
+0.00035611750387841917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0054_text_document falcon
+0.00035305602013916315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0055_text_document falcon
+0.0003578207127071924 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0056_text_document falcon
+0.00035514635841943707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0057_text_document falcon
+0.00034816946212866206 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0058_text_document falcon
+0.0003512707269761496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0059_text_document falcon
+0.0003483392117980654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0060_text_document falcon
+0.0003572169607204321 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0061_text_document falcon
+0.00035139153281660794 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0062_text_document falcon
+0.00035536422129036537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0063_text_document falcon
+0.000352017164107143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0064_text_document falcon
+0.000351889550179365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0065_text_document falcon
+0.000358759689953589 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0066_text_document falcon
+0.0003569286079869268 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0067_text_document falcon
+0.0003657752958602099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0068_text_document falcon
+0.00035396127934790697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0069_text_document falcon
+0.0003618565071224743 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0070_text_document falcon
+0.00035146051531973204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0071_text_document falcon
+0.00036107135765783567 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0072_text_document falcon
+0.00035019554279994576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0073_text_document falcon
+0.00035567858879904983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0074_text_document falcon
+0.0003504753174793183 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0075_text_document falcon
+0.00035931140831329194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0076_text_document falcon
+0.0003502967866002823 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0077_text_document falcon
+0.0003532911801041972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0078_text_document falcon
+0.0003583543013070199 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0079_text_document falcon
+0.0003566243489931224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0080_text_document falcon
+0.0003468752314799221 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0081_text_document falcon
+0.0003597840618138091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0082_text_document falcon
+0.00035128822484768084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0083_text_document falcon
+0.00035889496943437507 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0084_text_document falcon
+0.000352400524650424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0085_text_document falcon
+0.0003518689536768735 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0086_text_document falcon
+0.00035866864741303467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0087_text_document falcon
+0.0003454687659106334 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0088_text_document falcon
+0.00035348007259317576 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0089_text_document falcon
+0.0003539752270940644 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0090_text_document falcon
+0.00035146495994081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0091_text_document falcon
+0.00035397212846310423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0092_text_document falcon
+0.00035208246467162587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0093_text_document falcon
+0.0003490843168676626 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0094_text_document falcon
+0.00035299633658644394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0095_text_document falcon
+0.00034868327466167065 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0096_text_document falcon
+0.00035941351365601583 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0097_text_document falcon
+0.0003545343062735255 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0098_text_document falcon
+0.0003528956380445978 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0099_text_document falcon
+0.0003553355770443352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0100_text_document falcon
+0.0003644224004937743 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0101_text_document falcon
+0.00035234291036216907 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0102_text_document falcon
+0.0003596237469847771 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0103_text_document falcon
+0.0003531996065735989 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0104_text_document falcon
+0.0003547177054106099 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0105_text_document falcon
+0.0003575586499260483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0106_text_document falcon
+0.00035262635135283667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0107_text_document falcon
+0.0003624191962188944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0108_text_document falcon
+0.0003488398052948616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0109_text_document falcon
+0.0003598294093147917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0110_text_document falcon
+0.00035583006534466323 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0111_text_document falcon
+0.00035403139653225103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0112_text_document falcon
+0.00036134702642187156 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0113_text_document falcon
+0.0003573689927162834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0114_text_document falcon
+0.0003577141131435527 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0115_text_document falcon
+0.00035208814419277406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0116_text_document falcon
+0.00035996720683665625 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0117_text_document falcon
+0.00035415304658912596 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0118_text_document falcon
+0.00036353353029443546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0119_text_document falcon
+0.0003537326003150983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0120_text_document falcon
+0.00036053976358299083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0121_text_document falcon
+0.000352380489373494 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0122_text_document falcon
+0.00036154661616900994 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0123_text_document falcon
+0.00035959332325963614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0124_text_document falcon
+0.0003597954667189692 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0125_text_document falcon
+0.0003563108270597542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0126_text_document falcon
+0.0003582891940460143 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0127_text_document falcon
+0.0003497728210484297 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0128_text_document falcon
+0.0003549834902179354 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0129_text_document falcon
+0.0003529828233484542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0130_text_document falcon
+0.00034627483903285777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0131_text_document falcon
+0.00035569006572589215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0132_text_document falcon
+0.00035449377946910314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0133_text_document falcon
+0.00035802844396194623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0134_text_document falcon
+0.0003617277809353208 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0135_text_document falcon
+0.00035034118898654814 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0136_text_document falcon
+0.000351091193908611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0137_text_document falcon
+0.0003527914342210668 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0138_text_document falcon
+0.00035028288369781376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0139_text_document falcon
+0.00035775745592780506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0140_text_document falcon
+0.0003449630690661468 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0141_text_document falcon
+0.0003583490698830361 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0142_text_document falcon
+0.0003476995746684122 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0143_text_document falcon
+0.0003535632505019212 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0144_text_document falcon
+0.00035640180641147417 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0145_text_document falcon
+0.000361731045691765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0146_text_document falcon
+0.0003534082129597368 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0147_text_document falcon
+0.0003550344149828664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0148_text_document falcon
+0.00035363002411364057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0149_text_document falcon
+0.0003537265579677396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0150_text_document falcon
+0.00034950531383577937 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0151_text_document falcon
+0.00035008511827347514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0152_text_document falcon
+0.00035594533400871325 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0153_text_document falcon
+0.00035266312861335946 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0154_text_document falcon
+0.00035280268794863923 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0155_text_document falcon
+0.0003565470391528536 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0156_text_document falcon
+0.0003588492322689137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0157_text_document falcon
+0.00035469909697832775 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0158_text_document falcon
+0.00034712082813410526 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0159_text_document falcon
+0.000348701157101807 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0160_text_document falcon
+0.0003500192014479944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0161_text_document falcon
+0.00035120560544669755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0162_text_document falcon
+0.00035403656850437445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0163_text_document falcon
+0.00035852376560749366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0164_text_document falcon
+0.0003534754068111774 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0165_text_document falcon
+0.00035591740046720765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0166_text_document falcon
+0.000348522354782563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0167_text_document falcon
+0.0003533533959664415 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0168_text_document falcon
+0.00035631425964030697 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0169_text_document falcon
+0.0003485886551574741 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0170_text_document falcon
+0.00035917652631065777 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0171_text_document falcon
+0.0003482975272111288 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0172_text_document falcon
+0.00035580661277480167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0173_text_document falcon
+0.0003492290722955348 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0174_text_document falcon
+0.00034989284450240613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0175_text_document falcon
+0.0003545677216162781 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0176_text_document falcon
+0.00034622286859463484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0177_text_document falcon
+0.00036070626989861965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0178_text_document falcon
+0.00035518365036320786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0179_text_document falcon
+0.00035272907057848406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0180_text_document falcon
+0.0003547343638218734 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0181_text_document falcon
+0.0003496450144966242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0182_text_document falcon
+0.0003537407829294287 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0183_text_document falcon
+0.0003489722653985685 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0184_text_document falcon
+0.00035057186899911295 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0185_text_document falcon
+0.0003507566548933051 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0186_text_document falcon
+0.00035630360179023747 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0187_text_document falcon
+0.00035631362503416367 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0188_text_document falcon
+0.0003490204248026821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0189_text_document falcon
+0.00035761724058371226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0190_text_document falcon
+0.00035037664777467137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0191_text_document falcon
+0.000353402110481068 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0192_text_document falcon
+0.00034524163568371745 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0193_text_document falcon
+0.00035528523728570974 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0194_text_document falcon
+0.00034784916132431703 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0195_text_document falcon
+0.00034928476408048925 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0196_text_document falcon
+0.00034989205973784984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0197_text_document falcon
+0.00034201664404094254 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0198_text_document falcon
+0.0003529676016338611 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0199_text_document falcon
+0.00034643433682346637 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0200_text_document falcon
+0.0003511666373001904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0201_text_document falcon
+0.00034828669066575333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0202_text_document falcon
+0.0003494625207264413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0203_text_document falcon
+0.0003458957535879216 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0204_text_document falcon
+0.0003543020478990003 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0205_text_document falcon
+0.00034754384069014956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0206_text_document falcon
+0.0003598856392240133 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0207_text_document falcon
+0.0003503335458553846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0208_text_document falcon
+0.00035919595619778716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0209_text_document falcon
+0.00035767737970754404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0210_text_document falcon
+0.00035197152783998165 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0211_text_document falcon
+0.0003549609834422404 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0212_text_document falcon
+0.0003568184100569753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0213_text_document falcon
+0.0003512652818651935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0214_text_document falcon
+0.00035912648958665754 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0215_text_document falcon
+0.00034764526964056546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0216_text_document falcon
+0.000352439784960359 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0217_text_document falcon
+0.00035295886560764226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0218_text_document falcon
+0.0003518132693658672 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0219_text_document falcon
+0.00035589987915465713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0220_text_document falcon
+0.00034923863317385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0221_text_document falcon
+0.0003457987267929692 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0222_text_document falcon
+0.0003560928663480501 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0223_text_document falcon
+0.0003529603811204932 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0224_text_document falcon
+0.0003524438555443043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0225_text_document falcon
+0.0003438847030263783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0226_text_document falcon
+0.00035981978898461613 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0227_text_document falcon
+0.0003446342778566972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0228_text_document falcon
+0.00035529584995236537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0229_text_document falcon
+0.00034855740895831116 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0230_text_document falcon
+0.00034932634912802544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0231_text_document falcon
+0.00035805518303064666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0232_text_document falcon
+0.0003497941877073061 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0233_text_document falcon
+0.00035774398685405447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0234_text_document falcon
+0.0003560421780316607 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0235_text_document falcon
+0.0003508844468369392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0236_text_document falcon
+0.00035731928892270107 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0237_text_document falcon
+0.0003557884626314314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0238_text_document falcon
+0.00034992996760289355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0239_text_document falcon
+0.000360752554360921 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0240_text_document falcon
+0.0003452321668708545 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0241_text_document falcon
+0.0003591745226131023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0242_text_document falcon
+0.00035256981433229084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0243_text_document falcon
+0.00035378123159712034 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0244_text_document falcon
+0.000350464354895999 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0245_text_document falcon
+0.00035074625557389677 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0246_text_document falcon
+0.00035025894701994667 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0247_text_document falcon
+0.00035437902514857614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0248_text_document falcon
+0.0003514684519732232 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0249_text_document falcon
+0.00035449717909633905 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0250_text_document falcon
+0.0003436816402714221 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0251_text_document falcon
+0.00035139158071782116 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0252_text_document falcon
+0.0003509424079843335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0253_text_document falcon
+0.000343894618577506 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0254_text_document falcon
+0.0003500789770661659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0255_text_document falcon
+0.0003407788080680086 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0256_text_document falcon
+0.0003581908175239701 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0257_text_document falcon
+0.0003465541618780918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0258_text_document falcon
+0.00034600228792437736 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0259_text_document falcon
+0.00034416738982773204 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0260_text_document falcon
+0.0003519900340150641 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0261_text_document falcon
+0.000343369616864659 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0262_text_document falcon
+0.0003544993883274688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0263_text_document falcon
+0.0003504441365073392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0264_text_document falcon
+0.00034859160702727056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0265_text_document falcon
+0.00035355909532647185 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0266_text_document falcon
+0.0003471900922691849 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0267_text_document falcon
+0.0003563015508709187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0268_text_document falcon
+0.0003487888744148821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0269_text_document falcon
+0.00034711767548688336 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0270_text_document falcon
+0.0003530734609369085 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0271_text_document falcon
+0.00035123969242560935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0272_text_document falcon
+0.0003517127620891489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0273_text_document falcon
+0.00035232835416868673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0274_text_document falcon
+0.0003524437481912308 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0275_text_document falcon
+0.0003525996167005602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0276_text_document falcon
+0.00035064770545242043 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0277_text_document falcon
+0.00035311558274981226 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0278_text_document falcon
+0.00034952204800569914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0279_text_document falcon
+0.0003541471367344846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0280_text_document falcon
+0.00035418812454561825 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0281_text_document falcon
+0.0003528951372900714 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0282_text_document falcon
+0.0003542338042975688 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0283_text_document falcon
+0.00034937738939942796 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0284_text_document falcon
+0.0003522182190878447 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0285_text_document falcon
+0.0003501406466507449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0286_text_document falcon
+0.00034973079877492633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0287_text_document falcon
+0.0003485274567713538 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0288_text_document falcon
+0.00034999308679368985 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0289_text_document falcon
+0.0003570051724707296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0290_text_document falcon
+0.00034567230462019706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0291_text_document falcon
+0.00035529000940160696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0292_text_document falcon
+0.00034956512308671755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0293_text_document falcon
+0.0003496962834028953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0294_text_document falcon
+0.0003468745282493457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0295_text_document falcon
+0.0003502717155809202 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0296_text_document falcon
+0.0003556240880896514 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0297_text_document falcon
+0.0003515109488424343 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0298_text_document falcon
+0.0003563156688192592 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0299_text_document falcon
+0.00035040277363989817 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0300_text_document falcon
+0.0003481408593290717 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0301_text_document falcon
+0.0003624575124332874 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0302_text_document falcon
+0.0003522684124250313 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0303_text_document falcon
+0.00035286996027653544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0304_text_document falcon
+0.00034967623997256725 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0305_text_document falcon
+0.00035182649587602765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0306_text_document falcon
+0.0003524892557026489 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0307_text_document falcon
+0.0003507642477451811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0308_text_document falcon
+0.00036190408389835666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0309_text_document falcon
+0.00035102739424880766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0310_text_document falcon
+0.00035239718753257265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0311_text_document falcon
+0.00035298076121821316 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0312_text_document falcon
+0.0003478704389752654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0313_text_document falcon
+0.0003503109191567942 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0314_text_document falcon
+0.00035143250975654426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0315_text_document falcon
+0.0003480663923069012 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0316_text_document falcon
+0.00035691540219998623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0317_text_document falcon
+0.000348815437166351 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0318_text_document falcon
+0.00035202073257766225 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0319_text_document falcon
+0.0003491569096274706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0320_text_document falcon
+0.00035277390475511834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0321_text_document falcon
+0.0003524972090026609 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0322_text_document falcon
+0.0003504854249750236 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0323_text_document falcon
+0.00034740238025423914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0324_text_document falcon
+0.00034968015462277606 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0325_text_document falcon
+0.0003493798632762674 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0326_text_document falcon
+0.0003488202537862122 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0327_text_document falcon
+0.0003525461864643725 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0328_text_document falcon
+0.00034903815232825664 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0329_text_document falcon
+0.00035536982539258216 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0330_text_document falcon
+0.00034858083265155483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0331_text_document falcon
+0.0003505014973608067 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0332_text_document falcon
+0.00035327984042622104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0333_text_document falcon
+0.0003503286677453136 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0334_text_document falcon
+0.00035835274842442816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0335_text_document falcon
+0.00034970302660275595 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0336_text_document falcon
+0.000357929573140149 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0337_text_document falcon
+0.0003517238649788585 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0338_text_document falcon
+0.00036097027318848475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0339_text_document falcon
+0.0003502734074110026 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0340_text_document falcon
+0.00035801510806036273 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0341_text_document falcon
+0.0003568006373479869 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0342_text_document falcon
+0.00036128108717454636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0343_text_document falcon
+0.0003563436883111686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0344_text_document falcon
+0.00035559725321852463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0345_text_document falcon
+0.00035089656006854944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0346_text_document falcon
+0.000359453964362057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0347_text_document falcon
+0.00035629498059104033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0348_text_document falcon
+0.0003622207707090437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0349_text_document falcon
+0.0003540946784512821 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0350_text_document falcon
+0.0003594750565232011 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0351_text_document falcon
+0.0003566007415086991 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0352_text_document falcon
+0.0003562142599126134 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0353_text_document falcon
+0.0003569948186744601 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0354_text_document falcon
+0.00035166554847920186 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0355_text_document falcon
+0.00035047994419295137 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0356_text_document falcon
+0.0003561578193739437 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0357_text_document falcon
+0.00035470866838811544 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0358_text_document falcon
+0.00034216920464876335 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0359_text_document falcon
+0.0003550021513075795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0360_text_document falcon
+0.0003488045105938729 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0361_text_document falcon
+0.0003513340720840151 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0362_text_document falcon
+0.0003448558566387584 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0363_text_document falcon
+0.0003460966026953241 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0364_text_document falcon
+0.0003488157616036459 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0365_text_document falcon
+0.0003446120387842362 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0366_text_document falcon
+0.000351528602987427 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0367_text_document falcon
+0.00035661118227454713 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0368_text_document falcon
+0.0003551342699877457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0369_text_document falcon
+0.0003478953397924445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0370_text_document falcon
+0.00034625782458988215 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0371_text_document falcon
+0.0003527515447405871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0372_text_document falcon
+0.00034823744889805696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0373_text_document falcon
+0.00034823314560254406 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0374_text_document falcon
+0.00035162668292961944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0375_text_document falcon
+0.0003477307716074623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0376_text_document falcon
+0.0003446457989477787 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0377_text_document falcon
+0.00034782916273767795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0378_text_document falcon
+0.0003517249130302248 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0379_text_document falcon
+0.0003449873430908556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0380_text_document falcon
+0.00034841291749669877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0381_text_document falcon
+0.0003466028498941749 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0382_text_document falcon
+0.0003486436831199424 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0383_text_document falcon
+0.0003478279234211838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0384_text_document falcon
+0.0003495903653274374 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0385_text_document falcon
+0.00034896893881218957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0386_text_document falcon
+0.000348941645312426 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0387_text_document falcon
+0.0003474221308416894 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0388_text_document falcon
+0.0003462621543839385 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0389_text_document falcon
+0.0003669373860863891 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0390_text_document falcon
+0.00034691156268163006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0391_text_document falcon
+0.0003527774103765281 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0392_text_document falcon
+0.00034684565672734663 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0393_text_document falcon
+0.0003454250599604457 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0394_text_document falcon
+0.0003541536557159006 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0395_text_document falcon
+0.000345735737037366 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0396_text_document falcon
+0.0003524669816385214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0397_text_document falcon
+0.0003441817133096468 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0398_text_document falcon
+0.0003519093265859089 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0399_text_document falcon
+0.00035080085480352095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0400_text_document falcon
+0.00035285227929327434 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0401_text_document falcon
+0.00034354836346901676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0402_text_document falcon
+0.00034789770937373467 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0403_text_document falcon
+0.000343665920520102 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0404_text_document falcon
+0.0003490884931060568 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0405_text_document falcon
+0.00034380029463398654 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0406_text_document falcon
+0.00034874768005099945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0407_text_document falcon
+0.0003457058510967673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0408_text_document falcon
+0.00034644265227023904 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0409_text_document falcon
+0.00035008339858594957 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0410_text_document falcon
+0.0003462377193296194 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0411_text_document falcon
+0.0003620491787114201 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0412_text_document falcon
+0.000348717011044469 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0413_text_document falcon
+0.00034370072363913706 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0414_text_document falcon
+0.0003551981066775649 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0415_text_document falcon
+0.0003500119496799342 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0416_text_document falcon
+0.0003485082952669081 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0417_text_document falcon
+0.0003508155580978919 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0418_text_document falcon
+0.00035311375163251416 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0419_text_document falcon
+0.00034945972003423253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0420_text_document falcon
+0.0003474220353789879 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0421_text_document falcon
+0.0003536443686585001 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0422_text_document falcon
+0.0003560350489042953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0423_text_document falcon
+0.0003493655927914396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0424_text_document falcon
+0.0003528423977146383 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0425_text_document falcon
+0.00035255554724471217 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0426_text_document falcon
+0.0003479760010190111 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0427_text_document falcon
+0.00035458598862501956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0428_text_document falcon
+0.0003458990560538315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0429_text_document falcon
+0.00035157946422379875 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0430_text_document falcon
+0.00034736860650169996 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0431_text_document falcon
+0.0003529152313394119 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0432_text_document falcon
+0.00034586294329524465 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0433_text_document falcon
+0.00035707214923794877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0434_text_document falcon
+0.0003509580363496512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0435_text_document falcon
+0.00035244176725524474 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0436_text_document falcon
+0.0003467539557999047 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0437_text_document falcon
+0.00034919687962275546 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0438_text_document falcon
+0.00035094031731719953 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0439_text_document falcon
+0.0003484309008351352 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0440_text_document falcon
+0.0003485409424916253 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0441_text_document falcon
+0.0003499590776117838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0442_text_document falcon
+0.0003492842758957848 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0443_text_document falcon
+0.0003529712275178912 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0444_text_document falcon
+0.0003566141287087449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0445_text_document falcon
+0.0003649496522047409 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0446_text_document falcon
+0.0003563218912208234 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0447_text_document falcon
+0.00035614782126966145 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0448_text_document falcon
+0.0003531944298453266 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0449_text_document falcon
+0.0003535950949566616 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0450_text_document falcon
+0.0003544295554928795 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0451_text_document falcon
+0.0003519908503740376 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0452_text_document falcon
+0.00035752817626134463 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0453_text_document falcon
+0.0003515322689589972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0454_text_document falcon
+0.0003486893890307115 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0455_text_document falcon
+0.0003446520464889867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0456_text_document falcon
+0.0003509421562481707 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0457_text_document falcon
+0.00035335015702909084 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0458_text_document falcon
+0.0003490178167345008 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0459_text_document falcon
+0.0003520497821155174 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0460_text_document falcon
+0.0003549762618908944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0461_text_document falcon
+0.00035072190850833103 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0462_text_document falcon
+0.0003542458638526423 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0463_text_document falcon
+0.000352419194572916 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0464_text_document falcon
+0.0003545102564672614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0465_text_document falcon
+0.0003495437992331806 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0466_text_document falcon
+0.0003542843376993964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0467_text_document falcon
+0.000352827529313958 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0468_text_document falcon
+0.00035442506093223886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0469_text_document falcon
+0.0003496970719044257 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0470_text_document falcon
+0.0003553096424442362 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0471_text_document falcon
+0.00034986845565067564 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0472_text_document falcon
+0.000352131055186658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0473_text_document falcon
+0.0003527021708198983 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0474_text_document falcon
+0.00034905885414547214 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0475_text_document falcon
+0.0003583433842468394 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0476_text_document falcon
+0.00034409435202828383 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0477_text_document falcon
+0.00034846410520871483 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0478_text_document falcon
+0.0003554459991927314 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0479_text_document falcon
+0.00035310507471843076 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0480_text_document falcon
+0.000350028910786098 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0481_text_document falcon
+0.00035049727458009896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0482_text_document falcon
+0.0003519047735925826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0483_text_document falcon
+0.0003513027429919726 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0484_text_document falcon
+0.0003626947260354396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0485_text_document falcon
+0.0003500087324849783 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0486_text_document falcon
+0.0003618315726725285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0487_text_document falcon
+0.0003535385113938023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0488_text_document falcon
+0.0003487064058517615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0489_text_document falcon
+0.0003618709124780938 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0490_text_document falcon
+0.00035040070335625915 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0491_text_document falcon
+0.0003506279032267829 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0492_text_document falcon
+0.0003498435310527524 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0493_text_document falcon
+0.0003554634749821431 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0494_text_document falcon
+0.00035091209738758963 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0495_text_document falcon
+0.00035034103678978573 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0496_text_document falcon
+0.00035398931854386146 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0497_text_document falcon
+0.00035495529304989485 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0498_text_document falcon
+0.00036067883473356603 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/falcon-0499_text_document falcon
+
diff --git a/ALCF/data-lists/sunspot/megawiki.txt b/ALCF/data-lists/sunspot/megawiki.txt
new file mode 100644
index 00000000000..f7fbabc9134
--- /dev/null
+++ b/ALCF/data-lists/sunspot/megawiki.txt
@@ -0,0 +1,262 @@
+6.322825248625475e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0000_text_document megawika
+2.4432314037946264e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0001_text_document megawika
+5.6313888721313454e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0002_text_document megawika
+2.4208171781595055e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0003_text_document megawika
+2.325811856369237e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0004_text_document megawika
+2.4010790356322705e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0005_text_document megawika
+5.36773610843632e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0006_text_document megawika
+1.360574433501002e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0007_text_document megawika
+1.3076540344853244e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0008_text_document megawika
+1.3386534334886313e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0009_text_document megawika
+1.2498103719605153e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0010_text_document megawika
+1.403763836949682e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0011_text_document megawika
+1.3636756723495417e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0012_text_document megawika
+1.2242489446940814e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0013_text_document megawika
+1.2398255818973339e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0014_text_document megawika
+1.2972616994216281e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0015_text_document megawika
+1.3947809855914134e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0016_text_document megawika
+1.3144843787829514e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0017_text_document megawika
+1.1693809976572487e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0018_text_document megawika
+1.3677252682893802e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0019_text_document megawika
+1.3940876719849597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0020_text_document megawika
+1.4222245138730965e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0021_text_document megawika
+1.3201677767919704e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0022_text_document megawika
+1.1421717796486169e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0023_text_document megawika
+1.2890514724498703e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0024_text_document megawika
+1.3649507648749037e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0025_text_document megawika
+1.2400732563490717e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0026_text_document megawika
+1.1557681453277616e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0027_text_document megawika
+1.2294483595964517e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0028_text_document megawika
+1.2137484472122283e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0029_text_document megawika
+1.3299663426456e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0030_text_document megawika
+1.2461984216479532e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0031_text_document megawika
+1.4666434217609636e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0032_text_document megawika
+1.1876997894686238e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0033_text_document megawika
+1.2939155338964078e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0034_text_document megawika
+1.3859590039728515e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0035_text_document megawika
+1.317917848615668e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0036_text_document megawika
+1.1335281536110342e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0037_text_document megawika
+1.2889923952861426e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0038_text_document megawika
+1.3471671647053326e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0039_text_document megawika
+1.2221720014475102e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0040_text_document megawika
+1.2632647276287541e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0041_text_document megawika
+1.28276219004076e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0042_text_document megawika
+1.36213704321643e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0043_text_document megawika
+1.2414858625261553e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0044_text_document megawika
+1.3173700421883744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0045_text_document megawika
+1.295597796725686e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0046_text_document megawika
+1.242783936442904e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0047_text_document megawika
+1.2417374088427464e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0048_text_document megawika
+1.2134479405400744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0049_text_document megawika
+1.3090040663304255e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0050_text_document megawika
+1.2713470581614905e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0051_text_document megawika
+5.5750231378906594e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0052_text_document megawika
+5.777597358425469e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0053_text_document megawika
+5.349786767471258e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0054_text_document megawika
+5.675165050453583e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0055_text_document megawika
+5.482611216158831e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0056_text_document megawika
+5.065421899890121e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0057_text_document megawika
+5.384718357480146e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0058_text_document megawika
+4.872037363236061e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0059_text_document megawika
+4.532709250783155e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0060_text_document megawika
+5.7257963030489613e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0061_text_document megawika
+4.9014365579652036e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0062_text_document megawika
+5.722863552770969e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0063_text_document megawika
+6.149911636146833e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0064_text_document megawika
+5.2178057608273506e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0065_text_document megawika
+4.990228161160431e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0066_text_document megawika
+5.866186875255134e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0067_text_document megawika
+5.004185734360719e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0068_text_document megawika
+4.79401853705107e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0069_text_document megawika
+5.435219965052376e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0070_text_document megawika
+5.035997225792266e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0071_text_document megawika
+5.622401774211625e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0072_text_document megawika
+5.028826157387559e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0073_text_document megawika
+5.596379470128795e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0074_text_document megawika
+6.027824493191489e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0075_text_document megawika
+5.5358270009931474e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0076_text_document megawika
+5.9839051807685496e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0077_text_document megawika
+5.1221077499249595e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0078_text_document megawika
+5.517228560620279e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0079_text_document megawika
+5.1687858285052305e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0080_text_document megawika
+5.684188244145645e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0081_text_document megawika
+5.212693275535878e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0082_text_document megawika
+4.8551007022784084e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0083_text_document megawika
+5.4888506639203145e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0084_text_document megawika
+5.345098688527242e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0085_text_document megawika
+4.8506420625516594e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0086_text_document megawika
+5.132168603397676e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0087_text_document megawika
+5.719476795114223e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0088_text_document megawika
+5.7448621149792696e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0089_text_document megawika
+4.9068410568059265e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0090_text_document megawika
+5.382937299647678e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0091_text_document megawika
+4.8288432136304634e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0092_text_document megawika
+5.841703200305416e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0093_text_document megawika
+5.1589611587885584e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0094_text_document megawika
+6.031113829732574e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0095_text_document megawika
+5.4558202844532094e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0096_text_document megawika
+5.341852317196142e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0097_text_document megawika
+5.1402942738369954e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0098_text_document megawika
+5.735421384377395e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0099_text_document megawika
+5.473629863586958e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0100_text_document megawika
+5.4708993245733936e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0101_text_document megawika
+4.931161863634078e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0102_text_document megawika
+5.104173022127248e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0103_text_document megawika
+5.510157161510824e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0104_text_document megawika
+5.652501401782597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0105_text_document megawika
+5.7273656573031666e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0106_text_document megawika
+5.638363224821738e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0107_text_document megawika
+5.6128115396668704e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0108_text_document megawika
+5.00304877998141e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0109_text_document megawika
+5.596120554779096e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0110_text_document megawika
+5.5280923889040006e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0111_text_document megawika
+5.223477917938408e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0112_text_document megawika
+5.29472809986569e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0113_text_document megawika
+2.205682378243213e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0114_text_document megawika
+1.4367563720603185e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0115_text_document megawika
+3.5506193487931076e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0116_text_document megawika
+3.0442910855821778e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0117_text_document megawika
+2.2540042508019627e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0118_text_document megawika
+2.6880163202623216e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0119_text_document megawika
+2.534473148048727e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0120_text_document megawika
+2.6560945431318916e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0121_text_document megawika
+2.547470248967691e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0122_text_document megawika
+2.5248825388073738e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0123_text_document megawika
+2.5828729575000054e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0124_text_document megawika
+2.4026583817957736e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0125_text_document megawika
+2.3930425429834413e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0126_text_document megawika
+2.5037365362599724e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0127_text_document megawika
+2.6696745470595603e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0128_text_document megawika
+2.140323051341762e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0129_text_document megawika
+2.617354786691592e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0130_text_document megawika
+1.538359101762691e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0131_text_document megawika
+1.2871029252377856e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0132_text_document megawika
+2.255195411289217e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0133_text_document megawika
+2.4832313897952067e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0134_text_document megawika
+9.303873918189968e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0135_text_document megawika
+2.179532302620228e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0136_text_document megawika
+1.9750517506901206e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0137_text_document megawika
+2.7740420380648435e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0138_text_document megawika
+2.7813714782319335e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0139_text_document megawika
+4.1595357937609806e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0140_text_document megawika
+2.741365122389175e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0141_text_document megawika
+2.117451071361901e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0142_text_document megawika
+1.7132649760565998e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0143_text_document megawika
+1.7492547092602047e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0144_text_document megawika
+1.7499951097392276e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0145_text_document megawika
+1.6632444789170958e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0146_text_document megawika
+1.6678802252361607e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0147_text_document megawika
+1.5519208704558896e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0148_text_document megawika
+1.652420992967167e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0149_text_document megawika
+1.6119931034508755e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0150_text_document megawika
+1.6638882076736552e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0151_text_document megawika
+1.7198076782652946e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0152_text_document megawika
+1.572927860565175e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0153_text_document megawika
+1.5194822618169918e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0154_text_document megawika
+1.6677776832669846e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0155_text_document megawika
+1.595612492245688e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0156_text_document megawika
+1.682350633181197e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0157_text_document megawika
+1.663983380609724e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0158_text_document megawika
+1.710187842689243e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0159_text_document megawika
+1.5733697527539038e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0160_text_document megawika
+1.6972104757911438e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0161_text_document megawika
+1.6610142847616577e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0162_text_document megawika
+1.61094882403031e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0163_text_document megawika
+1.4789207305138325e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0164_text_document megawika
+1.639299617676302e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0165_text_document megawika
+1.3241204512116132e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0166_text_document megawika
+8.582260726625535e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0167_text_document megawika
+8.213000975576739e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0168_text_document megawika
+9.549247732811947e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0169_text_document megawika
+9.17242785339013e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0170_text_document megawika
+7.632868223725218e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0171_text_document megawika
+8.674401118222175e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0172_text_document megawika
+9.124384255505347e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0173_text_document megawika
+8.344222222417358e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0174_text_document megawika
+8.992299957499065e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0175_text_document megawika
+8.76689497361025e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0176_text_document megawika
+7.973396239586015e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0177_text_document megawika
+9.006935606644125e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0178_text_document megawika
+8.725545954955498e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0179_text_document megawika
+1.215449694669174e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0180_text_document megawika
+3.3041720284158646e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0181_text_document megawika
+2.0593512412624502e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0182_text_document megawika
+1.893608946986248e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0183_text_document megawika
+1.737111666788535e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0184_text_document megawika
+1.4915923449873955e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0185_text_document megawika
+2.289370239067605e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0186_text_document megawika
+2.8615335689614638e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0187_text_document megawika
+8.847283630883125e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0188_text_document megawika
+1.8175470362373804e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0189_text_document megawika
+1.8152226683368038e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0190_text_document megawika
+1.789149655314284e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0191_text_document megawika
+1.7690523036477663e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0192_text_document megawika
+1.8333732213753644e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0193_text_document megawika
+1.8794105687718654e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0194_text_document megawika
+1.721841156706417e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0195_text_document megawika
+2.0612008685724796e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0196_text_document megawika
+1.9297370681336376e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0197_text_document megawika
+2.0188440409661018e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0198_text_document megawika
+5.1741216329695265e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0199_text_document megawika
+1.3417913926038429e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0200_text_document megawika
+1.1010813016469651e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0201_text_document megawika
+1.1252416134320087e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0202_text_document megawika
+1.2801744104313002e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0203_text_document megawika
+1.3041514955795817e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0204_text_document megawika
+1.3428837580879075e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0205_text_document megawika
+1.320809382267804e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0206_text_document megawika
+1.3451566676555968e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0207_text_document megawika
+1.228284926657501e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0208_text_document megawika
+1.2410599573923043e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0209_text_document megawika
+1.3815343367377182e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0210_text_document megawika
+1.3895126265148832e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0211_text_document megawika
+1.2306773644401741e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0212_text_document megawika
+1.32981021906281e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0213_text_document megawika
+1.101337469221607e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0214_text_document megawika
+1.513094184404692e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0215_text_document megawika
+1.1073759547073234e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0216_text_document megawika
+1.2879348765857567e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0217_text_document megawika
+9.619595770228435e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0218_text_document megawika
+1.2384340836286436e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0219_text_document megawika
+1.1766667232211577e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0220_text_document megawika
+1.2871049236196452e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0221_text_document megawika
+1.2010645926497744e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0222_text_document megawika
+1.3971428231518597e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0223_text_document megawika
+1.2283733550547932e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0224_text_document megawika
+1.2659530508255308e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0225_text_document megawika
+1.551775613074462e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0226_text_document megawika
+1.1169413343776979e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0227_text_document megawika
+1.1433700593712463e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0228_text_document megawika
+4.964773647323492e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0229_text_document megawika
+1.0995586595687313e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0230_text_document megawika
+1.2957393071411267e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0231_text_document megawika
+2.75899247407709e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0232_text_document megawika
+2.8269344597344854e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0233_text_document megawika
+2.329108187246831e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0234_text_document megawika
+2.4231761430460284e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0235_text_document megawika
+1.2434140512230442e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0236_text_document megawika
+1.638718338352859e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0237_text_document megawika
+3.272953556801187e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0238_text_document megawika
+6.061314500486327e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0239_text_document megawika
+1.2465979731210292e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0240_text_document megawika
+1.2737557327967737e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0241_text_document megawika
+1.038428658075627e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0242_text_document megawika
+2.61666472045566e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0243_text_document megawika
+3.6506873212272224e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0244_text_document megawika
+1.5066359138295701e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0245_text_document megawika
+1.1166290872121178e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0246_text_document megawika
+1.5546966228590285e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0247_text_document megawika
+1.2583434625014828e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0248_text_document megawika
+1.3398826881300862e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0249_text_document megawika
+1.2944933160515968e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0250_text_document megawika
+1.0971437399901365e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0251_text_document megawika
+1.2787922795775774e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0252_text_document megawika
+1.404979227816985e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0253_text_document megawika
+1.3344734431324463e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0254_text_document megawika
+4.886031157107555e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0255_text_document megawika
+3.277261443596394e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0256_text_document megawika
+3.5057957685786495e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0257_text_document megawika
+3.287625301718589e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0258_text_document megawika
+3.1370056372668855e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0259_text_document megawika
+3.186092015785841e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0260_text_document megawika
+7.271819324142512e-06 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/megawika-0261_text_document megawika
diff --git a/ALCF/data-lists/sunspot/open-web-math-train.txt b/ALCF/data-lists/sunspot/open-web-math-train.txt
new file mode 100644
index 00000000000..ffa745cd766
--- /dev/null
+++ b/ALCF/data-lists/sunspot/open-web-math-train.txt
@@ -0,0 +1,13 @@
+0.001451215788905126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0000_text_document open-web-math-train
+0.0014486847196258788 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0001_text_document open-web-math-train
+0.0008861032722895899 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0002_text_document open-web-math-train
+0.0018119590809459816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0003_text_document open-web-math-train
+0.0008916937917547129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0004_text_document open-web-math-train
+6.960128832809415e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0005_text_document open-web-math-train
+0.002008403651063623 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0006_text_document open-web-math-train
+0.0014374900742131454 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0007_text_document open-web-math-train
+0.00180213596996716 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0008_text_document open-web-math-train
+0.001956178877532413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0009_text_document open-web-math-train
+0.0008829547017667033 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0010_text_document open-web-math-train
+0.0008910853619157279 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0011_text_document open-web-math-train
+0.0018260998845299973 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/open-web-math-train-0012_text_document open-web-math-train
diff --git a/ALCF/data-lists/sunspot/pes2o.txt b/ALCF/data-lists/sunspot/pes2o.txt
new file mode 100644
index 00000000000..a2a1209d8c5
--- /dev/null
+++ b/ALCF/data-lists/sunspot/pes2o.txt
@@ -0,0 +1,26 @@
+0.0012499632072059553 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0000_text_document pes2o
+0.00125398260359913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0001_text_document pes2o
+0.0012541704774729071 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0002_text_document pes2o
+0.0012527268234360602 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0003_text_document pes2o
+0.0012532925243737164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0004_text_document pes2o
+0.0012456396241204315 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0005_text_document pes2o
+0.0012589894424352072 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0006_text_document pes2o
+0.001508020123999618 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0007_text_document pes2o
+0.00333096950781965 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0008_text_document pes2o
+0.0033233414614415547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0009_text_document pes2o
+0.003512387990689828 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0010_text_document pes2o
+0.0035091382940513126 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0011_text_document pes2o
+0.003514155927147005 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0012_text_document pes2o
+0.003327108000579638 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0013_text_document pes2o
+0.003329106196589836 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0014_text_document pes2o
+0.003505604148738077 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0015_text_document pes2o
+0.003324825759567855 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0016_text_document pes2o
+0.0033248240149804913 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0017_text_document pes2o
+0.0033385962112851358 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0018_text_document pes2o
+0.0035043186296553615 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0019_text_document pes2o
+0.003340469505431529 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0020_text_document pes2o
+0.0035106889084796276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0021_text_document pes2o
+0.0033309469281030167 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0022_text_document pes2o
+0.003340337858029757 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0023_text_document pes2o
+0.003505919861097801 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0024_text_document pes2o
+0.0003882924098240512 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/pes2o-0025_text_document pes2o
diff --git a/ALCF/data-lists/sunspot/reddit.txt b/ALCF/data-lists/sunspot/reddit.txt
new file mode 100644
index 00000000000..a1de492a2f2
--- /dev/null
+++ b/ALCF/data-lists/sunspot/reddit.txt
@@ -0,0 +1,78 @@
+0.0005759963691850877 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0000_text_document reddit
+0.0005959971675332674 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0001_text_document reddit
+0.0006026179290353799 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0002_text_document reddit
+0.0005824184320784846 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0003_text_document reddit
+0.0005854598548616037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0004_text_document reddit
+0.0005903767055633473 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0005_text_document reddit
+0.0005930306490982049 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0006_text_document reddit
+0.000569425602700746 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0007_text_document reddit
+0.0005675060415179408 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0008_text_document reddit
+0.0005772431621253389 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0009_text_document reddit
+0.0005678026053826858 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0010_text_document reddit
+0.0005700398263483378 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0011_text_document reddit
+0.0005669467963528824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0012_text_document reddit
+0.0005701015953324305 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0013_text_document reddit
+0.0005795907287413296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0014_text_document reddit
+0.0005735602737531164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0015_text_document reddit
+0.0005749862745842101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0016_text_document reddit
+0.0005693257015931971 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0017_text_document reddit
+0.0005716568794795563 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0018_text_document reddit
+0.0005761083919774021 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0019_text_document reddit
+0.0005688343169797355 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0020_text_document reddit
+0.0005807913190929842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0021_text_document reddit
+0.0005710229258078636 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0022_text_document reddit
+0.0005704083039826862 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0023_text_document reddit
+0.0005862132348308056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0024_text_document reddit
+0.0005717662049559556 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0025_text_document reddit
+0.0005858155213694451 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0026_text_document reddit
+0.0005812012281792392 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0027_text_document reddit
+0.0005803981414588498 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0028_text_document reddit
+0.0005700102108287723 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0029_text_document reddit
+0.0005719243459052329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0030_text_document reddit
+0.0005867253401661752 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0031_text_document reddit
+0.0005731087218860733 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0032_text_document reddit
+0.0005712197789109317 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0033_text_document reddit
+0.0005702376926310089 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0034_text_document reddit
+0.0005700411527742972 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0035_text_document reddit
+0.0005828090098178196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0036_text_document reddit
+0.0005770140826168056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0037_text_document reddit
+0.0005723509664597896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0038_text_document reddit
+0.0005755499231836962 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0039_text_document reddit
+0.0005636407438471367 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0040_text_document reddit
+0.0005640281556500104 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0041_text_document reddit
+0.0005633159058766496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0042_text_document reddit
+0.0005638034311151449 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0043_text_document reddit
+0.0005630066273073224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0044_text_document reddit
+0.0005631803831128559 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0045_text_document reddit
+0.0005631228881679657 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0046_text_document reddit
+0.0005628178701487633 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0047_text_document reddit
+0.0005624448092256196 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0048_text_document reddit
+0.0005620957024062329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0049_text_document reddit
+0.0005614201504177484 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0050_text_document reddit
+0.0005616890951464056 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0051_text_document reddit
+0.0005611348559279058 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0052_text_document reddit
+0.0005604238061828518 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0053_text_document reddit
+0.0005603301490194237 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0054_text_document reddit
+0.0005607291294548833 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0055_text_document reddit
+0.0005605234569930727 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0056_text_document reddit
+0.0005613778566640694 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0057_text_document reddit
+0.0005610248539992471 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0058_text_document reddit
+0.0005599977416780475 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0059_text_document reddit
+0.0005603632562116935 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0060_text_document reddit
+0.0005599177479509897 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0061_text_document reddit
+0.0005595202318298379 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0062_text_document reddit
+0.0005600975633499175 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0063_text_document reddit
+0.0005614075491213365 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0064_text_document reddit
+0.000612563885043477 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0065_text_document reddit
+0.0005515469909644413 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0066_text_document reddit
+0.0005526782014946906 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0067_text_document reddit
+0.0005472463408095445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0068_text_document reddit
+0.0005502284746004587 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0069_text_document reddit
+0.0005414514790555363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0070_text_document reddit
+0.0005513499500134784 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0071_text_document reddit
+0.0005391391454105187 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0072_text_document reddit
+0.0005415836910001838 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0073_text_document reddit
+0.0005208132468536551 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0074_text_document reddit
+0.0005889827143132871 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0075_text_document reddit
+0.0005822520817765276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0076_text_document reddit
+0.0004173155230758696 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/reddit-0077_text_document reddit
diff --git a/ALCF/data-lists/sunspot/stack.txt b/ALCF/data-lists/sunspot/stack.txt
new file mode 100644
index 00000000000..60cf4451ab6
--- /dev/null
+++ b/ALCF/data-lists/sunspot/stack.txt
@@ -0,0 +1,26 @@
+0.0009994361338078242 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0000_text_document stackexchange
+0.001087156194657966 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0001_text_document stackexchange
+0.0010667737163656816 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0002_text_document stackexchange
+0.0009602877882124873 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0003_text_document stackexchange
+0.0008968956271971105 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0004_text_document stackexchange
+0.0009198034843762967 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0005_text_document stackexchange
+0.0009423901016715341 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0006_text_document stackexchange
+0.0009674094553686345 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0007_text_document stackexchange
+0.0009858331322519164 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0008_text_document stackexchange
+0.0009970593645879198 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0009_text_document stackexchange
+0.0010027035193731686 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0010_text_document stackexchange
+0.0010128291154221853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0011_text_document stackexchange
+0.0010215631382631918 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0012_text_document stackexchange
+0.0010288663771461238 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0013_text_document stackexchange
+0.0010346219929285867 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0014_text_document stackexchange
+0.00104544019940344 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0015_text_document stackexchange
+0.0010525172676724333 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0016_text_document stackexchange
+0.0010609529620775127 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0017_text_document stackexchange
+0.0010725892748610153 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0018_text_document stackexchange
+0.0010818563598181568 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0019_text_document stackexchange
+0.0010992760196793917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0020_text_document stackexchange
+0.0011178992762079917 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0021_text_document stackexchange
+0.001124687532085676 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0022_text_document stackexchange
+0.001118303661267191 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0023_text_document stackexchange
+0.0010206825575416534 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0024_text_document stackexchange
+0.0005512280117499715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/stackexchange-0025_text_document stackexchange
diff --git a/ALCF/data-lists/sunspot/starcoder.txt b/ALCF/data-lists/sunspot/starcoder.txt
new file mode 100644
index 00000000000..0011e33989e
--- /dev/null
+++ b/ALCF/data-lists/sunspot/starcoder.txt
@@ -0,0 +1,50 @@
+0.004474659408857016 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0000_text_document starcoder
+0.00409944473890653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0001_text_document starcoder
+0.005137179939941845 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0002_text_document starcoder
+0.005143172251066109 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0003_text_document starcoder
+0.005206134363352808 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0004_text_document starcoder
+0.004892747858974329 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0005_text_document starcoder
+0.004844731352552902 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0006_text_document starcoder
+0.005308320169123755 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0007_text_document starcoder
+0.005124709815666577 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0008_text_document starcoder
+0.005424710744483826 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0009_text_document starcoder
+0.00538244648861977 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0010_text_document starcoder
+0.0029107284679086853 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0011_text_document starcoder
+0.0026825258998444705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0012_text_document starcoder
+0.0026904503191419243 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0013_text_document starcoder
+0.002687906577174073 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0014_text_document starcoder
+0.002850165346048818 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0015_text_document starcoder
+0.005322698571717847 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0016_text_document starcoder
+0.004450334290869719 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0017_text_document starcoder
+0.004700990083440683 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0018_text_document starcoder
+0.003903568556500995 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0019_text_document starcoder
+0.00390561515396931 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0020_text_document starcoder
+0.0039046402900912262 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0021_text_document starcoder
+0.003907454839379547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0022_text_document starcoder
+0.0038583224578603824 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0023_text_document starcoder
+0.0037914116657695 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0024_text_document starcoder
+0.003786665266798682 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0025_text_document starcoder
+0.003792000802430658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0026_text_document starcoder
+0.00319266847466091 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0027_text_document starcoder
+0.0032658716699838944 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0028_text_document starcoder
+0.0034801959532460023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0029_text_document starcoder
+0.0028307012092022594 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0030_text_document starcoder
+0.0028420360878146276 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0031_text_document starcoder
+0.0028410455248484914 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0032_text_document starcoder
+0.00283497183526842 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0033_text_document starcoder
+0.002840187195459487 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0034_text_document starcoder
+0.0028398709431369834 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0035_text_document starcoder
+0.004364722843422023 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0036_text_document starcoder
+0.004093255713117101 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0037_text_document starcoder
+0.004092331079566252 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0038_text_document starcoder
+0.004005326985579649 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0039_text_document starcoder
+0.0036205502856964207 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0040_text_document starcoder
+0.003625316793034984 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0041_text_document starcoder
+0.003604743435602363 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0042_text_document starcoder
+0.0035405823343673125 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0043_text_document starcoder
+0.0041601413517253945 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0044_text_document starcoder
+0.005886303658937057 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0045_text_document starcoder
+0.003600909532810332 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0046_text_document starcoder
+0.0034941365817168658 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0047_text_document starcoder
+0.0004992164842980224 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/starcoder-0048_text_document starcoder
+
diff --git a/ALCF/data-lists/sunspot/tulu.txt b/ALCF/data-lists/sunspot/tulu.txt
new file mode 100644
index 00000000000..b2e14257844
--- /dev/null
+++ b/ALCF/data-lists/sunspot/tulu.txt
@@ -0,0 +1,66 @@
+0.00032927705604725614 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0000_text_document tulu
+0.0002860154190878753 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0001_text_document tulu
+0.0002845217585425619 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0002_text_document tulu
+0.0002743528685497456 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0003_text_document tulu
+0.00026025323737738766 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0004_text_document tulu
+0.00023493876414603155 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0005_text_document tulu
+0.00029665994994226705 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0006_text_document tulu
+0.00031808102075993956 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0007_text_document tulu
+0.00031813573046011285 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0008_text_document tulu
+0.0002711905171855542 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0009_text_document tulu
+0.00028892513401817095 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0010_text_document tulu
+0.00030003908676979083 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0011_text_document tulu
+0.00026839878771944684 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0012_text_document tulu
+0.00029155935002690497 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0013_text_document tulu
+0.0002998624927624209 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0014_text_document tulu
+0.0003091705447974841 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0015_text_document tulu
+0.00026873195794309786 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0016_text_document tulu
+0.00027721873498527547 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0017_text_document tulu
+0.0002841662554024377 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0018_text_document tulu
+0.0002839461156551537 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0019_text_document tulu
+0.0002861705604659811 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0020_text_document tulu
+0.0002460995649635886 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0021_text_document tulu
+0.00019420142619795496 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0022_text_document tulu
+0.00021967677816173628 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0023_text_document tulu
+0.0002620283200480949 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0024_text_document tulu
+0.0002433390542188936 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0025_text_document tulu
+0.00021254976608350767 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0026_text_document tulu
+0.00022094815569522115 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0027_text_document tulu
+0.000342862378668244 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0028_text_document tulu
+0.00033784225259118157 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0029_text_document tulu
+0.0003367278459543952 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0030_text_document tulu
+0.00029843279042852765 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0031_text_document tulu
+0.0002926583661257988 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0032_text_document tulu
+0.00029320337282010673 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0033_text_document tulu
+0.00029281450669483455 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0034_text_document tulu
+0.0002915338187002653 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0035_text_document tulu
+0.0002864226923084572 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0036_text_document tulu
+0.00028643439083586396 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0037_text_document tulu
+0.00028253710956299054 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0038_text_document tulu
+0.0002810856078805806 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0039_text_document tulu
+0.00031474941344656715 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0040_text_document tulu
+0.0002139130222205655 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0041_text_document tulu
+0.0003084648871862831 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0042_text_document tulu
+0.0003309477872140129 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0043_text_document tulu
+0.0003360096824695161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0044_text_document tulu
+0.0003355452655196557 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0045_text_document tulu
+0.00038119390366386037 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0046_text_document tulu
+0.00038078927630086064 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0047_text_document tulu
+0.0003386200917551554 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0048_text_document tulu
+0.0002158905159938882 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0049_text_document tulu
+0.00021621682877018768 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0050_text_document tulu
+0.00021553306942740535 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0051_text_document tulu
+0.00021581563462722296 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0052_text_document tulu
+0.0002157694110556169 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0053_text_document tulu
+0.000215643699847159 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0054_text_document tulu
+0.00021532716715168094 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0055_text_document tulu
+0.00021531221326022472 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0056_text_document tulu
+0.0002831801179028896 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0057_text_document tulu
+0.0002514844936507595 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0058_text_document tulu
+0.00031638782778107964 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0059_text_document tulu
+0.0002749197545278445 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0060_text_document tulu
+0.00026159721512464495 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0061_text_document tulu
+0.0002630052420096968 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0062_text_document tulu
+0.00031106811228913666 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0063_text_document tulu
+0.0002852973415334161 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0064_text_document tulu
+3.7555372465932136e-05 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/tulu_flan-0065_text_document tulu
diff --git a/ALCF/data-lists/sunspot/wiki.txt b/ALCF/data-lists/sunspot/wiki.txt
new file mode 100644
index 00000000000..172bd0323b0
--- /dev/null
+++ b/ALCF/data-lists/sunspot/wiki.txt
@@ -0,0 +1,2 @@
+0.003548077173506675 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0000_text_document wiki
+0.0018372203137874265 /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/wiki-0001_text_document wiki
diff --git a/ALCF/ds_to_universal.py b/ALCF/ds_to_universal.py
new file mode 100755
index 00000000000..da7fcb708e9
--- /dev/null
+++ b/ALCF/ds_to_universal.py
@@ -0,0 +1,693 @@
+#!/usr/bin/env python
+
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+from functools import partial
+from itertools import chain
+import argparse
+import glob
+import itertools
+import math
+from concurrent.futures import ProcessPoolExecutor
+import os
+import re
+import shutil
+import torch
+import tqdm
+# from pprint import pprint
+
+from deepspeed.checkpoint import DeepSpeedCheckpoint
+from deepspeed.checkpoint import (
+    OPTIMIZER_STATE_DICT,
+    ZERO_STAGE,
+    BASE_OPTIMIZER_STATE,
+    SINGLE_PARTITION_OF_FP32_GROUPS,
+    PARAM_GROUPS,
+    PARAM_SLICE_MAPPINGS,
+    PARAM_SHAPES,
+    PARAM,
+    CAT_DIM,
+    PARAM_N_SUB_PARAMS,
+    SUB_PARAM_SHAPE,
+    VOCAB_TENSOR,
+    UNIVERSAL_CHECKPOINT_INFO,
+    UNIVERSAL_CHECKPOINT_VERSION_KEY,
+    UNIVERSAL_CHECKPOINT_VERSION_VALUE,
+    VOCABULARY_PARAMETER_PATTERNS,
+    PIPELINE_REPLICATED_PARAMETER_PATTERNS,
+    TP_REPLICATED_PARAMETER_PATTERNS,
+    PARAMETER_TO_AVERAGE_PATTERNS,
+    PARAMETER_WITH_ROW_PARALLELISM_PATTERNS,
+    PARAMETER_WITH_2_SUB_PARAMS_CAT_DIM_0,
+    PARAMETER_WITH_SUB_PARAMS,
+    SubparamShape,
+)
+
+
+def parse_arguments():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--input_folder",
+        type=str,
+        required=True,
+        help="Input DeepSpeed Checkpoint folder",
+    )
+    parser.add_argument(
+        "--output_folder",
+        type=str,
+        required=False,
+        default=None,
+        help="Output DeepSpeed checkpoint folder",
+    )
+    parser.add_argument(
+        "--num_extract_workers",
+        default=4,
+        type=int,
+        help="How many parallel processes to extract zero shards",
+    )
+    parser.add_argument(
+        "--num_merge_workers",
+        default=2,
+        type=int,
+        help="How many parallel processes to merge tp slices (more memory intensive, use much fewer than --num_extract_workers))",
+    )
+    parser.add_argument(
+        "--keep_temp_folder",
+        action="store_true",
+        help="Preserve temporary folder of intermediate checkpoint slice files. Useful for debugging.",
+    )
+    parser.add_argument(
+        "--no_strict",
+        dest="strict",
+        action="store_false",
+        help="Do not perform validity checks on converted checkpoint.",
+    )
+    parser.add_argument(
+        "--inject_missing_state",
+        action="store_true",
+        help="Inject missing checkpoint state into the checkpoint if it is absent.",
+    )
+    args = parser.parse_args()
+    print(f"args = {args}")
+    return args
+
+
+def atoi(text):
+    return int(text) if text.isdigit() else text
+
+
+def natural_keys(text):
+    """
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    """
+    return [atoi(c) for c in re.split(r"(\d+)", text)]
+
+
+def _create_checkpoint_paths(base_folder, iteration, tp_degree, pp_degree):
+    path_list = []
+    iter_folder = f"iter_{iteration:07d}"
+    for i in range(0, tp_degree):
+        path_list.append([])
+        for j in range(0, pp_degree):
+            rank_folder = (
+                f"mp_rank_{i:02d}" if pp_degree == 1 else f"mp_rank_{i:02d}_{j:03d}"
+            )
+            ckpt_path = os.path.join(rank_folder, "model_optim_rng.pt")
+            path_list[i].append(os.path.join(base_folder, iter_folder, ckpt_path))
+
+    return path_list
+
+
+def _save_checkpoint(file_path, chkpt_sd):
+    dir, _ = os.path.split(file_path)
+    os.makedirs(dir, exist_ok=True)
+    torch.save(chkpt_sd, file_path)
+
+
+def extract_zero_shards(dir, ds_checkpoint, indices_3D):
+    pp_index, tp_index, dp_index = indices_3D
+    sd = ds_checkpoint.get_zero_checkpoint_state(
+        pp_index=pp_index,
+        tp_index=tp_index,
+        dp_index=dp_index,
+        strip_tensor_paddings=False,
+    )
+
+    # pprint(f"Processing {dp_index=} {pp_index=}, {tp_index=}")
+
+    optim_sd = sd[OPTIMIZER_STATE_DICT]
+    param_slice_mappings = optim_sd[PARAM_SLICE_MAPPINGS]
+    universal_checkpoint_info = ds_checkpoint.get_checkpoint_info(
+        UNIVERSAL_CHECKPOINT_INFO
+    )
+    pipeline_replicated_params = universal_checkpoint_info.get(
+        PIPELINE_REPLICATED_PARAMETER_PATTERNS, []
+    )
+    # print(f'{pipeline_replicated_params=}')
+
+    # dict
+    state_groups = optim_sd[BASE_OPTIMIZER_STATE]["state"]
+    # list
+    fp32_groups = optim_sd[SINGLE_PARTITION_OF_FP32_GROUPS]
+    param_groups_cnt = len(state_groups)
+
+    for param_group_id in range(param_groups_cnt):
+        flat_state = dict(
+            exp_avg=state_groups[param_group_id]["exp_avg"],
+            exp_avg_sq=state_groups[param_group_id]["exp_avg_sq"],
+            fp32=fp32_groups[param_group_id],
+        )
+
+        if "step" in state_groups[param_group_id]:
+            flat_state["step"] = state_groups[param_group_id]["step"]
+
+        for name, fragment_mapping in param_slice_mappings[param_group_id].items():
+            if pp_index > 0 and any(
+                re.match(pattern, name) for pattern in pipeline_replicated_params
+            ):
+                # Skip tied weights that are replicated in first and last pp stages
+                continue
+
+            # pprint(f"dpt{dp_index}{pp_index}{tp_index} {param_group_id} {name} => {fragment_mapping.start}:{fragment_mapping.numel}")
+            for state_key in flat_state.keys():
+                dump_param_fragment(
+                    dir,
+                    tp_index,
+                    dp_index,
+                    state_key,
+                    flat_state[state_key],
+                    name,
+                    fragment_mapping.start,
+                    fragment_mapping.numel,
+                )
+
+
+def extract_zero_shards_stage3(
+    optim_files, param_shapes, dp_degree, temp_dir, dp_index
+):
+    state_dict = torch.load(optim_files[dp_index], map_location="cpu")
+
+    flat_state = dict(
+        exp_avg=state_dict[OPTIMIZER_STATE_DICT]["optimizer_state_dict"]["state"][0][
+            "exp_avg"
+        ],
+        exp_avg_sq=state_dict[OPTIMIZER_STATE_DICT]["optimizer_state_dict"]["state"][0][
+            "exp_avg_sq"
+        ],
+        fp32=state_dict[OPTIMIZER_STATE_DICT]["fp32_flat_groups"][0],
+    )
+
+    offset = 0
+    for name, shape in param_shapes.items():
+        unpartitioned_numel = shape.numel()
+        partitioned_numel, _ = _zero_partitioned_param_info(
+            unpartitioned_numel, dp_degree
+        )
+        padding_free_numel = min(
+            partitioned_numel, abs(unpartitioned_numel - dp_index * partitioned_numel)
+        )
+        for state_key in flat_state.keys():
+            dump_param_fragment(
+                temp_dir,
+                0,
+                dp_index,
+                state_key,
+                flat_state[state_key],
+                name,
+                offset,
+                padding_free_numel,
+            )
+        offset += partitioned_numel
+
+
+cnt = 0
+
+
+def dp_index_to_str(dp_index):
+    return f"{dp_index:0>2d}"
+
+
+def dump_param_fragment(
+    dir, tp_index, dp_index, state_name, state_flat_tensor, param_name, offset, numel
+):
+    global cnt  # temp hack
+
+    param_base_path = os.path.join(dir, param_name, str(tp_index))
+    os.makedirs(param_base_path, exist_ok=True)
+
+    cnt += 1
+
+    path = os.path.join(param_base_path, f"{state_name}.{dp_index_to_str(dp_index)}")
+
+    # print(f"{param_name}: {offset}: {numel} => {path}")
+
+    # State might be a python int or a tensor
+    if state_name != "step" and torch.is_tensor(state_flat_tensor):
+        state_flat_tensor = state_flat_tensor.narrow(0, offset, numel).clone()
+    _save_checkpoint(path, state_flat_tensor)
+
+
+def _merge_zero_shards(param_base_path, state, tp_degree, slice_shape=None):
+    slices = []
+    for tp_index in range(tp_degree):
+        prefix_path = os.path.join(param_base_path, str(tp_index), f"{state}")
+        paths = glob.glob(f"{prefix_path}.*")
+
+        if len(paths) == 0:
+            continue
+
+        pattern = re.compile(f"{prefix_path}\\.([0-9]+)")
+        dp_indices = set()
+        for p in paths:
+            m = pattern.match(p)
+            if m:
+                dp_indices.add(int(m.group(1)))
+            else:
+                raise ValueError(f"Cannot parse dp_rank from {p}")
+
+        paths = [
+            f"{prefix_path}.{dp_index_to_str(dp_index)}"
+            for dp_index in sorted(list(dp_indices))
+        ]
+        shards = [torch.load(p) for p in paths]
+
+        if state == "step":
+            assert all(
+                v == shards[0] for v in shards
+            ), "All shards must have the same step value"
+            slice = shards[0]
+        else:
+            if slice_shape is None:
+                slice = torch.cat(shards, dim=0)
+            else:
+                slice = torch.cat(shards, dim=0).reshape(slice_shape)
+
+        slices.append(slice)
+    return slices
+
+
+def merge_tp_slices(ds_checkpoint, dir, slice_dir, tp_degree, name_and_shape):
+    name, shape = name_and_shape
+    slice_base_path = os.path.join(slice_dir, name)
+    param_base_path = os.path.join(dir, name)
+
+    universal_checkpoint_info = ds_checkpoint.get_checkpoint_info(
+        UNIVERSAL_CHECKPOINT_INFO
+    )
+    replicated_parameters = universal_checkpoint_info.get(
+        TP_REPLICATED_PARAMETER_PATTERNS, []
+    )
+    parameters_to_average = universal_checkpoint_info.get(
+        PARAMETER_TO_AVERAGE_PATTERNS, []
+    )
+    parameters_with_row_parallelism = universal_checkpoint_info.get(
+        PARAMETER_WITH_ROW_PARALLELISM_PATTERNS, []
+    )
+    vocabulary_parameters = universal_checkpoint_info.get(
+        VOCABULARY_PARAMETER_PATTERNS, []
+    )
+    parameters_with_2_sub_params_cat_dim_0 = universal_checkpoint_info.get(
+        PARAMETER_WITH_2_SUB_PARAMS_CAT_DIM_0, []
+    )
+    parameter_with_sub_params = universal_checkpoint_info.get(
+        PARAMETER_WITH_SUB_PARAMS, []
+    )
+
+    unmatched_patterns = set(
+        replicated_parameters
+        + parameters_to_average
+        + parameters_with_row_parallelism
+        + vocabulary_parameters
+        + parameters_with_2_sub_params_cat_dim_0
+    )
+    unmatched_patterns.update(
+        chain.from_iterable(
+            SubparamShape(**s).patterns for s in parameter_with_sub_params
+        )
+    )
+
+    def get_matched_pattern(patterns_, name_):
+        matched_ = [pattern_ for pattern_ in patterns_ if re.match(pattern_, name_)]
+        assert (
+            len(matched_) <= 1
+        ), f"Got more than one matching patterns={matched_} for {name_}"
+        if matched_:
+            pattern_ = matched_[0]
+            unmatched_patterns.discard(pattern_)
+            return pattern_
+        return None
+
+    def get_matched_sub_params_pattern(name_):
+        for subparam_shape_dict in parameter_with_sub_params:
+            subparam_shape = SubparamShape(**subparam_shape_dict)
+            for pattern_ in subparam_shape.patterns:
+                if re.match(pattern_, name_):
+                    unmatched_patterns.discard(pattern_)
+                    return subparam_shape
+        return None
+
+    matched_sub_params_shape = get_matched_sub_params_pattern(name)
+
+    step_merged = _merge_zero_shards(slice_base_path, "step", tp_degree, shape)
+    if step_merged:
+        _save_checkpoint(os.path.join(param_base_path, f"step.pt"), step_merged[0])
+
+    for state in ("fp32", "exp_avg", "exp_avg_sq"):
+        slices = _merge_zero_shards(slice_base_path, state, tp_degree, shape)
+        final_path = os.path.join(param_base_path, f"{state}.pt")
+
+        # print(f"Expected shape: {shape}")
+        # print(f"Fragment sizes:", list(frag.shape for frag in slices))
+        ckpt_dict = {}
+        if get_matched_pattern(replicated_parameters, name):
+            if len(slices) > 1:
+                assert all([slices[0].equal(other_slice) for other_slice in slices[1:]])
+            param = slices[0]
+            # print(f'replicate {name} using first slice')
+        elif get_matched_pattern(parameters_to_average, name):
+            param = sum(slices) / len(slices)
+            # print(f'merge {name} using average')
+        elif get_matched_pattern(parameters_with_2_sub_params_cat_dim_0, name):
+            cat_dim = 0
+            chunked_slices = [torch.chunk(s, 2, dim=cat_dim) for s in slices]
+            merged_chunks_0 = torch.cat([s[0] for s in chunked_slices], dim=cat_dim)
+            merged_chunks_1 = torch.cat([s[1] for s in chunked_slices], dim=cat_dim)
+            param = torch.cat([merged_chunks_0, merged_chunks_1], dim=cat_dim)
+            ckpt_dict[CAT_DIM] = cat_dim
+            ckpt_dict[PARAM_N_SUB_PARAMS] = 2
+        elif matched_sub_params_shape:
+            merged_chunks = []
+            partition_dim = matched_sub_params_shape.partition_dim
+
+            sub_dim_sizes = matched_sub_params_shape.shape[partition_dim]
+            if not isinstance(sub_dim_sizes, tuple):
+                sub_dim_sizes = (sub_dim_sizes,)
+
+            partition_shape = [
+                sum(d) if isinstance(d, tuple) else d
+                for d in matched_sub_params_shape.shape
+            ]
+            partition_shape = [
+                d // tp_degree if i == partition_dim else d
+                for i, d in enumerate(partition_shape)
+            ]
+            slices = [s.view(partition_shape) for s in slices]
+
+            offset = 0
+            for sub_dim_size in sub_dim_sizes:
+                part_sub_dim_size = sub_dim_size // tp_degree
+                merged_chunks.append(
+                    torch.cat(
+                        [
+                            s.narrow(partition_dim, offset, part_sub_dim_size)
+                            for s in slices
+                        ],
+                        dim=partition_dim,
+                    )
+                )
+                offset += part_sub_dim_size
+            param = torch.cat(merged_chunks, dim=partition_dim)
+            ckpt_dict[SUB_PARAM_SHAPE] = matched_sub_params_shape
+        else:
+            cat_dim = (
+                1 if get_matched_pattern(parameters_with_row_parallelism, name) else 0
+            )
+            # print(f"merge {name} with CAT DIM: {cat_dim}")
+            param = torch.cat(slices, dim=cat_dim)
+            ckpt_dict[CAT_DIM] = cat_dim
+
+        if get_matched_pattern(vocabulary_parameters, name):
+            # print(f"Before {param.shape=}")
+            # strip padding
+            original_vocab_size = universal_checkpoint_info["original_vocab_size"]
+            param = param[:original_vocab_size, :]
+            ckpt_dict[VOCAB_TENSOR] = True
+            # print(f"After {param.shape=}")
+
+        # print(f"Final shape: {param.shape}")
+        ckpt_dict[PARAM] = param
+        _save_checkpoint(final_path, ckpt_dict)
+
+    return unmatched_patterns
+
+
+def merge_zero3_slices(dp_degree, dir, slice_dir, name):
+    slice_base_path = os.path.join(slice_dir, name)
+    param_base_path = os.path.join(dir, name)
+
+    for state in ("fp32", "exp_avg", "exp_avg_sq"):
+        slices = _merge_zero_shards(slice_base_path, state, 1)
+        final_path = os.path.join(param_base_path, f"{state}.pt")
+        _save_checkpoint(final_path, slices[0])
+
+
+def _do_parallel_work(do_work, work_chunks, num_workers):
+    results = []
+    if num_workers > 1:
+        with ProcessPoolExecutor(max_workers=num_workers) as executor:
+            future_list = [executor.submit(do_work, work) for work in work_chunks]
+            for f in tqdm.tqdm(future_list):
+                results.append(f.result())
+    else:
+        # No parallel pass for unit testing
+        # We can't create child processes in tests
+        for work in tqdm.tqdm(work_chunks):
+            results.append(do_work(work))
+    return results
+
+
+def _extract_zero_shard_files(args, ds_checkpoint, temp_dir):
+    _3d_range_list = list(
+        itertools.product(
+            range(ds_checkpoint.pp_degree),
+            range(ds_checkpoint.tp_degree),
+            range(ds_checkpoint.dp_degree),
+        )
+    )
+    # pprint(f'{_3d_range_list=}')
+
+    do_work = partial(extract_zero_shards, temp_dir, ds_checkpoint)
+    _do_parallel_work(do_work, _3d_range_list, args.num_extract_workers)
+
+
+def _extract_zero_shard_files_stage3(
+    args, optim_files, param_shapes, dp_degree, temp_dir
+):
+    do_work = partial(
+        extract_zero_shards_stage3, optim_files, param_shapes, dp_degree, temp_dir
+    )
+    _do_parallel_work(do_work, list(range(dp_degree)), args.num_extract_workers)
+
+
+def _merge_tp_slice_files(args, ds_checkpoint, slice_shapes, temp_dir):
+    zero_output_folder = os.path.join(args.output_folder, "zero")
+    do_work = partial(
+        merge_tp_slices,
+        ds_checkpoint,
+        zero_output_folder,
+        temp_dir,
+        ds_checkpoint.tp_degree,
+    )
+    unmatched_patterns_lists = _do_parallel_work(
+        do_work, list(slice_shapes.items()), args.num_merge_workers
+    )
+
+    # verify that all patterns were used
+    # if a pattern was not used by any of the workers, then it was not used at all -> assert/alert
+    sets = [set(lst) for lst in unmatched_patterns_lists]
+    unmatched_patterns = list(set.intersection(*sets))
+    if args.strict:
+        assert (
+            not unmatched_patterns
+        ), f"Unused patterns={unmatched_patterns} while merging tp slices"
+    elif unmatched_patterns:
+        print(f"Warning: Unused patterns={unmatched_patterns} while merging tp slices")
+
+
+def _merge_zero3_slice_files(args, param_shapes, dp_degree, temp_dir):
+    zero_output_folder = os.path.join(args.output_folder, "zero")
+    do_work = partial(merge_zero3_slices, dp_degree, zero_output_folder, temp_dir)
+    _do_parallel_work(do_work, param_shapes.keys(), args.num_merge_workers)
+
+
+def _zero_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+
+
+def _parse_model_states_stage3(files):
+    return torch.load(files[0], map_location=torch.device("cpu"))[PARAM_SHAPES]
+
+
+def _save_optimizer_state(args, ds_checkpoint):
+    sharded_states = [
+        BASE_OPTIMIZER_STATE,
+        PARAM_SLICE_MAPPINGS,
+        SINGLE_PARTITION_OF_FP32_GROUPS,
+    ]
+    sd = ds_checkpoint.get_zero_checkpoint_state(
+        pp_index=0, tp_index=0, dp_index=0, strip_tensor_paddings=False
+    )
+
+    optim_sd = sd[OPTIMIZER_STATE_DICT]
+    output_sd = {k: v for k, v in optim_sd.items() if k not in sharded_states}
+    output_sd[PARAM_GROUPS] = optim_sd[BASE_OPTIMIZER_STATE][PARAM_GROUPS]
+    zero_output_folder = os.path.join(args.output_folder, "zero")
+    output_file_path = os.path.join(zero_output_folder, f"optimizer_state.pt")
+    _save_checkpoint(output_file_path, output_sd)
+
+
+def _save_optimizer_state_stage3(args, optim_files):
+    sd = torch.load(optim_files[0], map_location=torch.device("cpu"))
+    output_sd = sd[OPTIMIZER_STATE_DICT]
+    output_sd[PARAM_GROUPS] = output_sd[OPTIMIZER_STATE_DICT][PARAM_GROUPS]
+    zero_output_folder = os.path.join(args.output_folder, "zero")
+    output_file_path = os.path.join(zero_output_folder, f"optimizer_state.pt")
+    _save_checkpoint(output_file_path, output_sd)
+
+
+def _get_optim_files(checkpoint_dir):
+    return _get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+
+
+def _get_model_state_files(checkpoint_dir):
+    return _get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+
+
+def _get_checkpoint_files(checkpoint_dir, glob_pattern):
+    ckpt_files = sorted(
+        glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys
+    )
+
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(
+            f"can't find {glob_pattern} files in directory '{checkpoint_dir}'"
+        )
+
+    return ckpt_files
+
+
+def _get_zero_stage(optim_files):
+    state_dict = torch.load(optim_files[0], map_location=torch.device("cpu"))
+    optimizer_state = state_dict[OPTIMIZER_STATE_DICT]
+    zero_stage = optimizer_state.get(ZERO_STAGE, 1)
+    return zero_stage
+
+
+def _inject_missing_state(ds_checkpoint):
+    if UNIVERSAL_CHECKPOINT_INFO not in ds_checkpoint.global_state:
+        sd = torch.load(
+            ds_checkpoint.mp_rank_files[0], map_location=torch.device("cpu")
+        )
+        if UNIVERSAL_CHECKPOINT_INFO not in sd:
+            ds_checkpoint.global_state[UNIVERSAL_CHECKPOINT_INFO] = {}
+            ds_checkpoint.global_state[UNIVERSAL_CHECKPOINT_INFO][
+                UNIVERSAL_CHECKPOINT_VERSION_KEY
+            ] = UNIVERSAL_CHECKPOINT_VERSION_VALUE
+
+
+def _check_for_required_state(ds_checkpoint):
+    universal_checkpoint_info = ds_checkpoint.get_checkpoint_info(
+        UNIVERSAL_CHECKPOINT_INFO
+    )
+    assert (
+        universal_checkpoint_info is not None
+    ), f"Required {UNIVERSAL_CHECKPOINT_INFO} state is missing in checkpoint. Verify that client creates this state."
+
+
+def main(args):
+    print(f"Convert DeepSpeed Checkpoint to Universal Checkpoint")
+
+    print(
+        f"Converting DeepSpeed checkpoint in {args.input_folder} to Universal checkpoint in {args.output_folder}"
+    )
+
+    optim_files = _get_optim_files(args.input_folder)
+    zero_stage = _get_zero_stage(optim_files)
+
+    if zero_stage <= 2:
+        ds_checkpoint = DeepSpeedCheckpoint(args.input_folder)
+        if args.inject_missing_state:
+            _inject_missing_state(ds_checkpoint)
+        else:
+            _check_for_required_state(ds_checkpoint)
+
+        iteration = ds_checkpoint.get_iteration()
+        # _create_latest_file(args.output_folder, iteration)
+        checkpoint_paths = _create_checkpoint_paths(
+            args.output_folder,
+            iteration,
+            ds_checkpoint.tp_degree,
+            ds_checkpoint.pp_degree,
+        )
+
+        slice_shapes = []
+        for mp_rank_file in ds_checkpoint.mp_rank_files:
+            mp_sd = torch.load(mp_rank_file, map_location=torch.device("cpu"))
+            slice_shapes += mp_sd[PARAM_SHAPES]
+
+        # fix back to normal flat dict, merge duplicates for tp>1
+        slice_shapes = dict((k, v) for d in slice_shapes for k, v in d.items())
+        temp_dir = os.path.join(args.output_folder, "tmp")
+
+        print("1. Extracting ZeRO fragments")
+        _extract_zero_shard_files(args, ds_checkpoint, temp_dir)
+
+        print("2. Merging slices .....")
+        _merge_tp_slice_files(args, ds_checkpoint, slice_shapes, temp_dir)
+
+        print("3. Saving common optimizer states")
+        _save_optimizer_state(args, ds_checkpoint)
+
+        if not args.keep_temp_folder:
+            shutil.rmtree(temp_dir, ignore_errors=True)
+
+        # Copy mp* files into output folder
+        for f in glob.glob(os.path.join(args.input_folder, "mp*")):
+            shutil.copy2(f, args.output_folder)
+
+    else:
+        model_files = _get_model_state_files(args.input_folder)
+        param_shapes = _parse_model_states_stage3(model_files)
+        param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+        dp_degree = len(model_files)
+
+        temp_dir = os.path.join(args.output_folder, "tmp")
+
+        print("*** 1. Extracting ZeRO fragments")
+        _extract_zero_shard_files_stage3(
+            args, optim_files, param_shapes, dp_degree, temp_dir
+        )
+
+        print("*** 2. Merging slices .....")
+        _merge_zero3_slice_files(args, param_shapes, dp_degree, temp_dir)
+
+        print("*** 3. Saving common optimizer states")
+        _save_optimizer_state_stage3(args, optim_files)
+
+        if not args.keep_temp_folder:
+            shutil.rmtree(temp_dir, ignore_errors=True)
+
+        # Copy *model_states files into output folder
+        for f in glob.glob(os.path.join(args.input_folder, "*model_states.pt")):
+            shutil.copy2(f, args.output_folder)
+
+    # Update latest to output folder
+    checkpoint_root_folder, step_folder = os.path.split(args.output_folder)
+    latest_file = os.path.join(checkpoint_root_folder, "latest_universal")
+    with open(latest_file, "w") as f:
+        f.write(step_folder)
+
+    print("*** Done!")
+
+
+if __name__ == "__main__":
+    args = parse_arguments()
+    main(args)
diff --git a/ALCF/examples/checkpoint_conversion/README.md b/ALCF/examples/checkpoint_conversion/README.md
new file mode 100644
index 00000000000..97debad17e6
--- /dev/null
+++ b/ALCF/examples/checkpoint_conversion/README.md
@@ -0,0 +1,118 @@
+# Converting `AutoModel` to DeepSpeed ZeRO Checkpoint
+
+We would like to convert an (arbitrarily large) HuggingFace model to a ZeRO
+checkpoint so that we can use it for continual pre-training with
+Megatron-DeepSpeed.
+
+Previously, we had been using the approach from [ALCF / examples /
+finetune_llama3](/ALCF/examples/finetune_llama3/README.md).
+
+In particular, this approach works by:
+
+1. Instantiate the Megatron-DeepSpeed (MDS) model as normal (with empty
+   weights), from [\[here\]](/tools/hf2megads_weight_converter.py#L712)
+
+      ```python
+      from megatron.model import GPTModelPipe
+      ds_model = GPTModelPipe(config, num_tokentypes=0, parallel_output=True)
+      ```
+
+1. Instantiate the HF model \[[here\]](/tools/hf2megads_weight_converter.py#L725)
+
+    ```python
+    from transformers import AutoModel
+    hf_model = AutoModel.from_pretrained("meta-llama/llama-3.3-70b-instruct")
+    ```
+
+3. Instantiate optimizer [\[here\]](/tools/hf2megads_weight_converter.py#L736)
+
+1. Layer by layer, copy the weights from the HF model to the MDS model
+   \[[here\]](/tools/hf2megads_weight_converter.py#L766)
+
+
+Unfortunately, for very large models, this will slowly consume available host
+memory until it is exhausted causing the application to crash.
+
+## Proposed Solution
+
+Our proposed solution is simple and entirely contained in [ALCF / examples / checkpoint_conversion / hf_to_zero.py](/ALCF/examples/checkpoint_conversion/hf_to_zero.py).
+
+Explicitly:
+
+1. Create the HF model as normal
+2. Pass it to `deepspeed.initalize(...)` to create the `DeepSpeedEngine`
+3. `DeepSpeedEngine.save_checkpoint(...)` to save the checkpoint.
+
+
+To run:
+
+```bash
+launch python3 \
+  ALCF/examples/checkpoint_conversion/hf_to_zero.py \
+  --zero-stage=3 \
+  --device=cpu \
+  --model='meta-llama/llama-3.3-70b-instruct'
+```
+
+> [!WARNING]
+> I believe this approach is still not finished because I expect there will be
+> naming mismatches between the layers of the HF model (now saved in our ZeRO
+> checkpoint) and what our MDS model expects.
+> 
+> This requires further testing to confirm, but we are now able to successfully
+> convert the 70B model to a ZeRO checkpoint.
+
+## Estimate Memory Needs for Llama-3.3-70B-Instruct
+
+Deepspeed provides a nice mechanism for determining the memory needs of a model.
+
+We provide below the summary for the Llama-3.3-70B-Instruct model of interest.
+
+|       Model Name       | Model Size | Model Parameters | Largest Layer Parameters | Memory Needed |
+|:----------------------:|:----------:|:----------------:|:------------------------:|:-------------:|
+| Llama-3.3-70B-Instruct |     70B    |      69503M      |           1050M          |    70.45GB   | 
+
+
+
+```bash
+$ python3 -c 'from transformers import AutoModel; \
+∙ from deepspeed.runtime.zero.stage3 import estimate_zero3_model_states_mem_needs_all_live; \
+∙ model = AutoModel.from_pretrained("meta-llama/Llama-3.3-70B-Instruct"); \
+∙ estimate_zero3_model_states_mem_needs_all_live(model, num_gpus_per_node=12, num_nodes=4)'
+```
+
+<details closed><summary>Output</summary>
+
+
+```bash
+Loading checkpoint shards: 100%|████████████████| 30/30 [08:28<00:00, 16.94s/it]
+Estimated memory needed for params, optim states and gradients for a:
+HW: Setup with 4 nodes, 12 GPUs per node.
+SW: Model with 69503M total params, 1050M largest layer params.
+  per CPU  |  per GPU |   Options
+  436.93GB |   3.91GB | offload_param=cpu , offload_optimizer=cpu , zero_init=1
+ 4660.54GB |   3.91GB | offload_param=cpu , offload_optimizer=cpu , zero_init=0
+  388.38GB |   6.61GB | offload_param=none, offload_optimizer=cpu , zero_init=1
+ 4660.54GB |   6.61GB | offload_param=none, offload_optimizer=cpu , zero_init=0
+   70.45GB |  28.19GB | offload_param=none, offload_optimizer=none, zero_init=1
+ 4660.54GB |  28.19GB | offload_param=none, offload_optimizer=none, zero_init=0
+took: 0h:08m:44s
+```
+
+</details>
+
+
+- Model States and Memory Needs for Llama-3.3-70B-Instruct:
+
+
+    |  per CPU  | per GPU |                         Options                         |
+    |:---------:|:-------:|:-------------------------------------------------------:|
+    |  436.93GB |  3.91GB |  offload_param=cpu, offload_optimizer=cpu, zero_init=1  |
+    | 4660.54GB |  3.91GB |  offload_param=cpu, offload_optimizer=cpu, zero_init=0  |
+    |  388.38GB |  6.61GB |  offload_param=none, offload_optimizer=cpu, zero_init=1 |
+    | 4660.54GB |  6.61GB |  offload_param=none, offload_optimizer=cpu, zero_init=0 |
+    |  70.45GB  | 28.19GB | offload_param=none, offload_optimizer=none, zero_init=1 |
+    | 4660.54GB | 28.19GB | offload_param=none, offload_optimizer=none, zero_init=0 |
+
+
+
diff --git a/ALCF/examples/checkpoint_conversion/hf_to_zero.py b/ALCF/examples/checkpoint_conversion/hf_to_zero.py
new file mode 100644
index 00000000000..8c7619eda65
--- /dev/null
+++ b/ALCF/examples/checkpoint_conversion/hf_to_zero.py
@@ -0,0 +1,174 @@
+from argparse import Namespace
+import os
+from pathlib import Path
+from typing import Optional
+
+import ezpz
+import torch
+import torch.distributed
+import deepspeed
+
+from transformers import AutoModelForCausalLM
+
+logger = ezpz.get_logger(__name__)
+
+
+def parse_args():
+    import argparse
+
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        '--model', type=str, default='meta-llama/Llama-3.2-1B-Instruct'
+    )
+    parser.add_argument('--device', type=str, default=None, required=False)
+    parser.add_argument('--train-batch-size', type=int, default=1)
+    parser.add_argument('--zero-stage', type=int, default=3)
+    # add arg for output directory
+    parser.add_argument('--output-dir', type=str, default='.')
+    parser.add_argument('--kv-offload', action='store_true')
+    parser.add_argument('--async-kv-offload', action='store_true')
+    parser.add_argument('--gen-len', type=int, default=1024)
+    parser.add_argument('--strict', action='store_true')
+    return parser.parse_args()
+
+
+def meta_to_cpu(container, dtype=None):
+    if isinstance(container, torch.Tensor):
+        return torch.empty(*container.shape, dtype=dtype or container.dtype)
+    elif isinstance(container, tuple):
+        return tuple(meta_to_cpu(x, dtype) for x in container)
+    elif isinstance(container, dict):
+        return dict((k, meta_to_cpu(v, dtype)) for k, v in container.items())
+    else:
+        raise ValueError(f'Invalid type: {container}')
+
+
+def get_model(
+    model_name: str = 'meta-llama/Llama-3.2-1B-Instruct',
+    dummy: Optional[bool] = None,
+    ignore_mismatched_sizes: bool = True,
+) -> torch.nn.Module:
+    if dummy:
+        filename = Path('.').joinpath(
+            f'{model_name}.replace("/", "-")-hf-weights'
+        )
+        if not filename.exists():
+            from accelerate import init_empty_weights
+
+            logger.info('Creating dummy weights')
+            with init_empty_weights():
+                model = AutoModelForCausalLM.from_pretrained(
+                    f'{model_name}',
+                    ignore_mismatched_sizes=ignore_mismatched_sizes,
+                )
+            model.save_pretrained(
+                filename,
+                state_dict=meta_to_cpu(model.state_dict(), torch.float16),
+            )
+            return model
+
+    model = AutoModelForCausalLM.from_pretrained(
+        f'{model_name}',
+        ignore_mismatched_sizes=ignore_mismatched_sizes,
+    )
+    return model
+
+
+def get_ds_config(
+    micro_batch_size: int = 1,
+    gradient_accumulation_steps: int = 2,
+    zero_stage: int = 3,
+    hidden_size: Optional[int] = None,
+) -> dict:
+    train_batch_size = (
+        micro_batch_size * ezpz.get_world_size() * gradient_accumulation_steps
+    )
+    zero_config = {
+        'stage': zero_stage,
+    }
+    if zero_stage == 3:
+        if hidden_size is not None:
+            zero_config |= {
+                'stage3_prefetch_bucket_size': 2 * hidden_size * hidden_size,
+                'stage3_param_persistence_threshold': hidden_size,
+                'stage3_max_live_parameters': 2 * hidden_size * hidden_size,
+            }
+        zero_config |= {
+            'offload_optimizer': {
+                'device': 'cpu',
+            },
+            'offload_param': {
+                'device': 'cpu',
+            },
+        }
+
+    return {
+        'bf16': {'enabled': True},
+        'fp16': {'enabled': False},
+        'gradient_accumulation_steps': gradient_accumulation_steps,
+        'optimizer': {
+            'type': 'Adam',
+        },
+        'steps_per_print': 1,
+        'train_batch_size': train_batch_size,
+        'train_micro_batch_size_per_gpu': 1,
+        'wall_clock_breakdown': True,
+        'zero_optimization': zero_config,
+    }
+
+
+def convert_checkpoint(args: Namespace):
+    if args.device is not None and args.device == 'cpu':
+        os.environ['TORCH_DEVICE'] = 'cpu'
+        os.environ['DS_ACCELERATOR'] = 'cpu'
+
+    if args.zero_stage == 3:
+        cm = deepspeed.zero.Init()
+    else:
+        from contextlib import nullcontext
+
+        cm = nullcontext()
+
+    with cm:
+        with torch.no_grad():
+            model = get_model(
+                args.model, ignore_mismatched_sizes=not args.strict
+            )
+
+    assert isinstance(model, torch.nn.Module)
+    if args.kv_offload:
+        model.set_kv_cache_offload(
+            True,
+            gen_len=args.gen_len,
+            async_kv_offload=args.async_kv_offload,
+        )
+
+    logger.info(f'model:\n{model}')
+    logger.info(f'{model.config=}')
+    ds_config = get_ds_config(
+        args.train_batch_size,
+        args.zero_stage,
+        hidden_size=model.config.hidden_size,
+    )
+    output_dir = Path('zero-checkpoints').joinpath(
+        f'{args.model}-zs{args.zero_stage}-mb{args.train_batch_size}'
+    )
+
+    ds_engine = deepspeed.initialize(model=model, config_params=ds_config)[0]
+    ds_engine.module.eval()
+    model = ds_engine.module
+    logger.info(f'Saving ZeRO checkpoint to {output_dir}')
+
+    ds_engine.save_checkpoint(output_dir)
+
+    torch.distributed.barrier()
+
+
+def main():
+    _ = ezpz.setup_torch(backend='DDP')
+    args = parse_args()
+    convert_checkpoint(args)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/ALCF/examples/finetune_llama3/README.md b/ALCF/examples/finetune_llama3/README.md
new file mode 100644
index 00000000000..9f80d3ba946
--- /dev/null
+++ b/ALCF/examples/finetune_llama3/README.md
@@ -0,0 +1,73 @@
+# Finetune Llama3 from Hugging Face Checkpoint
+
+1. **Clone + navigate into repo**:
+
+    ```bash
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+    cd Megatron-DeepSpeed
+    ```
+
+1. **Setup environment**:
+
+    ```bash
+    PBS_O_WORKDIR=$(pwd) source <(curl -s https://raw.githubusercontent.com/saforem2/ezpz/refs/heads/main/src/ezpz/bin/utils.sh)
+    ezpz_setup_env
+
+1. **Install Dependencies**:
+
+    ```bash
+    python3 -m pip install deepspeed --require-virtualenv
+    python3 -m pip install -e "git+https://github.com/saforem2/ezpz#egg=ezpz" --require-virtualenv
+    python3 -m pip install -e .
+    ```
+
+1. **Download data**:
+
+    ```bash
+    curl https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json -o dataset/alpaca_data.json
+    ```
+
+   (from [here](https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json))
+
+1. **Download HF Checkpoint**:
+
+    ```bash
+    MODEL="Llama-3.2-1B"
+    HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download "meta-llama/${MODEL}" --local-dir "${MODEL}"
+    ```
+
+    - _might_ require updating `huggingface_hub, hf_transfer`:
+
+        ```bash
+        python3 -m pip install --upgrade "huggingface_hub[hf_transfer,cli]" hf_transfer`
+        ```
+
+1. **Convert HF --> MDS**:
+
+    ```bash
+    TP=1 PP=1 ZERO_STAGE=1 MODEL_NAME=Llama-3.2-1B bash ALCF/examples/finetune_llama3/finetune_llama.sh convert_hf2mds
+    ```
+
+<details closed><summary>Old:</summary>
+
+From original README:
+
+### Usage
+
+#### 1. Converting Hugging Face Model Weights to Megatron-Deepspeed Model
+
+```bash
+bash examples_deepspeed/finetune_hf_llama/finetune_llama.sh convert_hf2mds
+```
+
+This command writes the Hugging Face model weights into the Megatron-Deepspeed model and saves it. You can adjust the parallel configuration in the script.```convert_mds2hf``` can convert a Megatron-Deepspeed model into the Hugging Face format
+
+#### 2. Fine-tuning Process
+
+```bash
+bash examples_deepspeed/finetune_hf_llama/finetune_llama.sh
+```
+
+Execute this command to initiate the finetuning process. The task originates from [Stanford Alpaca](https://github.com/tatsu-lab/stanford_alpaca.git).
+
+</details>
diff --git a/ALCF/examples/finetune_llama3/ds_config.json b/ALCF/examples/finetune_llama3/ds_config.json
new file mode 100755
index 00000000000..f116c812386
--- /dev/null
+++ b/ALCF/examples/finetune_llama3/ds_config.json
@@ -0,0 +1,18 @@
+{
+  "train_batch_size" : 6,
+  "train_micro_batch_size_per_gpu": 1,
+  "steps_per_print": 1,
+  "gradient_accumulation_steps": 1,
+  "optimizer": {
+      "type": "Adam",
+      "params": {
+          "lr": 1e-4
+      }
+  },
+  "zero_optimization": {
+    "stage": 1
+  },
+  "bf16": {
+    "enabled": true
+  }
+}
diff --git a/ALCF/examples/finetune_llama3/ds_config_empty.json b/ALCF/examples/finetune_llama3/ds_config_empty.json
new file mode 100755
index 00000000000..e50c73c1d7a
--- /dev/null
+++ b/ALCF/examples/finetune_llama3/ds_config_empty.json
@@ -0,0 +1,18 @@
+{
+  "train_batch_size" : 6,
+  "train_micro_batch_size_per_gpu": 1,
+  "steps_per_print": 1,
+  "gradient_accumulation_steps": 1,
+  "optimizer": {
+      "type": "Adam",
+      "params": {
+          "lr": 1e-4
+      }
+  },
+  "zero_optimization": {
+    "stage": 1 
+  },
+  "bf16": {
+    "enabled": true
+  }
+}
diff --git a/ALCF/examples/finetune_llama3/finetune_llama.sh b/ALCF/examples/finetune_llama3/finetune_llama.sh
new file mode 100644
index 00000000000..a87e8b3c347
--- /dev/null
+++ b/ALCF/examples/finetune_llama3/finetune_llama.sh
@@ -0,0 +1,232 @@
+PBS_O_WORKDIR=$(pwd)
+source <(curl -s https://raw.githubusercontent.com/saforem2/ezpz/refs/heads/main/src/ezpz/bin/utils.sh) && ezpz_setup_env
+
+DS_CONFIG=./ALCF/examples/finetune_llama3/ds_config.json
+DS_CONFIG_EMPTY=./ALCF/examples/finetune_llama3/ds_config_empty.json
+DATASET_PATH="./dataset/alpaca_data.json"
+
+if [[ ! -f "${DATASET_PATH}" ]]; then
+  echo "Downloading alpaca_data.json to dataset/alpaca_data.json..."
+  curl https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json -o dataset/alpaca_data.json
+fi
+
+# DATASET_PATH=./ALCF/examples/finetune_llama3/alpaca_data.json
+# dataset link: https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json
+# HF_LLAMA_PATH=/flare/Aurora_deployment/meta-llama/70B/Llama-3.3-70B-Instruct
+# HF_LLAMA_PATH=/home/foremans/.llama/checkpoints/Llama3.3-70B-Instruct
+# HF_LLAMA_PATH=./Llama-2-7B-hf
+# head -n 1 "${PBS_NODEFILE}" > nodefile-0
+#ezpz_setup_job nodefile-0
+# HF_LLAMA_PATH=/data/llama-2-7b-hf/
+# weights link: https://huggingface.co/huggyllama/llama-7b
+#
+
+MODEL_NAME="${MODEL_NAME:-"Llama-3.3-70B-Instruct"}"
+
+machine_name=$(ezpz_get_machine_name)
+if [[ "${machine_name}" == "aurora" || "${machine_name}" == "sunspot" ]]; then
+  BACKEND="ccl"
+  HF_LLAMA_PATH="${MODEL_NAME}"
+  FLASH_ARG="--use-flash-attn-builder"
+elif [[ "${machine_name}" == "polaris" || "${machine_name}" == "sophia" ]]; then
+  BACKEND="nccl"
+  FLASH_ARG="--use-flash-attn-v2"
+  # HF_LLAMA_PATH="Llama-3.2-1B"
+  # HF_LLAMA_PATH=Llama-3.3-70B-Instruct
+fi
+
+HF_LLAMA_PATH="${MODEL_NAME}"
+HF_CONFIG="${HF_LLAMA_PATH}/config.json"
+
+MICRO_BATCH_SIZE="${MICRO_BATCH_SIZE:-8}"
+ZERO_STAGE="${ZERO_STAGE:-0}"
+TP="${TP:-1}"
+PP="${PP:-1}"
+WORLD_SIZE="${WORLD_SIZE:-${NGPUS}}"
+GAS="${GRAD_ACC_STEPS:-${GAS:-1}}"
+GLOBAL_BATCH_SIZE=$((MICRO_BATCH_SIZE * GAS * WORLD_SIZE / (TP * PP)))
+# require to align with weight dimensions
+# HIDDEN_SIZE=4096
+# FFN_HIDDEN_SIZE=11008
+# NUM_LAYERS=32
+# NUM_HEADS=32
+echo "Model: ${MODEL_NAME}"
+echo "HF_CONFIG: ${HF_CONFIG}"
+cat "${HF_CONFIG}" | jq .
+HIDDEN_SIZE=$(cat "${HF_CONFIG}" | jq -r '.hidden_size')
+FFN_HIDDEN_SIZE=$(cat "${HF_CONFIG}" | jq -r '.intermediate_size')
+NUM_LAYERS=$(cat "${HF_CONFIG}" | jq -r '.num_hidden_layers')
+NUM_HEADS=$(cat "${HF_CONFIG}" | jq -r '.num_attention_heads')
+NUM_KV_HEADS=$(cat "${HF_CONFIG}" | jq -r '.num_key_value_heads')
+MAX_SEQ_LENGTH=$(cat "${HF_CONFIG}" | jq -r '.max_position_embeddings')
+SEQ_LENGTH=2048
+######################################
+
+printf "GLOBAL_BATCH_SIZE: %s\n" $GLOBAL_BATCH_SIZE
+printf "MICRO_BATCH_SIZE: %s\n" $MICRO_BATCH_SIZE
+printf "ZERO_STAGE: %s\n" $ZERO_STAGE
+printf "TP: %s\n" $TP
+printf "PP: %s\n" $PP
+printf "WORLD_SIZE: %s\n" $WORLD_SIZE
+printf "HIDDEN_SIZE: %s\n" $HIDDEN_SIZE
+printf "FFN_HIDDEN_SIZE: %s\n" $FFN_HIDDEN_SIZE
+printf "NUM_LAYERS: %s\n" $NUM_LAYERS
+printf "NUM_HEADS: %s\n" $NUM_HEADS
+printf "NUM_KV_HEADS: %s\n" $NUM_KV_HEADS
+printf "SEQ_LENGTH: %s\n" $SEQ_LENGTH
+
+CKPT_DIR="converted_hf_ckpts/${MODEL_NAME}-MDS-GBS${GLOBAL_BATCH_SIZE}-ZS${ZERO_STAGE}-TP${TP}-PP${PP}"
+TB_DIR="${CKPT_DIR}/tensorboard-output"
+mkdir -p $(dirname $TB_DIR)
+
+# Below configuration required for llama model as per llama paper
+# --no-query-key-layer-scaling \
+# --attention-dropout 0 \
+# --hidden-dropout 0 \
+# --use-rotary-position-embeddings \
+# --untie-embeddings-and-output-weights \
+# --swiglu \
+# --normalization rmsnorm \
+# --disable-bias-linear \
+######################################
+cat <<EOT >$DS_CONFIG
+{
+  "train_batch_size" : $GLOBAL_BATCH_SIZE,
+  "train_micro_batch_size_per_gpu": $MICRO_BATCH_SIZE,
+  "steps_per_print": 1,
+  "gradient_accumulation_steps": $GAS,
+  "optimizer": {
+      "type": "Adam",
+      "params": {
+          "lr": 1e-4
+      }
+  },
+  "zero_optimization": {
+    "stage": $ZERO_STAGE
+  },
+  "bf16": {
+    "enabled": true
+  }
+}
+EOT
+
+cat <<EOT >$DS_CONFIG_EMPTY
+{
+  "train_batch_size" : $GLOBAL_BATCH_SIZE,
+  "train_micro_batch_size_per_gpu": $MICRO_BATCH_SIZE,
+  "steps_per_print": 1,
+  "gradient_accumulation_steps": $GAS,
+  "optimizer": {
+      "type": "Adam",
+      "params": {
+          "lr": 1e-4
+      }
+  },
+  "zero_optimization": {
+    "stage": $ZERO_STAGE 
+  },
+  "bf16": {
+    "enabled": true
+  }
+}
+EOT
+
+if [ "$1" = "convert_hf2mds" ]; then
+  DS_CONFIG_PATH="./ALCF/examples/finetune_llama3/ds_config_empty.json"
+elif [ "$1" = "convert_mds2hf" ]; then
+  DS_CONFIG_PATH="./ALCF/examples/finetune_llama3/ds_config_empty.json"
+else
+  DS_CONFIG_PATH="./ALCF/examples/finetune_llama3/ds_config.json"
+fi
+
+# --hf-ckpt-num-shards 2 \
+covert_hf2mds_args="launch python3 tools/hf2megads_weight_converter.py \
+--hf-ckpt-dir ${HF_LLAMA_PATH} \
+--load-mode auto \
+--save ${CKPT_DIR}"
+
+# --hf-ckpt-num-shards 2 \
+covert_mds2hf_args="launch python3 tools/hf2megads_weight_converter.py \
+--hf-ckpt-dir ${HF_LLAMA_PATH} \
+--load-mode auto \
+--to-hf-ckpt \
+--load ${CKPT_DIR} \
+--save ${HF_LLAMA_PATH}'-hf-out' "
+
+finetune_args="launch python3 finetune_llama.py \
+--load ${CKPT_DIR}"
+
+comm_args+=(
+  "${FLASH_ARG}"
+  "--tensor-model-parallel-size=${TP}"
+  "--pipeline-model-parallel-size=${PP}"
+  "--lr-warmup-iters=2000"
+  "--weight-decay=0.1"
+  "--clip-grad=1"
+  "--num-layers=${NUM_LAYERS}"
+  "--hidden-size=${HIDDEN_SIZE}"
+  "--num-attention-heads=${NUM_HEADS}"
+  "--finetune"
+  "--ffn-hidden-size=${FFN_HIDDEN_SIZE}"
+  "--num-key-value-heads=${NUM_KV_HEADS}"
+  "--attention-dropout=0"
+  "--hidden-dropout=0"
+  "--no-query-key-layer-scaling"
+  "--disable-bias-linear"
+  "--normalization=rmsnorm"
+  "--use-rotary-position-embeddings"
+  "--untie-embeddings-and-output-weights"
+  "--swiglu"
+  "--seq-length=${SEQ_LENGTH}"
+  "--max-position-embeddings=${MAX_SEQ_LENGTH}"
+  "--micro-batch-size=${MICRO_BATCH_SIZE}"
+  "--global-batch-size=${GLOBAL_BATCH_SIZE}"
+  "--train-iters=3500"
+  "--lr=${LR:-2e-5}"
+  "--lr-decay-iters=320000"
+  "--lr-decay-style=cosine"
+  "--log-interval=1"
+  "--log-timers-to-tensorboard"
+  "--timing-log-level=1"
+  "--tensorboard-dir=${TB_DIR}"
+  "--eval-iters=100"
+  "--eval-interval=100"
+  "--data-path=${DATASET_PATH}"
+  "--save-interval=100"
+  "--split=100,0,0"
+  "--bf16"
+  "--zero-stage=${ZERO_STAGE}"
+  "--tokenizer-type=HFTokenizer"
+  "--tokenizer-model=meta-llama/${MODEL_NAME}"
+  "--deepspeed_config=${DS_CONFIG_PATH}"
+  "--deepspeed"
+  "--distributed-backend=$BACKEND"
+  "--num-workers=0"
+  "--no-masked-softmax-fusion"
+  "--no-bias-gelu-fusion"
+  "--no-bias-dropout-fusion"
+  "--no-gradient-accumulation-fusion"
+  "--repeated-dataloader"
+)
+
+# "--optimizer=adamw"
+# --tokenizer-model meta-llama/Llama-2-7B-hf \
+# --tokenizer-type HFTokenizer \
+# --tokenizer-model 'file:///flare/Aurora_deployment/meta-llama/70B/Llama-3.3-70B-Instruct' \
+# --tokenizer-model meta-llama/Llama-3-70B-Instruct \
+# --tokenizer-model ${HOME}/.llama/checkpoints/Llama3.3-70B-Instruct \
+#
+if [ "$1" = "convert_hf2mds" ]; then
+  task_args="$covert_hf2mds_args"
+elif [ "$1" = "convert_mds2hf" ]; then
+  task_args="$covert_mds2hf_args"
+else
+  task_args="$finetune_args"
+fi
+
+full_cmd="$task_args ${comm_args[*]}"
+
+OUTFILE="finetune-llama-$(tstamp).log"
+printf "full_cmd: %s\n" "${full_cmd}" | tee -a "${OUTFILE}"
+eval "$full_cmd" | tee -a "${OUTFILE}"
+wait $!
diff --git a/ALCF/helpers.sh b/ALCF/helpers.sh
index bc2adb26fa6..8fa0343e1ed 100644
--- a/ALCF/helpers.sh
+++ b/ALCF/helpers.sh
@@ -1,362 +1,1533 @@
 #!/bin/bash --login
+###############################################################################
+# [`ALCF/helpers.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/helpers.sh)
+#
+# Contains helper functions for launching `../train_alcf.sh`
+###############################################################################
 
+###############################################################################
+# Source:
+# [`ezpz/bin/utils.sh`](https://github.com/saforem2/ezpz/blob/main/src/ezpz/bin/utils.sh)
+# shellcheck disable=SC1090
+source <(curl -L https://bit.ly/ezpz-utils) >/dev/null || return 1
+ezpz_setup_job >/dev/null || exit
+###############################################################################
+
+##################
+# helpers_main
+#
+# This will get called automatically when running:
+#
+# ```bash
+# $ cd Megatron-DeepSpeed
+# $ PBS_O_WORKDIR=$(pwd) source ALCF/helpers.sh
+# ```
+#
+# - This will set `"${WORKING_DIR}"`, according to:
+#
+#       1. if `${PBS_O_WORKDIR}` is nonzero, use this
+#       2. else, if `${SLURM_SUBMIT_DIR}` is nonzero use this
+#       3. else, use `$(pwd)`
+#
+#   this is _crucial_ since many of the functions below use paths
+#   which are defined relative to this "${WORKING_DIR}"
+#   (e.g. virtual environment, location of executables, etc.)
+##################
+helpers_main() {
+	# NOTE: for debug mode, run with `DEBUG=1`
+	if [[ -n "${DEBUG:-}" ]]; then
+		set -euxo
+	fi
+	if [[ -n "${PBS_O_WORKDIR}" ]]; then
+		WORKING_DIR="${PBS_O_WORKDIR}"
+	elif [[ -n "${SLURM_SUBMIT_DIR}" ]]; then
+		WORKING_DIR="${SLURM_SUBMIT_DIR}"
+	else
+		echo "Unable to detect PBS or SLURM working directory info..."
+		WORKING_DIR=$(python3 -c 'import os; print(os.getcwd())')
+		echo "Using ${WORKING_DIR} as working directory..."
+	fi
+	export WORKING_DIR="${WORKING_DIR}"
+	printf "Using WORKING_DIR: %s\n" "${WORKING_DIR}"
+}
+
+##############################################################################
+# setup
+#
+# All-in-one helper function.
+#
+# - Explicitly, this will:
+#    - Identify the machine we're on
+#    - Setup `python`
+#       1. Load `conda`
+#       2. Setup `venv` on top of `conda`
+#    - Ensure all dependencies are installed
+#    - Clone + Install [`saforem2/ezpz`](https://github.com/saforem2/ezpz)
+#       - Source [`ezpz/utils.sh`](https://github.com/saforem2/ezpz/blob/main/src/ezpz/bin/utils.sh)
+#           - This provides `{ezpz_setup_python, ezpz_setup_job}` (called below)
+#    - Set runtime options
+#    - Build `deepspeed_config.json`
+#    - Build {logs, checkpoints, etc} dirs, named according to specifics of
+#       current run
+#    - Specify additional `deepspeed` arguments
+#    - Ensure executable exists at expected path
+#    - Setup data + tokenizer via `TOKENIZER_TYPE`
+#    - Print job info
+#    - Save `.env` to `CKPT_DIR` for safe keeping
+#    - Check that we're not already running, and if so, exit.
+#    - Setup run command to be executed.
+##############################################################################
+setup() {
+	# Identify machine we're on
+	mn=$(ezpz_get_machine_name)
+	export MACHINE="${mn}"
+	# get_machine || exit
+	##########################################################################
+	# # ezpz_setup will:
+	# # 1. Setup python
+	# #     - load base conda
+	# #     - (if necessary) create virtual environment on top of base conda
+	# #     - activate virtual environment from ^
+	# # 2. Install ezpz (if needed)
+	# # 3. Parse PBS_* environment variables to determine:
+	# #     - NHOSTS (by counting number of lines in $PBS_NODEFILE)
+	# #     - NGPU_PER_HOST (by magic)
+	# #     - NGPUS (= NHOSTS * NGPU_PER_HOST)
+	# # 4. Use these (^) to build our launch command
+	# ezpz_setup || exit
+	##########################################################################
+	# install_dependencies
+	# Set command line arguments to pass to `"${EXEC}"`
+	setParams || exit
+	# Create `deepspeed_config.json` from runtime params from ^
+	buildDSconfig || exit
+	# Specify output directory for {logs, checkpoints, etc.}
+	setup_checkpoint || exit
+	setOutput || exit
+	# Specify additional `deepspeed` arguments (dependent on _newly created_ variables)
+	set_args || exit
+	# Ensure executable exists in expected path
+	check_executable "${EXEC:-${WORKING_DIR}/pretrain_gpt_alcf.py}"
+	dfl="${DATA_FILE_LIST:-"${PBS_O_WORKDIR:-${HERE}}/ALCF/data-lists/$(ezpz_get_machine_name)/dolma.txt"}"
+	# Setup data + tokenizer via `DATA_FILE_LIST` and `TOKENIZER_TYPE`
+	tok="${TOKENIZER_TYPE:-HFTokenizer}"
+	setup_tokenizer_and_data "${tok}" "${dfl}" || exit
+	make_data || exit
+	# Print job info
+	printJobInfo || exit
+	# Save `.env` to `CKPT_DIR` for safe keeping
+	save_dotenv "${CKPT_DIR}" || exit
+	# Check that were not already running, if so, exit.
+	check_and_kill_if_running || exit
+	# Setup run command to be executed
+	setup_run_cmd "$@" || exit
+}
+
+#####################################################
+# setup_run_cmd
+#
+# Build run command to be executed.
+#####################################################
+setup_run_cmd() {
+	##############################
+	# take in additional arguments
+	# and append them directly to
+	# the end of the `run_cmd`
+	# custom_args="$@"
+	custom_args=("$@")
+	##############################
+	#### Make it easy to track experiments by date ###################
+	year="$(date "+%Y")"
+	month="$(date "+%m")"
+	day="$(date "+%Y-%m-%d")"
+	today="$(date "+%Y-%m-%d")" # kept for backwards compatibility
+	started_at="$(date "+%Y-%m-%d-%H%M%S")"
+	export YEAR="${year}"
+	export MONTH="${month}"
+	export DAY="${day}"
+	export TODAY="${today}"
+	export STARTED_AT="${started_at}"
+	##################################################################
+	# NOTE: to launch with DeepSpeed instead of mpiexec:
+	# `export LAUNCH_WITH=deepspeeed && bash train_llama_alcf.sh`
+	##################################################################
+	setupLauncher "${LAUNCH_WITH:-MPICH}" || exit
+	export data_cache_path="${CKPT_DIR}/${DATA_CACHE_PATH}" && mkdir -p "${data_cache_path}"
+	printf "\n"
+	echo "Using data_cache_path: ${data_cache_path}"
+	##################################################################
+	# WARN: to disable Llama-type architectures, toggle via:
+	# `NO_LLAMA=1 bash train_llama_alcf.sh`
+	##################################################################
+	if [[ -z "${NO_LLAMA:-}" ]]; then
+		llama_flags=(
+			"--swiglu"
+			"--hidden-dropout 0"
+			"--attention-dropout 0"
+			"--normalization rmsnorm"
+			"--disable-bias-linear"
+			"--no-query-key-layer-scaling"
+			"--use-rotary-position-embeddings"
+			"--untie-embeddings-and-output-weights"
+			"--num-key-value-heads ${NUM_KV_HEAD}"
+			"--ffn-hidden-size ${FFN_HIDDEN_SIZE}"
+		)
+	fi
+
+	tb_flags=()
+	if [[ -z "${NO_TENSORBOARD:-}" ]]; then
+		TBDIR="${CKPT_DIR}/tensorboard"
+		mkdir -p "${TBDIR}"
+		tb_flags+=(
+			"--log-timers-to-tensorboard"
+			"--log-optimizer-states-to-tensorboard"
+			"--tensorboard-dir ${TBDIR}"
+		)
+	fi
+	dfl_fallback="${DATA_FILE_LIST:-${PBS_O_WORKDIR}/ALCF/data-lists/$(ezpz_get_machine_name)/dolma.txt}"
+
+	train_args=()
+	if [[ -z "${OVERRIDE_CKPT_OPT_PARAM:-}" ]]; then
+		train_args+=("--use-checkpoint-opt_param-scheduler")
+	fi
+	# "--init-method-std ${INIT_METHOD_STD:-0.0006}"
+	# "--shuffle-sample"
+	train_args+=(
+		"${lr_flags[@]}"
+		"${custom_args[@]}"
+		"${llama_flags[@]}"
+		"${FLASH_ARG}"
+		"${TIMING_STR:-}"
+		"${DATA_FLAGS}"
+		"${TOKENIZER_FLAGS}"
+		"${tb_flags[@]}"
+		"${ds_args[@]}"
+		"--${DTYPE}"
+		"--accumulate-allreduce-grads-in-fp32"
+		"--adjust-word-embedding-init"
+		"--adam-beta1=${ADAM_BETA1:-0.9}"
+		"--adam-beta2=${ADAM_BETA2:-0.95}"
+		"--adam-eps=${ADAM_EPS:-0.00001}"
+		# "--blend-sample-in-corpus"
+		"--clip-grad=${CLIP_GRAD:-1.0}"
+		"--data-cache-path=${data_cache_path}"
+		"--data-file-list=${DATA_FILE_LIST:-${dfl_fallback}}"
+		"--distributed-backend=${BE}"
+		"--ds-sequence-parallel-size=${SP}"
+		"--eval-interval=${EVAL_INTERVAL:-100}"
+		"--eval-iters=${EVAL_ITERS:-20}"
+		"--global-batch-size=${GLOBAL_BATCH}"
+		"--hidden-size=${HIDDEN}"
+		"--init-method-std=$(echo "scale=6; sqrt(2 / (5 * ${HIDDEN}))" | bc -l)"
+		"--log-interval=${LOG_INTERVAL:-1}"
+		"--load=${LOAD:-${CKPT_DIR}}"
+		"--max-position-embeddings=$((16 * SEQ))"
+		"--micro-batch-size=${MICRO_BATCH}"
+		"--no-bias-gelu-fusion"
+		"--no-bias-dropout-fusion"
+		"--no-masked-softmax-fusion"
+		"--no-gradient-accumulation-fusion"
+		"--num-layers=${NLAYERS}"
+		"--num-attention-heads=${HEADS}"
+		"--optimizer=${OPT}"
+		"--pipeline-model-parallel-size=${PP}"
+		"--rotary-position-embeddings-theta=${ROPE_THETA:-50000}"
+		"--save=${SAVE:-${CKPT_DIR}}"
+		"--seq-length=${SEQ}"
+		"--split=${TRAIN_SPLIT:-990},${VAL_SPLIT:-10},${TEST_SPLIT:-0}"
+		"--shuffle-sample-in-corpus"
+		"--save-interval=${SAVE_INTERVAL:-50}"
+		"--train-iters=${TRAIN_ITERS}"
+		"--tensor-model-parallel-size=${TP}"
+		"--timing-log-level=${TIMING_LOG_LEVEL:-1}"
+		"--weight-decay=${WEIGHT_DECAY:-0.1}"
+		"--word-embedding-init-std=0.632455532"
+	)
+	declare -A arch_map
+	printf "==== ARCHITECTURE ====\n"
+	arch_map=(
+		["MODEL_ARCH"]="${MODEL_ARCH}"
+		["TP"]="${TP}"
+		["PP"]="${PP}"
+		["SP"]="${SP}"
+		["DP"]="${DP}"
+		["ZERO"]="${ZERO_STAGE}"
+		["MBS"]="${MICRO_BATCH}"
+		["GAS"]="${GRAD_ACC_STEPS}"
+		["GBS"]="${GLOBAL_BATCH}"
+		["NLAYERS"]="${NLAYERS}"
+		["HIDDEN"]="${HIDDEN}"
+		["HEADS"]="${HEADS}"
+		["SEQ"]="${SEQ}"
+		["FFN_HIDDEN_SIZE"]="${FFN_HIDDEN_SIZE}"
+		["NUM_KV_HEAD"]="${NUM_KV_HEAD}"
+		["USE_ACTIVATION_CHECKPOINTING"]="${USE_ACTIVATION_CHECKPOINTING:-0}"
+		["DTYPE"]="${DTYPE}"
+		["OPT"]="${OPT}"
+		# ["WEIGHT_DECAY"]="${WEIGHT_DECAY}"
+		# ["ADAM_BETA1"]="${ADAM_BETA1}"
+		# ["ADAM_BETA2"]="${ADAM_BETA2}"
+		# ["ADAM_EPS"]="${ADAM_EPS}"
+		# ["CLIP_GRAD"]="${CLIP_GRAD:-1.0}"
+	)
+	for v in "${!arch_map[@]}"; do
+		printf "%s: %s\n" "$(printGreen "${v}")" "$(printBlue "${arch_map[${v}]}")"
+	done
+	printf "======================\n"
+	# "--adam-eps ${ADAM_EPS:-0.00001}"
+	cache_dir="${PBS_O_WORKDIR}/.cache/"
+	mkdir -p "${cache_dir}"
+	targs_cache="${cache_dir}/train_args.txt"
+	for arg in "${train_args[@]}"; do echo "${arg}" >>"${targs_cache}"; done
+	export TRAIN_ARGS=("$(printf '%s\n' "${train_args[@]}" | sort)")
+	printf "Training Arguments: %s\n" "$(printBlue "${TRAIN_ARGS[@]}")"
+	export run_cmd=("${LAUNCHER}" "${train_args[@]}")
+}
+
+save_dotenv() {
+	if [[ "$#" -ne 1 ]]; then
+		estr="[error]"
+		printf "%s Expected one argument (outdir). Received: %s" "$(printRed "${estr}")" "$#"
+	else
+		outdir="$1"
+		mkdir -p "${outdir}"
+		module list
+		dotenv_file="${outdir}/.env"
+		echo "Saving environment to ${dotenv_file}"
+		printenv | grep -v "LS_COLORS" >"${dotenv_file}"
+		export DOTENV_FILE="${dotenv_file}"
+	fi
+}
+
+check_and_kill_if_running() {
+	RUNNING_PIDS=$(lsof -i:29500 -Fp | head -n 1 | sed 's/^p//')
+	if [[ -n "${RUNNING_PIDS}" ]]; then
+		echo "Caught ${RUNNING_PIDS}" && kill "${RUNNING_PIDS}"
+	else
+		echo "Not currently running. Continuing!"
+	fi
+}
+
+setupSrun() {
+	if [[ $(hostname) == login* || $(hostname) == nid* ]]; then
+		export NHOSTS="${SLURM_NNODES:-1}"
+		export NGPU_PER_HOST="${SLURM_GPUS_ON_NODE:-$(nvidia-smi -L | wc -l)}"
+		export NGPUS="$((NHOSTS * NGPU_PER_HOST))"
+		export SRUN_EXEC="srun --gpus ${NGPUS} --gpus-per-node ${NGPU_PER_HOST} -N ${NHOSTS} -n ${NGPUS} -l -u --verbose"
+	else
+		echo "Skipping setupSrun() on $(hostname)"
+	fi
+}
 
 printJobInfo() {
-    echo "++++++++++++++++++++++++++++++++++++++++++++++++++"
-    echo "- MPICH_DIR=$MPICH_DIR"
-    echo "- Using $(which python3)"
-    echo "- WORLD_SIZE:${WORLD_SIZE}"
-    echo "- NCCL: ${NCCL:-nccl}"
-    echo "- MODEL_TYPE: ${MODEL_TYPE}"
-    echo "- Using DATA_FILE_LIST: ${DATA_FILE_LIST}"
-    echo "++++++++++++++++++++++++++++++++++++++++++++++++++"
-}
-
-function setDSlauncher() {
-    # launcher setting
-    outdir=$1
-    # hfds=$1
-    # hfmpi=$2
-    # here=$(python3 -c 'import os; print(os.getcwd())')
-    export hfds="$outdir/hostfile_deepspeed"
-    export hfmpi="$outdir/hostfile_mpich"
-    [ -f "$hfds" ] || exit
-    [ -f "$hfmpi" ] || exit
-    export LAUNCHER=${LAUNCHER:-MPICH}
-    if [[ $LAUNCHER == "deepspeed" ]]; then
-        export launcher=""
-    else
-        export launcher="--force_multi --hostfile $hfds --launcher=${LAUNCHER} --launcher_args='-hostfile ${hfmpi}'"
-    fi
+	echo "++++++++++++++++++++++++++++++++++++++++++++++++++"
+	echo "- MPICH_DIR=${MPICH_DIR:-${MPI_ROOT:-}}"
+	echo "- Using $(which python3)"
+	echo "- WORLD_SIZE:${WORLD_SIZE-}"
+	echo "- BACKEND: ${BE:-}"
+	echo "- MODEL_TYPE: ${MODEL_TYPE:-}"
+	echo "- Using DATA_FILE_LIST: ${DATA_FILE_LIST:-}"
+	echo "++++++++++++++++++++++++++++++++++++++++++++++++++"
+}
+
+#############################################################################
+# setupLauncher: Launch with one of `{mpiexec, deepspeed}`.
+#
+# Explicitly, look for `LAUNCH_CMD` in environment and launch accordingly.
+# Will use `mpiexec` by default.
+# To launch with `deepspeed` instead, specify `LAUNCH_CMD=deepspeed`, e.g.
+#
+#     ```bash
+#     PBS_O_WORKDIR=$(pwd) LAUNCH_CMD=deepspeed bash train_llama_alcf.sh
+#     ```
+#
+# will launch with `deepspeed` instead of `mpiexec`.
+#############################################################################
+setupLauncher() {
+	shell_type=$(basename "${SHELL}")
+	if [[ "${shell_type}" == "bash" ]]; then
+		shopt -s expand_aliases
+	fi
+	if [[ "$#" == 1 ]]; then
+		local dist_launcher="$1"
+	else
+		local dist_launcher="${LAUNCH_WITH:-${LAUNCH_CMD:-"MPICH"}}"
+	fi
+	if [[ "${dist_launcher}" == "deepspeed" ]]; then
+		# Save {PATH, LD_LIBRARY_PATH, ...} to .deepspeed_env
+		saveDSenv || exit
+		# Assert `./hostfile_deepspeed` exists
+		export hfds="${WORKING_DIR}/hostfile_deepspeed"
+		make_ds_hostfile || exit
+		export LAUNCHER="deepspeed --hostfile $hfds --launcher MPICH ${EXEC}"
+	else
+		LAUNCHER="ezpz launch $(which python3) ${EXEC}"
+	fi
+	printf "Launching with: %s\n" "$(printRed "${dist_launcher}")"
+	printf " %s" "$(printMagenta "${LAUNCHER}")"
+}
+
+#########################################################################
+# `get_batch_size_on_polaris`: Identify MICRO_BATCH to use on Polaris.
+#
+# - In particular, it seems that different node counts allow for different
+#   `MICRO_BATCH` sizes.
+#
+#   Explicitly:
+#
+#       - [1 <= NHOSTS <= 2]: `MICRO_BATCH=1`
+#       - [3 <= NHOSTS <= 7]: `MICRO_BATCH=2`
+#       - [8 <= NHOSTS]:      `MICRO_BATCH=4`
+#
+#   are the largest batch sizes that fit in memory at various node counts.
+#########################################################################
+get_batch_size_on_polaris() {
+	if [[ $(hostname) == x3* ]]; then
+		nhosts=$(wc -l <"${HOSTFILE:-${PBS_NODEFILE}}")
+		if [[ "${nhosts}" == 1 || "${nhosts}" == 2 ]]; then
+			mbs=1
+		elif [[ "${nhosts}" -ge 3 && "${nhosts}" -le 7 ]]; then
+			mbs=2
+		elif [[ "${nhosts}" -ge 8 ]]; then
+			mbs=4
+		fi
+	fi
+	echo "${mbs}"
 }
 
+_get_num_hosts_from_hostfile() {
+	if [[ "$#" == 1 ]]; then
+		if [[ -f "$1" ]]; then
+			nhosts=$(wc -l <"$1")
+			echo "${nhosts}"
+		else
+			exit 1
+		fi
+	else
+		exit 1
+	fi
+}
+
+###########################################
+# get_grad_acc_steps_on_aurora
+#
+# NOTE:
+# We use different numbers of gradient
+# accumulation steps (GAS) depending
+# on the number of hosts in our job.
+#
+# Each host has:
+#
+#   [2 tiles] x [6 xpus / tile] = 12 xpus
+#
+# |     nnhosts     |   nhosts   |  GAS  |
+# |:---------------:|:----------:|:-----:|
+# | 256 <= n < inf  | [256, inf) |   1   |
+# | 128 <= n < 256  | [128, 256) |   2   |
+# |  32 <= n < 128  | [32, 128)  |   4   |
+# |  16 <= n < 32   | [16, 32)   |   8   |
+# |   0 <= n < 16   | [0, 16)    |  16   |
+#
+###########################################
+get_grad_acc_steps_on_aurora() {
+	if [[ "$#" == 0 ]]; then
+		hf="${HOSTFILE:-${PBS_NODEFILE:-$(ezpz_get_pbs_nodefile_from_hostname)}}"
+	elif [[ "$#" == 1 ]]; then
+		hf="$1"
+	else
+		echo "Usage: get_grad_acc_steps_on_aurora"
+		echo "Expected exactly 0 or 1 arguments, received: $#"
+		exit 1
+	fi
+	nhosts=$(wc -l <"${hf}")
+	if [[ "${nhosts}" -ge 256 ]]; then #   n >= 256
+		gas=1
+	elif [[ 128 -le "${nhosts}" && "${nhosts}" -lt 256 ]]; then # 128 <= n < 256
+		gas=2
+	elif [[ 32 -lt "${nhosts}" && "${nhosts}" -lt 129 ]]; then #  32 < n  < 128
+		gas=4
+	elif [[ 16 -le "${nhosts}" && "${nhosts}" -le 32 ]]; then #  16 <= n < 32
+		gas=8
+	else
+		gas=16
+	fi
+	echo "${gas}"
+}
+
+set_ccl_vars_on_aurora() {
+	export CCL_KVS_MODE=mpi
+	export CCL_CONFIGURATION_PATH=""
+	export CCL_CONFIGURATION=cpu_gpu_dpcpp
+	# export CCL_ROOT=/tmp/oneccl/
+	# export LD_LIBRARY_PATH=${CCL_ROOT}/lib:$LD_LIBRARY_PATH
+	# export CPATH=${CCL_ROOT}/include:$CPATH
+	# export LIBRARY_PATH=${CCL_ROOT}/lib:$LIBRARY_PATH
+	export CCL_KVS_CONNECTION_TIMEOUT=3600
+	export FI_CXI_RX_MATCH_MODE=hybrid
+	export CCL_BCAST=double_tree
+
+	export ZE_ENABLE_PCI_ID_DEVICE_ORDER=1
+	export CCL_PROCESS_LAUNCHER=pmix # Required by Aurora mpich
+	export FI_PROVIDER=cxi           # Required by Aurora mpich
+	export PALS_PMI=pmix             # Required by Aurora mpich
+	# export CCL_ATL_TRANSPORT=mpi     # Required by Aurora mpich
+	export CCL_ATL_TRANSPORT=ofi # [SF]: Changed 04/30/2025
+	export TORCH_LLM_ALLREDUCE=1
+	export CCL_SYCL_ESIMD=1
+	export CCL_ALLGATHERV_MEDIUM_SIZE_THRESHOLD=0 # Required by current oneCCL (MLSL-2881)
+	export CCL_ENABLE_SYCL_KERNELS=1
+	export CCL_WORKER_AFFINITY=5,13,21,29,37,45,57,65,73,81,89,97
+	export CCL_ZE_CACHE_OPEN_IPC_HANDLES_THRESHOLD=32768
+	export FI_CXI_DEFAULT_CQ_SIZE=1048576
+	export FI_CXI_RX_MATCH_MODE=hybrid
+	export CCL_BCAST=double_tree
+}
+
+get_model_arch_AuroraGPT_2B() {
+	# AuroraGPT-2B
+	export HEADS=16
+	export NLAYERS=12
+	export HIDDEN=2048
+	export NUM_KV_HEAD=4
+	export FFN_HIDDEN_SIZE=11008
+	export SEQ=8192
+	export MODEL_ARCH="AuroraGPT-2B"
+}
+
+get_model_arch_7B() {
+	# 7B
+	# export MODEL_KEY="AuroraGPT-7B"
+	export HEADS=${HEADS:-${NHEADS:-32}}             # NUMBER OF ATEN HEADS
+	export NLAYERS=${NLAYERS:-${NUM_LAYERS:-32}}     # NUMBER OF LAYERS
+	export HIDDEN=${HIDDEN:-4096}                    # HIDDEN SIZE
+	export NUM_KV_HEAD=${NUM_KV_HEAD:-8}             # GROUP ATTENTION
+	export FFN_HIDDEN_SIZE=${FFN_HIDDEN_SIZE:-11008} # FFN HIDDEN SIZE
+	export SEQ=${SEQ:-4096}                          # SEQ_LEN: 4096
+	export MODEL_ARCH="AuroraGPT-7B"
+}
+
+get_model_arch_llama3_3B() {
+	export HEADS=24
+	export NLAYERS=28
+	export HIDDEN=3072
+	export NUM_KV_HEAD=8
+	export FFN_HIDDEN_SIZE=8192
+	export SEQ=8192
+	export MODEL_ARCH="llama3-3B"
+}
+
+get_model_arch_smollm3_3B() {
+	export HEADS=16
+	export NLAYERS=36
+	export HIDDEN=2048
+	export NUM_KV_HEAD=4
+	export FFN_HIDDEN_SIZE=11008
+	export SEQ=8192
+	export MODEL_ARCH="smollm3-3B"
+}
+
+get_model_arch_phi4_mini() {
+	export HEADS=32
+	export NLAYERS=24
+	export HIDDEN=3072
+	export NUM_KV_HEAD=8
+	export FFN_HIDDEN_SIZE=8192
+	export SEQ=8192
+	export MODEL_ARCH="phi4-mini"
+}
+
+get_model_arch_llama3_3B_customNlayers() {
+	export HEADS=24
+	export NLAYERS="${NLAYERS:-28}" # default to 28 layers
+	export HIDDEN=3072
+	export NUM_KV_HEAD=8
+	export FFN_HIDDEN_SIZE=8192
+	export SEQ=8192
+	export MODEL_ARCH="llama3-3B-nLayers${NLAYERS}"
+}
+
+get_model_arch_smollm3_3B_custom_nLayers() {
+	export HEADS=16
+	export NLAYERS="${NLAYERS:-24}" # default to 24 layers
+	export HIDDEN=2048
+	export NUM_KV_HEAD=4
+	export FFN_HIDDEN_SIZE=11008
+	export SEQ=8192
+	export MODEL_ARCH="smollm3-nLayers${NLAYERS}"
+}
+
+get_model_arch_phi4_mini_custom_nLayers() {
+	export HEADS=32
+	export NLAYERS="${NLAYERS:-24}" # default to 24 layers
+	export HIDDEN=3072
+	export NUM_KV_HEAD=8
+	export FFN_HIDDEN_SIZE=8192
+	export SEQ=8192
+	export MODEL_ARCH="phi4-mini-nLayers${NLAYERS}"
+}
+
+# get_model_arch_70B() {
+#     # 70B
+#     export MODEL_KEY="AuroraGPT-70B"
+#     export TP=6
+#     export ZERO_STAGE=2
+#     export GRAD_ACC_STEPS=1
+#     export USE_ACTIVATION_CHECKPOINTING=1
+#     export MICRO_BATCH=1
+#     export NLAYERS=80
+#     export HIDDEN=8192
+#     export HEADS=96
+#     export FFN_HIDDEN_SIZE=11040
+#     export SEQ=8192
+#     export NUM_KV_HEAD=6
+# }
+#
+get_model_arch_70B() {
+	HEADS=64
+	NLAYERS=80
+	NUM_KV_HEAD=8
+	FFN_HIDDEN_SIZE=28672
+	HIDDEN=8192
+	SEQ=8192
+	export MODEL_ARCH="AuroraGPT-70B"
+}
+
+get_model_arch_33B() {
+	# 33B
+	export MODEL_KEY="AuroraGPT-33B"
+	export TP=6
+	export ZERO_STAGE=2
+	export GRAD_ACC_STEPS=1
+	# export USE_ACTIVATION_CHECKPOINTING=1
+	export MICRO_BATCH=1
+	export NLAYERS=78
+	export HIDDEN=8268
+	export HEADS=78
+	export FFN_HIDDEN_SIZE=11076
+	export SEQ=4096
+	export NUM_KV_HEAD=6
+	export MODEL_ARCH="AuroraGPT-33B"
+}
+
+##############################################################################
+# setParams
+#
+# Set / configure run options by parsing environment.
+#
+# - any of the declared options below can be overridden
+#     dynamically at runtime, e.g. to run with a `MICRO_BATCH` size of 2:
+#         ```bash
+#         $ PBS_O_WORKDIR=$(pwd) MICRO_BATCH=2 bash train_llama_alcf.sh
+#         ```
+##############################################################################
 setParams() {
-    # ---- [Parallelism Settings] --------------------------------------------
-    # -------- [Aurora] ---- || ----- [SunSpot] ------------
-    if [[ $(hostname) == x4* || $(hostname) == x1* ]]; then
-        TP=${TP:-1}                      # TP = 1
-        PP=${PP:-1}                      # PP = 1
-        export CCL=${CCL:-ccl}           # CCL
-        export BE="${CCL}"               # BE = CCL
-        export DTYPE=${DTYPE:-bf16}      # DTYPE: bf16
-        MICRO_BATCH=${MICRO_BATCH:-4}    # MICRO_BATCH = 4
-        echo "!!!! Using CPU_OPTIMIZER on Intel XPU by Default !!!!"
-        export CPU_OPTIMIZER=${CPU_OPTIMIZER:-1}  # CPU OPTIMIZER ON INTEL XPU
-    # -------- [Polaris] -----------------------------------
-    elif [[ $(hostname) == x3* ]]; then
-        TP=${TP:-2}                      # TP = 2
-        PP=${PP:-1}                      # PP = 1
-        export NCCL=${NCCL:-nccl}        # NCCL
-        export BE="${NCCL}"              # BE = NCCL
-        # export DTYPE=${DTYPE:-bf16}      # DTYPE: BF16 ??
-        export DTYPE=${DTYPE:-fp16}      # DTYPE: FP16
-        MICRO_BATCH=${MICRO_BATCH:-8}    # MICRO_BATCH = 8
-    fi
-    # ------------------------------------------------------------------------
-    export PP="${PP}"
-    export TP="${TP}"
-    export HOSTFILE="${HOSTFILE:-${PBS_NODEFILE}}"
-    export WORLD_SIZE=${WORLD_SIZE:-$(wc -l < "${HOSTFILE}")}
-    # ---- Llama2 7B Config ------------------------------
-    export MODEL_KEY="Llama-7B"
-    export HEADS=${HEADS:-32}
-    export NLAYERS=${NLAYERS:-32}
-    export HIDDEN=${HIDDEN:-4096}
-    export NUM_KV_HEAD=${NUM_KV_HEAD:-8}
-    export FFN_HIDDEN_SIZE=${FFN_HIDDEN_SIZE:-11008}
-    # ---- Run Settings ----------------------------------
-    export LR=${LR:-0.0003}
-    export SEQ=${SEQ:-4096}                       # SEQ_LEN: 4096
-    export ZERO_STAGE=${ZERO_STAGE:-2}
-    export MICRO_BATCH=${MICRO_BATCH:-8}
-    export GRAD_ACC_STEPS=${GRAD_ACC_STEPS:-1}
-    export EVAL_ITERS="${EVAL_ITERS:-10}"
-    export TRAIN_ITER=${TRAIN_ITER:-317892}
-    export EVAL_INTERVAL="${EVAL_INTERVAL:-50000}"
-    export SAVE_INTERVAL=${SAVE_INTERVAL:-200}
-    export USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING:-1}
-    # export USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING:-0}
-    # export GLOBAL_BATCH=$(( $WORLD_SIZE * $MICRO_BATCH * $GRAD_ACC_STEPS / $TP / $PP ))
-    export GLOBAL_BATCH_MAX=$(( $WORLD_SIZE * $MICRO_BATCH * $GRAD_ACC_STEPS / $TP / $PP ))
-    export GLOBAL_BATCH="${GLOBAL_BATCH:-${GLOBAL_BATCH_MAX}}"
-    tm="${PBS_O_WORKDIR}/ALCF/tokenizer.model"
-    # tm_a=/home/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/tokenizer.model
-    # tm_p="/eagle/datasets/dolma/utils/tokenizer.model"
-    # export TOKENIZER_MODEL="${TOKENIZER_MODEL:-${tm_p:-${tm_a}}}"
-    export TOKENIZER_MODEL="${TOKENIZER_MODEL:-${tm}}"
-    export MODEL_TYPE="llama-seq${SEQ}-pp${PP}-tp${TP}-${NLAYERS}layers-${HEADS}heads-${HIDDEN}hidden"
-    export LLAMA_ARGS="--no-query-key-layer-scaling --use-rotary-position-embeddings --untie-embeddings-and-output-weights --swiglu --normalization rmsnorm --disable-bias-linear"
-    # if [[ "${CPU_OPTIMIZER:-0}" ]]; then
-    if [[ -n "${CPU_OPTIMIZER}" ]]; then
-        echo "\n!!! Appending \`--cpu-optimizer\` to LLAMA_ARGS..."
-        export LLAMA_ARGS="${LLAMA_ARGS} --cpu-optimizer"
-    fi
-    # ----------------------------------------------------
-}
-
-
-setArgs() {
-    # ---- Set DeepSpeed arguments --------------------------------
-    ds_args=" "
-    ds_args=" --deepspeed ${ds_args}"
-    if [[ $PP == 1 ]]; then
-       ds_args=" --no-pipeline-parallel ${ds_args}" 
-    fi
-    ds_args=" --deepspeed_config=$DS_CONFIG ${ds_args}"
-    ds_args=" --zero-stage=$ZERO_STAGE ${ds_args}"
-    if [[ "$USE_ACTIVATION_CHECKPOINTING" == 1 ]]; then
-        echo "!! Caught USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING} !!"
-        ds_args=" --deepspeed-activation-checkpointing ${ds_args}"
-        # --checkpoint-activations \
-        # --deepspeed-activation-checkpointing
-    fi
-    export ds_args
-    # ---------------------------------------------------------------
-    gpt_args=()
-    # we are now using activation checkpoint provided by megatron, see below.
-    # ds_args=" --deepspeed-activation-checkpointing ${ds_args}"
-    if [[ "$USE_ACTIVATION_CHECKPOINTING" == 1 ]]; then
-        echo "!! Caught USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING} !!"
-        gpt_args+=(
-            "--checkpoint-activations"
-            "--checkpoint-num-layers 1"
-        )
-    fi
-    export gpt_args
-}
-
-ezpz() {
-    if [[ ! -d ezpz ]]; then
-        git clone https://github.com/saforem2/ezpz
-    else
-        echo "Found ezpz!"
-    fi
-    if python3 -c 'import ezpz; print(ezpz.__file__)' 2> '/dev/null'; then
-        echo "Has ezpz installed. Nothing to do."
-    else
-        echo "Does not have ezpz installed. Installing..."
-        echo "Using $(which python3) to install \`ezpz\`:"
-        python3 -m pip install -e ezpz > ezpz-install.log 2>&1
-    fi
-    echo "Done with ezpz."
-    # source ezpz/src/ezpz/bin/savejobenv || exit  # > /tmp/savejobenv.log 2>&1 || exit
-    # source ezpz/src/ezpz/bin/getjobenv || exit
+	FLASH_ARG=""
+	# ---- [Parallelism Settings] -------------------------------------------+
+	# ------ [Aurora] -------||------ [SunSpot] -------------
+	# if [[ $(hostname) == x4* || $(hostname) == x1* ]]; then
+	GIT_BRANCH=$(git branch --show-current) && export GIT_BRANCH
+	mn=$(ezpz_get_machine_name)
+	if [[ "${mn}" == "aurora" || "${mn}" == "sunspot" ]]; then
+		TP=${TP:-1} # TP = 1
+		export SAVE_INTERVAL="${SAVE_INTERVAL:-50}"
+		export CCL=${CCL:-ccl}      # CCL
+		export BE="${CCL}"          # COMMUNICATION BACKEND = CCL
+		export DTYPE=${DTYPE:-bf16} # DTYPE: bf16
+		# export GRAD_ACC_STEPS=${GRAD_ACC_STEPS:-1}     # GRADIENT_ACC_STEPS
+		gas=$(get_grad_acc_steps_on_aurora "${PBS_NODEFILE:-${HOSTFILE:-${hostfile}}}")
+		export GRAD_ACC_STEPS="${GRAD_ACC_STEPS:-${gas}}"
+		# export GRAD_ACC_STEPS="${GRAD_ACC_STEPS:-$(get_grad_acc_steps_on_aurora "$@)}"
+		echo "[setParams] Using GRAD_ACC_STEPS: ${GRAD_ACC_STEPS}"
+		MICRO_BATCH=${MICRO_BATCH:-1}
+		if [[ -n "${NO_FLASH_ATTN-}" ]]; then
+			echo "Not using flash-attn!!"
+		else
+			FLASH_ARG="--use-flash-attn-builder"
+		fi
+	# [Polaris]
+	elif [[ "${mn}" == "polaris" || "${mn}" == "sirius" ]]; then
+		# export LAUNCH_CMD="${LAUNCH_CMD:-deepspeed}"
+		TP=${TP:-1}               # TP = 2
+		export NCCL=${NCCL:-nccl} # NCCL
+		export BE="${NCCL}"       # BE = NCCL
+		# export DTYPE=${DTYPE:-bf16}                   # DTYPE: BF16 ??
+		export DTYPE=${DTYPE:-fp16}                # DTYPE: FP16
+		export GRAD_ACC_STEPS=${GRAD_ACC_STEPS:-8} # GRADIENT_ACC_STEPS
+		# NOTE: MICRO_BATCH is exported below
+		# MICRO_BATCH=${MICRO_BATCH:-2}    # MICRO_BATCH = 8
+		export MICRO_BATCH="${MICRO_BATCH:-$(get_batch_size_on_polaris)}"
+		if [[ -n "${NO_FLASH_ATTN:-}" ]]; then
+			echo "Not using flash-attn!!"
+		else
+			FLASH_ARG="--use-flash-attn-v2"
+		fi
+		echo "Setting up AWS NCCL OFI Plugin on Polaris..."
+		source "${WORKING_DIR}/ALCF/aws_ofi_nccl_plugin.sh" || exit
+	# ---- [Sophia] ----------------------
+	elif [[ "${mn}" == sophia* ]]; then
+		# export LAUNCH_CMD="${LAUNCH_CMD:-deepspeed}"
+		TP=${TP:-1}                                # TP = 2
+		export NCCL=${NCCL:-nccl}                  # NCCL
+		export BE="${NCCL}"                        # BE = NCCL
+		export DTYPE=${DTYPE:-bf16}                # DTYPE: FP16
+		export GRAD_ACC_STEPS=${GRAD_ACC_STEPS:-8} # GRADIENT_ACC_STEPS
+		export MICRO_BATCH="${MICRO_BATCH:-$(get_batch_size_on_polaris)}"
+		if [[ -n "${NO_FLASH_ATTN-}" ]]; then
+			echo "Not using flash-attn!!"
+		else
+			FLASH_ARG="--use-flash-attn-v2"
+		fi
+		# echo "Setting up AWS NCCL OFI Plugin on Polaris..."
+		# source "${WORKING_DIR}/ALCF/aws_ofi_nccl_plugin.sh" || exit
+	# [Perlmutter]
+	elif [[ "${mn}" == login* || "${mn}" == nid* ]]; then
+		TP="${TP:-2}"
+		export NCCL="${NCCL:-nccl}"
+		export BE="${NCCL}"
+		export DTYPE="${DTYPE:-bf16}"
+		MICRO_BATCH="${MICRO_BATCH:-1}"
+		if [[ -n "${NO_FLASH_ATTN-}" ]]; then
+			echo "Not using flash-attn!!"
+		else
+			FLASH_ARG="--use-flash-attn-v2"
+		fi
+	fi
+	ma="${MODEL_ARCH:-7B}"
+	case "${ma}" in
+	# "70B" | "llama-3.1-70B" | "llama-3.1-70b" | "llama-3.2-70B" | "llama-3.2-70b")
+	"70B")
+		get_model_arch_70B
+		;;
+	"33B" | "llama-3.2-33B" | "llama-3.2-33b")
+		get_model_arch_33B
+		;;
+	"smollm3-3B" | "smollm3_3B")
+		get_model_arch_smollm3_3B_custom_nLayers
+		;;
+	"phi4-mini" | "phi4_mini")
+		get_model_arch_phi4_mini_custom_nLayers
+		;;
+	"llama3-3B" | "llama-3B")
+		get_model_arch_llama3_3B_customNlayers
+		;;
+	"2B" | "AuroraGPT-2B" | "AuroraGPT_2B" | "Aurora-GPT-2B" | "AuroraGPT2B" | "Aurora_GPT_2B" | "aurora-gpt-2b" | "aurora_gpt_2b")
+		get_model_arch_AuroraGPT_2B
+		;;
+	"7B" | "AuroraGPT-7B" | "aurora-gpt-7b" | "llama-3.1-7B" | "llama-3.1-7b" | "llama-3.2-7B" | "llama-3.2-7b")
+		get_model_arch_7B
+		;;
+	*)
+		get_model_arch_7B
+		;;
+	esac
+	export TP="${TP}"
+	export PP="${PP:-1}"
+	export SP="${SP:-1}"
+	export FLASH_ARG="${FLASH_ARG}"
+	export DTYPE="${DTYPE:-bf16}"
+	OPT="${OPT:-${OPTIMIZER:-${OPTIM:-adamw}}}"
+	export OPT
+	log_message INFO "❗ Using OPT: ${OPT}"
+	export WEIGHT_DECAY="${WEIGHT_DECAY:-0.1}"
+	export HOSTFILE="${HOSTFILE:-${PBS_NODEFILE}}"
+	NHOSTS=$(wc -l <"${HOSTFILE}")
+	if [[ -z "${NGPU_PER_HOST:-}" ]]; then
+		NGPU_PER_HOST=$(python3 -c 'import ezpz as ez; print(ez.get_gpus_per_node())')
+	fi
+	export NGPU_PER_HOST="${NGPU_PER_HOST}"
+	export WORLD_SIZE="${WORLD_SIZE:-$((NHOSTS * NGPU_PER_HOST))}"
+	# if [[ "${WORLD_SIZE}" -gt 1 && "${mn}" == "aurora" ]]; then
+	#     #### [sam: 08/17/2024] ##########################################
+	#     # Use best set of CCL env vars from Gordon Bell runs on Aurora
+	#     set_ccl_vars_on_aurora
+	# fi
+	# + --[LR Settings]------------------------------------------------------+
+	export LR="${LR:-0.0002}"
+	export LR_DECAY_STYLE="${LR_DECAY_STYLE:-cosine}"
+	export LR_WARMUP_FRAC="${LR_WARMUP_FRAC:-0.05}"
+	lr_flags=(
+		"--lr ${LR}"
+		"--lr-decay-style ${LR_DECAY_STYLE}"
+		"--lr-warmup-fraction ${LR_WARMUP_FRAC}"
+	)
+	if [[ -n "${LR_DECAY_ITERS:-}" ]]; then
+		lr_flags+=("--lr-decay-iters ${LR_DECAY_ITERS:-}")
+	fi
+	# +---[Run Settings]------------------------------------------------------+
+	export ZERO_STAGE=${ZERO_STAGE:-1}                                                    # ZERO OFFLOADING STAGE
+	export MICRO_BATCH=${MICRO_BATCH:-1}                                                  # MICRO BATCH SIZE
+	export GRAD_ACC_STEPS=${GRAD_ACC_STEPS:-1}                                            # GRADIENT ACCUMULATION STEPS
+	export TIMING_LOG_LEVEL="${TIMING_LOG_LEVEL:-1}"                                      # TIMING VERBOSITY IN LOGS
+	export ACT_CKPT_NUM_LAYERS="${ACT_CKPT_NUM_LAYERS:-1}"                                # NUM LAYERS TO CHECKPOINT ACTIVATIONS
+	export USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING:-}                 # USE ACTIVATION CHECKPOINTING ?
+	export GLOBAL_BATCH_MAX=$((WORLD_SIZE * MICRO_BATCH * GRAD_ACC_STEPS / TP / PP / SP)) # MAX GLOBAL BATCH SIZE
+	export DP=$((WORLD_SIZE / TP / PP / SP))                                              # DATA PARALLELISM
+	export GLOBAL_BATCH="${GLOBAL_BATCH:-${GLOBAL_BATCH_MAX}}"                            # WILL USE MAX IF NOT SET IN ENVIRONMENT
+	echo "WORLD_SIZE: ${WORLD_SIZE} MBS: ${MICRO_BATCH} GAS: ${GRAD_ACC_STEPS} DP: ${DP} GBS: ${GLOBAL_BATCH} GBS_MAX: ${GLOBAL_BATCH_MAX} TP: ${TP} PP: ${PP} SP: ${SP}"
+	if [[ -n "${TRAIN_TOKENS:-}" ]]; then
+		export TRAIN_TOKENS="${TRAIN_TOKENS}"
+		export TRAIN_ITERS=$((TRAIN_TOKENS / SEQ / GLOBAL_BATCH))
+		printf "TRAIN_TOKENS=%s (=%sB tokens)\n" "${TRAIN_TOKENS}" "$((TRAIN_TOKENS / 10 ** 9))"
+		printf "TRAIN_ITERS=%s\n" "${TRAIN_ITERS}"
+	elif [[ -z "${TRAIN_ITERS:-${TRAIN_ITER:-}}" ]]; then
+		export TRAIN_TOKENS=${TRAIN_TOKENS:-4673780159710}
+		export TRAIN_ITERS=$((TRAIN_TOKENS / SEQ / GLOBAL_BATCH))
+		printf "TRAIN_TOKENS=%s (=%sB tokens)\n" "${TRAIN_TOKENS}" "$((TRAIN_TOKENS / 10 ** 9))"
+		printf "TRAIN_ITERS=%s\n" "${TRAIN_ITERS}"
+	else
+		export TRAIN_ITERS="${TRAIN_ITERS:-${TRAIN_ITER:-}}"
+	fi
+	export MODEL_TYPE="${MODEL_ARCH:-AuroraGPT}-gb${GLOBAL_BATCH}-seq${SEQ}-pp${PP}-tp${TP}-${NLAYERS}layers-${HEADS}heads-${HIDDEN}hidden" # STRING FOR IDENTIFYING MODEL
+	# NOTE: [2024-07-10] #####################################################
+	# - [sam]: For whatever reason, it seems that using
+	#   sequence-parallelism (SP) > 1 is INCOMPATIBLE with
+	#   rotary-position-embeddings (ROPE).
+	#
+	#   For this reason, we only use the default LLAMA_ARGS when SP=0.
+	##########################################################################
+	# # -----[Learning Rate Settings]--------------------------------------------
+	# export LR=${LR:-0.0002}                       # LEARNING_RATE
+	# export LR_WARMUP_FRAC=${LR_WARMUP_FRAC:-0.05} # LEARNING RATE WARMUP
+	# export LR_DECAY_ITERS=${LR_DECAY_ITERS:-}     # LR DECAY ITERS
+	# set_lr_args
+	# -----[Learning Rate Settings]--------------------------------------------
+	# # if [[ "${TIMING_LOG_LEVEL:-1}" -gt 1 ]]; then
+	# if [[ "${TIMING_LOG_LEVEL:-1}" -gt 1 ]]; then
+	#     TIMING_STR="\
+	#         --timing-log-level ${TIMING_LOG_LEVEL}"
+	#     # "
+	# else
+	#     TIMING_STR=""
+	# fi
 }
 
+##############################################
+# set_args
+#
+# Specify additional (DeepSpeed specific)
+# arguments to pass to pretrain_gpt_alcf.py
+##############################################
+set_args() {
+	# ---- Set DeepSpeed arguments --------------------------------
+	ds_args=(
+		"--deepspeed"
+	)
+	if [[ "${PP:-1}" == 1 ]]; then
+		ds_args+=("--no-pipeline-parallel")
+	fi
+	ds_args+=("--deepspeed_config=${DS_CONFIG}")
+	ds_args+=("--zero-stage=$ZERO_STAGE")
+	# if [[ -n "${USE_ACTIVATION_CHECKPOINTING:-}" ]]; then
+	if [[ "${USE_ACTIVATION_CHECKPOINTING:-}" == 1 || "${USE_ACTIVATION_CHECKPOINTING:-}" == "true" ]]; then
+		echo "!! Caught USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING} !!"
+		ds_args+=("--deepspeed-activation-checkpointing")
+		ds_args+=(
+			"--checkpoint-activations"
+			"--checkpoint-num-layers=${ACT_CKPT_NUM_LAYERS:-1}"
+		)
+		# ds_args=" --deepspeed-activation-checkpointing ${ds_args}"
+		# --checkpoint-activations \
+		# --deepspeed-activation-checkpointing
+	fi
+	export ds_args
+}
+
+make_ds_hostfile() {
+	export GPUS_PER_NODE="${GPUS_PER_NODE:-${NGPU_PER_HOST:-${SLURM_GPUS_ON_NODE:-$(nvidia-smi -L | wc -l)}}}"
+	# ---- Make MPICH hostfile ----------------
+	hf="${HOSTFILE:-${PBS_NODEFILE}}"
+	export hostfile_mpich=hostfile_mpich
+	cat "${hf}" >"${hostfile_mpich}"
+	# ---- Make DeepSpeed hostfile -------------------
+	export hostfile_deepspeed=hostfile_deepspeed
+	cat "${hf}" >"${hostfile_deepspeed}"
+	sed -e "s/$/ slots=${GPUS_PER_NODE}/" -i "${hostfile_deepspeed}"
+}
+
+#######################################################################
+# ezpz_test: Run simple test to make sure all nodes in working order
+#######################################################################
+ezpz_test() {
+	printf "%s" "[$(printBlue 'ezpz:test_dist')][INFO] Running ezpz.test_dist...\n"
+	# [ -n "${PBS_O_WORKIR}" ] && ezpz_savejobenv || ezpz_getjobenv
+	# python3 -Wignore -m ezpz.jobs && source "${PBS_O_WORKDIR}/.jobenv"
+	printf "%s" "[$(printBlue 'ezpz:test_dist')] Running test: ${eztest}\n"
+	eztest="TRAIN_ITERS=50 ${LAUNCH_CMD} python3 -Wignore -m ezpz.test_dist"
+	eval "${eztest}"
+	printf "%s" "[$(printBlue 'ezpz:test_dist')] Done with test!\n"
+}
+
+############################################################################
+# saveDSenv
+#
+# Save important environment variables to .deepspeed_env, which will be
+# forwarded to ALL ranks with DeepSpeed
+############################################################################
 saveDSenv() {
-    echo "Saving {PATH, LD_LIBRARY_PATH, htt{p,ps}_proxy, CFLAGS, PYTHONUSERBASE} to .deepspeed_env"
-    {
-        echo "PATH=${PATH}" ;
-        echo "LD_LIBRARY_PATH=${LD_LIBRARY_PATH}" ;
-        echo "http_proxy=${http_proxy}" ;
-        echo "https_proxy=${https_proxy}" ;
-        echo "CFLAGS=${CFLAGS}" ;
-        echo "PYTHONUSERBASE=$PYTHONUSERBASE" ;
-    } > .deepspeed_env
+	echo "Saving {PATH, LD_LIBRARY_PATH, htt{p,ps}_proxy, CFLAGS, PYTHONUSERBASE} to .deepspeed_env"
+	{
+		echo "PATH=${PATH:-}"
+		echo "LD_LIBRARY_PATH=${LD_LIBRARY_PATH:-}"
+		echo "http_proxy=${http_proxy:-}"
+		echo "https_proxy=${https_proxy:-}"
+		echo "CFLAGS=${CFLAGS:-}"
+		echo "PYTHONUSERBASE=${PYTHONUSERBASE:-}"
+	} >.deepspeed_env
+}
+
+get_output_prefix() {
+	# ---- Specify output location --------------------------------
+	pre="ws${WORLD_SIZE}-ds-stage${ZERO_STAGE}-nl${NLAYERS}"
+	pre="${pre}-hs${HIDDEN}-mb${MICRO_BATCH}"
+	pre="${pre}-seq${SEQ}-gb${GLOBAL_BATCH}"
+	pre="${pre}-sp${SP}-pp${PP}-tp${TP}-${DTYPE}-opt${OPT}"
+	pre="${pre}-lr${LR}-lwf${LR_WARMUP_FRAC}"
+	pre="${MODEL_ARCH:-AuroraGPT}-${pre}"
+	local num_tokens_in_billions
+	num_tokens_in_billions=$((TRAIN_TOKENS / 10 ** 9))
+	pre="${pre}_ntok${num_tokens_in_billions}B"
+	if [[ -n "${TOKENIZER_TYPE:-}" ]]; then
+		# _tok="${TOKENIZER_TYPE/Tokenizer//}" # Strip "Tokenizer" suffix if present
+		_tok=$(echo "${TOKENIZER_TYPE}" | sed 's/Tokenizer//g') # noqa
+		pre="${pre}_tok${_tok}"
+	fi
+	if [[ -n "${TOKENIZER_MODEL:-}" ]]; then
+		# _tm=$(echo "${TOKENIZER_MODEL}" | sed 's/\/_/g') # noqa
+		# replace slashes with underscores
+		_tm="${TOKENIZER_MODEL//\//_}" # noqa
+		pre="${pre}_tm${_tm}"
+	fi
+	if [[ -n "${LR_DECAY_ITERS}" ]]; then
+		pre="${pre}_ldi${LR_DECAY_ITERS}"
+	fi
+	if [[ -z "${NO_FLASH_ATTN:-}" ]]; then
+		pre="${pre}_flash"
+	fi
+	export OUTPUT_PREFIX="${pre}"
+	echo "${pre}"
 }
 
 setOutput() {
-    # ---- Specify output location --------------------------------
-    export OUTPUT_PREFIX="ds_stage${ZERO_STAGE}_nl${NLAYERS}_hs${HIDDEN}_mb${MICRO_BATCH}_seq${SEQ}_gb${GLOBAL_BATCH}_pp${PP}_tp${TP}_${DTYPE}"
-    OUTPUT_DIR="logs/${OUTPUT_PREFIX}/$(date +%m%d%H%M%S)_${HOSTNAME}"
-    export OUTPUT_DIR="${OUTPUT_DIR}"
-    export OUTPUT_LOG="${OUTPUT_DIR}/output.log"
-    export CKPT_DIR="checkpoints/${OUTPUT_PREFIX}"
-    echo "${OUTPUT_LOG}" >> "logs/latest"
-    mkdir -p "${OUTPUT_DIR}"
-    echo "!!!Please see logs at ${OUTPUT_DIR}"
+	# OUTPUT_DIR="logs/${OUTPUT_PREFIX}/$(date +%m%d%H%M%S)_${HOSTNAME}"
+	OUTPUT_PREFIX=$(get_output_prefix)
+	OUTPUT_DIR="logs/${OUTPUT_PREFIX}/$(date +%Y%m%d-%H%M%S)_${WORLD_SIZE}_${HOSTNAME}"
+	export OUTPUT_DIR="${OUTPUT_DIR}" && mkdir -p "${OUTPUT_DIR}"
+	export OUTPUT_LOG="${OUTPUT_DIR}/output.log"
+	echo "${OUTPUT_LOG}" >>"logs/latest"
+	printf "\n Please see logs at: %s\n" "$(printGreen "${OUTPUT_DIR}")"
 }
 
-buildDSconfig() {
-    # ---- Build DeepSpeed Config ---------------------------------
-    export DS_CONFIG="ds_stage${ZERO_STAGE}_mb${MICRO_BATCH}_gb${GLOBAL_BATCH}_pp${PP}_${DTYPE}.json"
-    echo "DS_CONFIG: ${DS_CONFIG}"
-    printf "ZS: %s, MB: %s, GB: %s, PP: %s, DTYPE: %s" ${ZERO_STAGE} ${MICRO_BATCH} ${GLOBAL_BATCH} ${PP} ${DTYPE}
-    if [[ -z "${CPU_OPTIMIZER}" ]]; then
-        bash "${PBS_O_WORKDIR}/generate_config.sh" "${DS_CONFIG}"  #|| exit 1
-    else
-        echo "!!! Using CPU Optimizer !!!"
-        bash "${PBS_O_WORKDIR}/generate_config_cpu_optimizer.sh" "${DS_CONFIG}"
-    fi
-    # -------------------------------------------------------------
+get_checkpoint_dir() {
+	if [[ -n "${CKPT_DIR:-}" ]]; then
+		echo "${CKPT_DIR}"
+	else
+		echo "checkpoints/$(get_output_prefix)"
+	fi
 }
 
+setup_checkpoint() {
+	ckpt_dir=$(get_checkpoint_dir)
+	export CKPT_DIR="${ckpt_dir}"
+	printf "Checkpoints will be saved to: %s\n" "$(printYellow "${CKPT_DIR}")"
+}
 
+#############################################
+# Build DeepSpeed config and write to .json
+#############################################
+buildDSconfig() {
+	# export CPU_OPTIMIZER="${CPU_OPTIMIZER:-0}"
+	export DS_CONFIG="${WORKING_DIR}/ds-configs/ds_stage${ZERO_STAGE}_mb${MICRO_BATCH}_gb${GLOBAL_BATCH}_pp${PP}_${DTYPE}.json"
+	mkdir -p "$(dirname "${DS_CONFIG}")"
+	printf "DS_CONFIG: %s\n" "${DS_CONFIG}"
+	printf "ZS=%s, MB=%s, GB=%s, PP=%s, DTYPE=%s\n" "${ZERO_STAGE}" "${MICRO_BATCH}" "${GLOBAL_BATCH}" "${PP}" "${DTYPE}"
+	generateDSconfig "${DS_CONFIG}"
+	cat "${DS_CONFIG}" | jq .
+}
+
+###############################################################################
+# sumWeights
+#
+# This will sum the weights (first column) from each line in the passed
+# `file_list`.
+###############################################################################
 sumWeights() {
-    local file_list=$1
-    weights=$(cat "${file_list}" | awk '{print $1}' | tr '\n' '\ ,\ ' | sed 's/^/[/g' | sed 's/$/]/g' | tr '\ ' "\,\ ")
-    # weights=$(echo "$weights" | tr ",]" "]")
-    # echo "weights: $weights"
-    python3 -c "import numpy as np; print(np.sum(${weights}))"
+	local file_list=$1
+	weights=$(cat "${file_list}" | awk '{print $1}' | tr '\n' '\ ,\ ' | sed 's/^/[/g' | sed 's/$/]/g' | tr '\ ' "\,\ ")
+	python3 -c "import numpy as np; print(np.sum(${weights}))"
 }
 
 sumFiles() {
-    local rd=$1
-    for f in $("${rd}/*.txt"); do
-        ws=$(sumWeights "${rd}/${f}")
-        echo "sum($f.weights)=${ws}"
-    done
-}
-
-
-setEnv() {
-    # ---- [SunSpot] ------- || ---- [Aurora] --------------
-    if [[ $(hostname) == x1* || $(hostname) == x4* ]]; then
-        PBS_PARENT=$(dirname ${PBS_O_WORKDIR})
-        echo "Sourcing ${PBS_PARENT}/setenv.sh..."
-        source "${PBS_PARENT}/setenv.sh" || exit
-        # ----- [Aurora] -----------------------------------
-        if [[ $(hostname) == x4* ]]; then
-            eval "$(/home/foremans/miniconda3/bin/conda shell.zsh hook)" && conda activate anl_release_q4v2
-        # ----- [SunSpot] ----------------------------------
-        elif [[ $(hostname) == x1* ]]; then
-            echo "Running on SunSpot !!"
-            eval "$(/home/foremans/miniconda3/bin/conda shell.zsh hook)" && conda activate q4-drop
-        fi
-    # ----- [Polaris] ---------------------------------------
-    elif [[ $(hostname) == x3* ]]; then
-        echo "Running on Polaris !!"
-        # ---- [load conda] ---------------------
-        module load conda/2023-10-04; conda activate cu118-pt221 ; unset PYTHONUSERBASE
-        # module load conda/2023-10-04 ; conda activate /lus/eagle/projects/datascience/foremans/miniconda3/envs/polaris/py311-cu118 
-        # ; conda activate /lus/eagle/projects/datascience/foremans/miniconda3/envs/polaris/2024-03-06
-        # export PYTHONUSERBASE="${HOME}/.local/polaris/conda/py311-cu118"
-        # mkdir -p "${PYTHONUSERBASE}"
-        # if [[ "${VIRTUAL_ENV}" ]]; then
-        #     echo "Caught VIRTUAL_ENV = ${VIRTUAL_ENV} from environment!!"
-        # else
-        #     echo "Not using VIRTUAL_ENV"
-        #     # sourceFile "${HERE}/venvs/polaris/2023-10-04/bin/activate" || exit
-        # fi
-    else # ------------------------------------- [Unknown] -------------------
-        echo "Unknown hostname $(hostname)"
-        exit 1
-    fi
+	local rd=$1
+	for f in $("${rd}/*.txt"); do
+		ws=$(sumWeights "${rd}/${f}")
+		echo "sum($f.weights)=${ws}"
+	done
+}
+
+###########################################
+# make_data
+#
+# This will run `make` in `megatron/data`
+# prior to launching, ensuring that
+# `megatron/data/helpers.cpp`
+# is built appropriately.
+###########################################
+make_data() {
+	python3 -m pip install pybind11
+	mdir="${WORKING_DIR}/megatron/data"
+	cd "${mdir}" && make && cd -
+}
+
+##############################################################################
+# install_dependencies
+#
+# Ensure all dependencies installed from `ALCF/requirements/requirements.txt`
+##############################################################################
+install_dependencies() {
+	depsfile="${WORKING_DIR}/ALCF/requirements/requirements.txt"
+	echo "[install_dependencies] Ensuring all dependencies from ${depsfile} installed..."
+	python3 -m pip install -r "${depsfile}" # --require-virtualenv
+	if [[ ! -x "$(command -v deepspeed)" ]]; then
+		printf "[install_dependencies] No 'deepspeed' command found on %s in %s\n" "$$(ezpz_get_machine_name)" "$(which python3)"
+		printf "[install_dependencies] Attempting to install deepspeed via pip...\n"
+		python3 -m pip install deepspeed || { # --require-virtualenv || {
+			printf "[install_dependencies] Failed to install deepspeed via pip on %s\n" "$(ezpz_get_machine_name)"
+			# printf "[install_dependencies] !! No deepsepeed in %s\n" "$(which python3)"
+			return 1
+		}
+		# mn=$(ezpz_get_machine_name)
+		# if [[ "${mn}" == aurora* || "${mn}" == sunspot* ]]; then
+		#     install_deepspeed_for_xpu || exit
+		# fi
+		# printf "[install_dependencies] !! No deepsepeed in %s" "$(which python3)"
+	fi
+}
+
+#################################################
+# Fix for distributed key value store on Aurora
+#################################################
+use_kvs_fix_on_aurora() {
+	export CCL_KVS_MODE=mpi
+	export CCL_CONFIGURATION_PATH=""
+	export LD_LIBRARY_PATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/lib:$LD_LIBRARY_PATH
+	export CPATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/include:$CPATH
+	export LIBRARY_PATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/lib:$LIBRARY_PATH
+	#########################################################
+	# if not set, CCL will complain... ?
+	export NUMEXPR_MAX_THREADS="${NUMEXPR_MAX_THREADS:-16}"
+	#########################################################
+}
+
+update_ccl_env_vars_aurora() {
+	# export CCL_KVS_MODE=mpi
+	# # export CCL_CONFIGURATION_PATH=""
+	# # unset CCL_CONFIGURATION_PATH
+	# # export CCL_CONFIGURATION=cpu_gpu_dpcpp
+	# # export CCL_ROOT="/flare/Aurora_deployment/intel/ccl/_install_release_2021_13"
+	# export LD_LIBRARY_PATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/lib:$LD_LIBRARY_PATH
+	# export CPATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/include:$CPATH
+	# export LIBRARY_PATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/lib:$LIBRARY_PATH
+	# # export CCL_ALLREDUCE_SCALEOUT=direct
+	# printenv | grep -E -v "^__" | grep -E "CCL|LD|CPATH|LIBRARY_PATH"
+	#########################################################
+	# if not set, CCL will complain... ?
+	export NUMEXPR_MAX_THREADS="${NUMEXPR_MAX_THREADS:-16}"
+	#########################################################
+	# Sam: [2024-06-29]
+	export CCL_KVS_MODE=mpi
+	export CCL_CONFIGURATION_PATH=""
+	export CCL_CONFIGURATION=cpu_gpu_dpcpp
+	export CCL_ROOT="/flare/Aurora_deployment/intel/ccl/_install_release_2021_13"
+	export LD_LIBRARY_PATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/lib:$LD_LIBRARY_PATH
+	export CPATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/include:$CPATH
+	export LIBRARY_PATH=/flare/Aurora_deployment/intel/ccl/_install_release_2021_13/lib:$LIBRARY_PATH
+}
+
+##########################################################
+# Check that we can find the `.py` file we wish to launch
+##########################################################
+check_executable() {
+	fp=$1
+	if [[ -f "${fp}" ]]; then
+		export EXEC="${fp}"
+		# ----[1.5 Keep track of stem from file path]-------------------------
+		exec_stem=$(echo "${EXEC}" | tr "\/" "\t" | awk '{print $NF}' | sed "s/\.py//g")
+		export EXEC_STEM="${exec_stem}"
+	else
+		estr="Unable to locate executable ${fp}"
+		printf "[ALCF.helpers:check_executable] %s\n" "$(printRed "${estr}")"
+	fi
 }
 
+######################################################################
+# `makeHostiles`:
+#     Detect if `HOSTFILE` set in active environment.
+#         - If so, use this.
+#         - Otherwise, make default HOSTFILEs from "${PBS_NODEFILE}"
+######################################################################
 makeHostfiles() {
-    # GPUS_PER_NODE=$(python3 -Wignore -c 'import ezpz; print(ezpz.get_gpus_per_node())')
-    # source $(python3 -c 'import ezpz; print(ezpz.SAVEJOBENV.as_posix())') || exit
-    # source $(python3 -c 'import ezpz; print(ezpz.GETJOBENV.as_posix())') || exit
-    source ezpz/src/ezpz/bin/savejobenv || exit #> /tmp/savejobenv.log 2>&1 &
-    source ezpz/src/ezpz/bin/getjobenv || exit
-    export GPUS_PER_NODE="${GPUS_PER_NODE:-${NGPU_PER_HOST}}"
-    # ---- Make MPICH hostfile ----------------
-    hf="${HOSTFILE:-${PBS_NODEFILE}}"
-    export hostfile_mpich=hostfile_mpich
-    cat "${hf}" > "${hostfile_mpich}"
-    # ---- Make DeepSpeed hostfile -------------------
-    export hostfile_deepspeed=hostfile_deepspeed
-    cat "${hf}" > "${hostfile_deepspeed}"
-    sed -e "s/$/ slots=${GPUS_PER_NODE}/" -i "${hostfile_deepspeed}"
-}
-
-setData() {  # ---- [dfl: abbrv. for DATA_FILE_LIST] -------------------------
-    if [[ $(hostname) == x4* ]]; then    # ---- [AURORA] ----
-        dfl_fallback="/home/foremans/anl_24_release_q4/llm.devkit/Megatron-DeepSpeed/data_file_list_reweighted.txt"
-    elif [[ $(hostname) == x1* ]]; then
-        dfl_fallback="/gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_file_list_reweighted.txt"
-    elif [[ $(hostname) == x3* ]]; then
-        dfl_fallback="/eagle/datasets/dolma/data_file_list_reweighted.txt"
-    else
-        echo "Unknown hostname. Must manually specify DATA_FILE_LIST."
-    fi
-    dfl="${1:-${dfl_fallback}}"
-    # dfl_fallback="/eagle/datasets/dolma/data_file_list_reweighted.txt"
-    printf "Calling:  \`setData()\` with %s\n" "${dfl}"
-    ndocs=$(wc -l < "${dfl}")
-    ws=$(sumWeights "${dfl}")
-    dfl_stem=$(echo "${dfl}" | tr "\/" "\t" | awk '{print $NF}' | sed "s/\.txt//g")
-    dcp="${HERE}/.cache/${dfl_stem}/index-cache"
-    mkdir -p dcp
-    export DATA_FILE_LIST="${dfl}"
-    export NUM_DOCS="${ndocs}"
-    export WEIGHT_SUM="${ws}"
-    export DFL_STEM="${dfl_stem}"
-    export DATA_CACHE_PATH="${dcp}"
-    echo "--------------------"
-    echo "Updated environment:"
-    printf "DATA_FILE_LIST: %s\n" "${DATA_FILE_LIST}"
-    printf "NUM_DOCS: %s\n " "${NUM_DOCS}"
-    printf "WEIGHT_SUM: %s\n" "${WEIGHT_SUM}"
-    printf "DFL_STEM: %s\n" "${DFL_STEM}"
-    printf "DATA_CACHE_PATH: %s\n" "${DATA_CACHE_PATH}"
-    echo "--------------------"
-}
-
-# buildCLIargs() {  # ---- [BROKEN] -------------------------------------------
-#     custom_args=" $@"
-#     export CLI_ARGS="
-#         --$DTYPE \
-#         --num-workers 0 \
-#         --split 100,0,0 \
-#         --log-interval 1 \
-#         --use-flash-attn-v2 \
-#         --no-bias-gelu-fusion \
-#         --lr-decay-style cosine \
-#         --no-bias-dropout-fusion \
-#         --no-masked-softmax-fusion \
-#         --tokenizer-type Llama2Tokenizer \
-#         --no-gradient-accumulation-fusion \
-#         --accumulate-allreduce-grads-in-fp32 \
-#         --use-checkpoint-opt_param-scheduler \
-#         --lr ${LR} \
-#         --save ${CKPT_DIR} \
-#         --load ${CKPT_DIR} \
-#         --seq-length ${SEQ} \
-#         --num-layers ${NLAYERS} \
-#         --hidden-size ${HIDDEN} \
-#         --train-iters ${TRAIN_ITER} \
-#         --eval-iters ${EVAL_ITERS} \
-#         --distributed-backend ${BE} \
-#         --num-attention-heads ${HEADS} \
-#         --save-interval ${SAVE_INTERVAL} \
-#         --eval-interval ${EVAL_INTERVAL} \
-#         --max-position-embeddings ${SEQ} \
-#         --micro-batch-size ${MICRO_BATCH} \
-#         --data-file-list ${DATA_FILE_LIST} \
-#         --tensor-model-parallel-size ${TP} \
-#         --global-batch-size ${GLOBAL_BATCH} \
-#         --pipeline-model-parallel-size ${PP} \
-#         --num-key-value-heads ${NUM_KV_HEAD} \
-#         --data-cache-path ${DATA_CACHE_PATH} \
-#         --ffn-hidden-size ${FFN_HIDDEN_SIZE} \
-#         --tokenizer-model ${TOKENIZER_MODEL} \
-#         $ds_args \
-#         ${LLAMA_ARGS} \
-#         ${gpt_args[*]} \
-#         ${custom_args} \
-#         "
-# }
+	if [[ -n "${HOSTFILE}" ]]; then
+		printf "!! USING CUSTOM HOSTFILE FROM: %s" "${HOSTFILE}"
+	else
+		make_ds_hostfile
+	fi
+}
+
+##################################################
+# Setup tokenizer as either Llama2 or GPT2 style
+##################################################
+setup_tokenizer_and_data() {
+	if [[ "$#" == 1 ]]; then
+		tok="$1"
+		dfl="${DATA_FILE_LIST:-}"
+	elif [[ "$#" == 2 ]]; then
+		tok="$1"
+		dfl="$2"
+	else
+		echo "Incorrect number of arguments passed. Received: $#, expected 2"
+	fi
+	echo "Setting up tokenizer with ${tok}"
+	echo "Using data_file_list: ${dfl}"
+	_data_flags=()
+	_tokenizer_flags=()
+	if [[ ${tok} == gpt* || ${tok} == GPT* ]]; then
+		export TOKENIZER_TYPE="GPT2"
+		_tokenizer_flags+=("--tokenizer-type GPT2BPETokenizer")
+		machine=$(ezpz_get_machine_name)
+		if [[ ${machine} == "polaris" || ${machine} == "sophia" ]]; then
+			export DATA_PARENT="${DATA_PARENT:-/eagle/argonne_tpc/foremans/projects/argonne-lcf/Megatron-DeepSpeed/dataset}"
+		elif [[ ${machine} == "sunspot" ]]; then
+			export DATA_PARENT="${DATA_PARENT:-/gila/Aurora_deployment/foremans/anl_24_q2_release/Megatron-DeepSpeed/dataset}"
+		elif [[ ${machine} == "aurora" ]]; then
+			export DATA_PARENT="${DATA_PARENT:-/gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/dataset}"
+		else
+			export DATA_PARENT="${DATA_PARENT:-${WORKING_DIR}/dataset}"
+		fi
+		export VOCAB_FILE="${DATA_PARENT}/gpt2-vocab.json"
+		export MERGE_FILE="${DATA_PARENT}/gpt2-merges.txt"
+		export DATA_PATH="${DATA_PARENT}/BookCorpusDataset_text_document"
+		_data_flags+=(
+			"--data-path ${DATA_PATH}"
+			"--vocab-file ${VOCAB_FILE}"
+			"--merge-file ${MERGE_FILE}"
+		)
+	else
+		# export TOKENIZER_TYPE="${TOKENIZER_TYPE:-Llama2Tokenizer}"
+		# tm="${WORKING_DIR}/ALCF/tokenizer.model"           # fallback: Megatron-DeepSpeed/ALCF/tokenizer.model
+		export TOKENIZER_TYPE="${TOKENIZER_TYPE:-HFTokenizer}"
+		tm="${TOKENIZER_MODEL:-google/gemma-7B}"           # fallback: Megatron-DeepSpeed/ALCF/tokenizer.model
+		export TOKENIZER_MODEL="${TOKENIZER_MODEL:-${tm}}" # USE TOKENIZER_MODEL from env, else fallback from ^
+		_tokenizer_flags+=(
+			"--tokenizer-type ${TOKENIZER_TYPE}"
+			"--tokenizer-model ${TOKENIZER_MODEL}"
+		)
+		# if [[ "${TOKENIZER_TYPE}" != "GPT2" ]]; then
+		echo "Using tokenizer: ${TOKENIZER_TYPE}. Setting up data with ${dfl}"
+		setData "${dfl}" || exit
+	fi
+	export DATA_FLAGS="${_data_flags[*]:-}"
+	export TOKENIZER_FLAGS="${_tokenizer_flags[*]}"
+	printf "[setData] DATA_FLAGS: %s\n" "$(printGreen "${DATA_FLAGS}")"
+	printf "[setData] TOKENIZER_FLAGS: %s\n" "$(printMagenta "${TOKENIZER_FLAGS}")"
+}
+
+###############################################
+# setData
+#
+# Ensure `DATA_FILE_LIST` is set,
+# fallback to default values if necessary.
+###############################################
+setData() { # ------------------------[dfl: abbrv. for DATA_FILE_LIST]
+	####### [Set DATA_FILE_LIST_FALLBACK based on current machine] #############
+	mn=$(ezpz_get_machine_name)
+	dfl_fallback="${WORKING_DIR}/ALCF/data-lists/${mn}/dolma.txt"
+	############################################################################
+	# set `dfl` to `dfl_fallback` if not passed as an argument,
+	# use this data file list to call `setData`
+	dfl="${1:-${dfl_fallback}}"
+	printf "Calling:  setData() with %s\n" "${dfl}"
+	ndocs=$(wc -l <"${dfl}")
+	ws=$(sumWeights "${dfl}")
+	dfl_stem=$(echo "${dfl}" | tr "\/" "\t" | awk '{print $NF}' | sed "s/\.txt//g")
+	dcp=".cache/${dfl_stem}/index-cache"
+	export DATA_FILE_LIST="${dfl}"
+	export NUM_DOCS="${ndocs}"
+	export WEIGHT_SUM="${ws}"
+	export DFL_STEM="${dfl_stem}"
+	export DATA_CACHE_PATH="${dcp}"
+	# export DATA_FLAGS="${DATA_FLAGS} --data-file-list ${DATA_FILE_LIST}"   #  --data-cache-path ${DATA_CACHE_PATH}"
+	echo "--------------------"
+	echo "Updated environment:"
+	printf "DATA_FILE_LIST: %s\n" "${DATA_FILE_LIST}"
+	printf "NUM_DOCS: %s\n " "${NUM_DOCS}"
+	printf "WEIGHT_SUM: %s\n" "${WEIGHT_SUM}"
+	printf "DFL_STEM: %s\n" "${DFL_STEM}"
+	printf "DATA_CACHE_PATH: %s\n" "${DATA_CACHE_PATH}"
+	printf "DATA_FLAGS: %s\n" "${DATA_FLAGS:-}"
+	echo "--------------------"
+}
 
+generateDSconfig_new() {
+	cat <<EOT >"${CONFIG_JSON}"
+    {
+    "train_batch_size" : $GLOBAL_BATCH,
+    "train_micro_batch_size_per_gpu": $MICRO_BATCH,
+    "steps_per_print": 1,
+
+    "zero_optimization": {
+        "stage": $ZERO_STAGE
+    },
+
+    "bf16": {
+        "enabled": true
+    },
+
+    "data_types": {
+            "grad_accum_dtype": "fp32" 
+    },
+
+    "wall_clock_breakdown" : false
+    }
+EOT
+}
+
+################################################################################
+# generateDSconfig
+#
+# Create and save a deepspeed config .json
+#
+# This will contain the appropriate variables as set in the current environment.
+################################################################################
+generateDSconfig() {
+	if [ $# -ne 1 ]; then
+		echo "Usage: $0 config_file"
+		exit 1
+	fi
+	for v in "$GLOBAL_BATCH" "$MICRO_BATCH" "$GRAD_ACC_STEPS" "$ZERO_STAGE" "$PP" "$DTYPE"; do
+		if [ -z "$v" ]; then
+			echo "Please export required envs before execute $0"
+			exit 1
+		fi
+	done
+	# \"scheduler\": {
+	#   \"type\": \"WarmupLR\",
+	#   \"params\": {
+	#       \"warmup_min_lr\": 0.00003,
+	#       \"warmup_max_lr\": 0.0003,
+	#       \"warmup_num_steps\": 5000
+	#   }
+	# },
+	extra=""
+	common="\
+        \"train_batch_size\": $GLOBAL_BATCH,
+        \"train_micro_batch_size_per_gpu\": $MICRO_BATCH,
+        \"gradient_clipping\": 1.0,
+        \"steps_per_print\": 1,
+        \"gradient_accumulation_steps\": $GRAD_ACC_STEPS,
+        \"zero_force_ds_cpu_optimizer\": false,
+        \"zero_allow_untested_optimizer\": true,
+        \"wall_clock_breakdown\": false,"
+	# if [[ "${USE_ACTIVATION_CHECKPOINTING}" == 1 ]]; then
+	#     activation_checkpointing="\
+	#         \"activation_checkpointing\": {
+	#         \"partition_activations\": true,
+	#         \"contiguous_memory_optimization\": true
+	#         },"
+	# fi
+	if [[ $DTYPE == "bf16" ]]; then
+		# \"communication_data_type\": \"bf16\",
+		dtype="\
+            \"fp16\": {
+              \"enabled\": false,
+              \"loss_scale\": 0,
+              \"loss_scale_window\": 1000,
+              \"hysteresis\": 2,
+              \"min_loss_scale\": 1
+            },
+            \"bfloat16\": {
+              \"enabled\": true
+            },"
+	elif [[ $DTYPE == "fp16" ]]; then
+		dtype="\
+            \"communication_data_type\": \"fp16\",
+            \"fp16\": {
+              \"enabled\": true,
+              \"loss_scale\": 0,
+              \"loss_scale_window\": 1000,
+              \"hysteresis\": 2,
+              \"min_loss_scale\": 1
+            },
+            \"bfloat16\": {
+              \"enabled\": false,
+              \"loss_scale\": 1.0
+            },"
+	else
+		dtype="\"communication_data_type\": \"fp32\","
+	fi
+	if [[ "${OPT:-}" == "ds.adamw" ]]; then
+		optimizer="\
+            \"optimizer\": {
+                \"type\": \"AdamW\",
+                \"params\": {
+                \"lr\": ${LR},
+                \"beta1\": ${ADAM_BETA1},
+                \"beta2\": ${ADAM_BETA2},
+                \"eps\": ${ADAM_EPS},
+                \"weight_decay\": 1e-1
+            },
+        },"
+	elif [[ "${OPT:-}" == "ds.onebitlamb" ]]; then
+		optimizer="\
+            \"optimizer\": {
+                \"type\": \"OneBitLamb\",
+                \"params\": {
+                    \"lr\": 11e-3,
+                    \"max_coeff\": 0.3,
+                    \"min_coeff\": 0.01,
+                    \"freeze_step\": 1000,
+                    \"cuda_aware\": false,
+                    \"comm_backend_name\": \"${BE}\",
+                    \"coeff_beta\": 0.9,
+                    \"factor_max\": 4.0,
+                    \"factor_min\": 0.5,
+                    \"factor_threshold\": 0.1
+                }
+            },"
+	else
+		optimizer=""
+	fi
+	if [[ "${ZERO_STAGE}" == 3 ]]; then
+		# \"mics_shard_size\": 2,
+		# hpz_partition_size=${ZERO_HPZ_PARTITION_SIZE:-${NGPU_PER_HOST:-1}}
+		# zero="\
+		#     \"zero_optimization\": {
+		#         \"stage\": 3,
+		#         \"reduce_scatter\": true,
+		#         \"reduce_bucket_size\": 10000000,
+		#         \"reduce_scatter\": true,
+		#         \"zero_quantized_weights\": true,
+		#         \"zero_hpz_partition_size\": $hpz_partition_size,
+		#         \"zero_quantized_gradients\": true,
+		#         \"contiguous_gradients\": true,
+		#         \"overlap_comm\": true,
+		#     }
+		# },"
+		# mics_shard_size="${MICS_SHARD_SIZE:-${NGPU_PER_HOST}}"
+		# \"mics_shard_size\": $mics_shard_size,
+		hpz_partition_size=${ZERO_HPZ_PARTITION_SIZE:-1}
+
+		# \"zero_quantized_weights\": false,
+		# \"zero_hpz_partition_size\": $hpz_partition_size,
+		# \"zero_quantized_gradients\": false,
+		# \"mics_shard_size\": 1,
+		# \"mics_hierarchical_params_gather\": false,
+		zero="\
+            \"zero_optimization\": {
+              \"stage\": 3,
+              \"zero_hpz_partition_size\": $hpz_partition_size,
+              \"reduce_scatter\": false,
+              \"stage3_max_live_parameters\": 3e9,
+              \"stage3_max_reuse_distance\": 3e9,
+              \"stage3_param_persistence_threshold\": 1e5,
+              \"stage3_prefetch_bucket_size\": 5e7,
+              \"contiguous_gradients\": true,
+              \"overlap_comm\": true,
+              \"reduce_bucket_size\": 90000000,
+              \"sub_group_size\": 1e9,
+              \"offload_optimizer\": {
+                \"device\": \"none\",
+                \"buffer_count\": 4,
+                \"pipeline_read\": false,
+                \"pipeline_write\": false,
+                \"pin_memory\": true
+              }
+            },"
+	# elif [[ $ZERO_STAGE == 2 ]]; then
+	elif [[ "${ZERO_STAGE}" == 2 || "${ZERO_STAGE}" == 1 ]]; then
+		if [[ -n "${CPU_OPTIMIZER:-}" ]]; then
+			echo "!!!! CAUGHT CPU_OPTIMIZER !!!!"
+			zero="\
+                \"zero_optimization\": {
+                    \"stage\": $ZERO_STAGE,
+                    \"offload_optimizer\": {
+                      \"device\": \"cpu\"
+                    }
+                },"
+		else
+			zero="\
+                \"zero_optimization\": {
+                  \"stage\": $ZERO_STAGE
+                },"
+		fi
+		if [[ "${PP}" -gt 1 ]]; then
+			extra="\
+                \"data_types\": {
+                \"grad_accum_dtype\": \"fp32\"
+              },
+              \"comms_logger\": {
+                \"enabled\": true,
+                \"verbose\": false,
+                \"prof_all\": true,
+                \"debug\": false
+              },"
+		else
+			extra="\
+                \"comms_logger\": {
+                \"enabled\": ${COMMS_LOGGER:-false},
+                \"verbose\": false,
+                \"debug\": false
+              },"
+		fi
+	else
+		echo 'Please add the correct config set!!!'
+	fi
+	flops_profiler="\
+        \"flops_profiler\": {
+          \"enabled\": true,
+          \"profile_step\": 2,
+          \"module_depth\": -1,
+          \"top_modules\": 1,
+          \"detailed\": true,
+          \"output_file\": null
+        }"
+	cat <<EOT >"$1"
+{
+$common
+$optimizer
+$zero
+$dtype
+$extra
+$flops_profiler
+}
+EOT
+}
+
+###############################################
+# Helper functions for printing colored text
+###############################################
+RESET="\e[0m"
+BLACK="\e[1;30m"
+RED="\e[1;31m"
+GREEN="\e[1;32m"
+YELLOW="\e[1;33m"
+BLUE="\e[1;34m"
+CYAN="\e[1;35m"
+# WHITE="\e[1;36m"
 
 printBlack() {
-    printf "\e[1;30m%s\e[0m\n" "$@"
+	printf "\e[1;30m%s\e[0m\n" "$@"
 }
 
 printRed() {
-    printf "\e[1;31m%s\e[0m\n" "$@"
+	printf "\e[1;31m%s\e[0m\n" "$@"
 }
 
 printGreen() {
-    printf "\e[1;32m%s\e[0m\n" "$@"
+	printf "\e[1;32m%s\e[0m\n" "$@"
 }
 
 printYellow() {
-    printf "\e[1;33m%s\e[0m\n" "$@"
+	printf "\e[1;33m%s\e[0m\n" "$@"
 }
 
 printBlue() {
-    printf "\e[1;34m%s\e[0m\n" "$@"
+	printf "\e[1;34m%s\e[0m\n" "$@"
 }
 
 printMagenta() {
-    printf "\e[1;35m%s\e[0m\n" "$@"
+	printf "\e[1;35m%s\e[0m\n" "$@"
 }
 
 printCyan() {
-    printf "\e[1;36m%s\e[0m\n" "$@"
+	printf "\e[1;36m%s\e[0m\n" "$@"
 }
+
 printWhite() {
-    printf "\e[1;37m%s\e[0m\n" "$@"
+	printf "\e[1;37m%s\e[0m\n" "$@"
 }
+
+reset_env() {
+	custom_vars=(
+		NO_FLASH_ATTN
+		USE_FLASH_ATTN
+		TP
+		PP
+		SP
+		FLASH_ARG
+		OPT
+		ADAM_BETA1
+		ADAM_BETA2
+		ADAM_EPS
+		WEIGHT_DECAY
+		HEADS
+		NLAYERS
+		HIDDEN
+		NUM_KV_HEAD
+		FFN_HIDDEN_SIZE
+		SEQ
+		ZERO_STAGE
+		MICRO_BATCH
+		EVAL_ITERS
+		EVAL_INTERVAL
+		TIMING_LOG_LEVEL
+		ACT_CKPT_NUM_LAYERS
+		USE_ACTIVATION_CHECKPOINTING
+		GLOBAL_BATCH_MAX
+		GLOBAL_BATCH
+		TRAIN_TOKENS
+		TRAIN_ITERS
+		MODEL_TYPE
+		LR
+		LR_WARMUP_FRAC
+		LR_DECAY_ITERS
+		LR_ARGS
+		CPU_OPTIMIZER
+		DS_CONFIG
+		OUTPUT_DIR
+		OUTPUT_LOG
+		CKPT_DIR
+		ds_args
+		EXEC
+		EXEC_STEM
+		DATA_FLAGS
+		TOKENIZER_TYPE
+		TOKENIZER_MODEL
+		TOKENIZER_FLAGS
+		DATA_FILE_LIST
+		NUM_DOCS
+		WEIGHT_SUM
+		DFL_STEM
+		DATA_CACHE_PATH
+		DOTENV_FILE
+		YEAR
+		MONTH
+		DAY
+		TODAY
+		STARTED_AT
+		LAUNCHER
+		data_cache_path
+		DEFAULTS
+	)
+	# LLAMA_ARGS
+	printf "Unsetting custom vars: %s\n" "${custom_vars[*]}"
+	unset "${custom_vars[@]}"
+}
+
+convert_ckpt_to_universal() {
+	if [[ "$#" -ne 1 ]]; then
+		echo "Usage: convert_ckpt_to_universal ckpt_dir"
+		echo "Expected one argument (ckpt_dir), received: $#"
+		exit 1
+	fi
+	ckptdir=$1
+	gs=$(cat "${ckptdir}/latest_checkpointed_iteration.txt")
+	src="${ckptdir}/global_step${gs}"
+	dst="${ckptdir}/global_step${gs}_universal"
+	convert_script="${PBS_O_WORKDIR}/deps/DeepSpeed/checkpoint/ds_to_universal.py"
+	python3 "${convert_script}" --input_folder "${src}" --output_folder "${dst}"
+}
+
+###########################
+# call helpers_main()
+###########################
+helpers_main
diff --git a/ALCF/notes/AuroraGPT-3B.md b/ALCF/notes/AuroraGPT-3B.md
new file mode 100644
index 00000000000..bbee38caba1
--- /dev/null
+++ b/ALCF/notes/AuroraGPT-3B.md
@@ -0,0 +1,94 @@
+# AuroraGPT-3B-v1
+
+## Organization
+
+```
+/flare/AuroraGPT/AuroraGPT-v1/3B/Megatron-DeepSpeed/
+```
+
+## Llama-3.2-3B Base Config
+
+
+- Model Architecture:
+  - <details closed><summary>model architecture (yaml)</summary>
+
+    ```yaml
+    DP: 1536
+    FFN_HIDDEN_SIZE: 8192
+    GAS:
+      - 2
+      - 4
+    GBS: 12288
+    HIDDEN: 3072
+    HEADS: 32
+    MBS: 4
+    NLAYERS: 28
+    NUM_KV_HEAD: 8
+    OPT: ipex.fusedlamb
+    PP: 1
+    SEQ: 8192
+    SP: 1
+    TP: 1
+    USE_ACTIVATION_CHECKPOINTING: 1
+    ZERO_STAGE: 1
+    ```
+
+  </details>
+
+- 128 Nodes:
+  - [pleasant-snowflake-3180](https://wandb.ai/aurora_gpt/AuroraGPT/runs/y9r7r3mh)
+
+    ```bash
+    GRAD_ACC_STEPS=2 \
+        MICRO_BATCH=4 \
+        USE_ACTIVATION_CHECKPOINTING=1 \
+        ZERO_STAGE=0 \
+        MODEL_ARCH=3B \
+        OPT=ipex.fusedlamb \
+        bash train_alcf.sh
+    ```
+
+- 64 Nodes:
+  - [jolly-silence-3185](https://wandb.ai/aurora_gpt/AuroraGPT/runs/28qxlycg)
+
+    ```bash
+    GRAD_ACC_STEPS=4 \
+        MICRO_BATCH=4 \
+        USE_ACTIVATION_CHECKPOINTING=1 \
+        ZERO_STAGE=0 \
+        MODEL_ARCH=3B \
+        OPT=ipex.fusedlamb \
+        bash train_alcf.sh
+    ```
+
+
+## Reference Configs
+
+- [Llama-3.2-3B](https://huggingface.co/meta-llama/Llama-3.2-3B):
+  - [meta-llama/Llama-3.2-3B/config.json](https://huggingface.co/meta-llama/Llama-3.2-3B/blob/main/config.json)
+- [Gemma-3](https://huggingface.co/google/gemma-3-4b-it):
+  - [google/gemma-3-4b-it/config.json](https://huggingface.co/google/gemma-3-4b-it/blob/main/config.json)
+- [SmolLM3-3B-Base](https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base):
+  - [HuggingFaceTB/SmolLM3-3B-Base/config.json](https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base/blob/main/config.json)
+
+
+## Experiments
+
+Would like to run:
+
+- Large Batch Training
+  - Identify largest number of tokens / batch that preserves stability
+- Optimizer(s):
+  - Muon
+  - Lamb
+  - AdamW
+    - schedulefree (?)
+  - Others?
+- Tokenizer(s):
+  - Implementation:
+    - Llama Tokenizer
+    - Gemma Tokenizer
+  - GitHub Repos:
+    - [M4THYOU/TokenDagger](https://huggingface.co/M4THYOU/TokenDagger)
+    - [openai/TikToken](https://github.com/openai/tiktoken)
+    - [google/sentencepiece](https://github.com/google/sentencepiece)
diff --git a/ALCF/notes/AuroraGPT-70B.md b/ALCF/notes/AuroraGPT-70B.md
new file mode 100644
index 00000000000..b722862a5fc
--- /dev/null
+++ b/ALCF/notes/AuroraGPT-70B.md
@@ -0,0 +1,184 @@
+# AuroraGPT-70B Performance Study
+
+```bash
+TOTAL_PARAMS=68976648192 (68976.648M)
+```
+
+## Personal Experiments
+
+### Pipeline + ZeRO-1
+
+```bash
+PP="${NHOSTS}" \
+  TP=1 \
+  HEADS=64 \
+  NLAYERS=80 \
+  NUM_KV_HEAD=8 \
+  FFN_HIDDEN_SIZE=28672 \
+  HIDDEN=8192 \
+  MICRO_BATCH=1 \
+  GRAD_ACC_STEPS="${GAS}" \
+  SEQ_LEN=8192 \
+  DATA_FILE_LIST=ALCF/data-lists/aurora/books.txt \
+  USE_ACTIVATION_CHECKPOINTING=1 \
+  bash train_alcf.sh
+```
+
+- **Note**:
+  - `sps`: samples per second
+  - `tpgps`: tokens per GPU per second
+
+#### PyTorch 2.8 Results
+
+
+|  Nodes   | NGPU | PP  | DP  | TP  | MBS | GAS | GBS | ACKPT | TFLOPS | `sps` | `tpgps` | wandb                                                                       |
+| :------: | :--: | :-: | :-: | :-: | :-: | :-: | --: | :---: | -----: | ----: | ------: | :-------------------------------------------------------------------------- |
+| 8[^2273] |  96  |  8  | 12  |  1  |  1  |  1  |  12 | True  |    OOM |   OOM |     OOM | [northern-field-2273](https://wandb.ai/aurora_gpt/AuroraGPT/runs/odz3euea)  |
+| 8[^2274] |  96  |  8  |  6  |  2  |  1  |  1  |   6 | True  |  54.66 | 2.882 | 122.967 | [chocolate-cloud-2274](https://wandb.ai/aurora_gpt/AuroraGPT/runs/smov9k5d) |
+|    8     |  96  |  8  |  6  |  2  |  1  |  2  |  12 | True  |        |       |         |                                                                             |
+|    8     |  96  |  8  |  6  |  2  |  1  |  4  |  24 | True  |        |       |         |                                                                             |
+
+[^2273]: [northern-field-2273](https://wandb.ai/aurora_gpt/AuroraGPT/runs/odz3euea)
+[^2274]: [chocolate-cloud-2274](https://wandb.ai/aurora_gpt/AuroraGPT/runs/smov9k5d)
+
+#### PyTorch 2.5 Results
+
+Using the default PyTorch (2.5) provided by the `frameworks` module on Aurora
+
+|   Nodes   | NGPU | PP  | DP  | TP  | MBS | GAS | GBS | ACKPT | TFLOPS | `sps` | `tpgps` | wandb                                                                          |
+| :-------: | :--: | :-: | :-: | :-: | :-: | :-: | --: | :---: | -----: | ----: | ------: | :----------------------------------------------------------------------------- |
+| 8[^2125]  |  96  |  8  | 12  |  1  |  1  |  1  |  12 | True  |    OOM |   OOM |     OOM | [chocolate-meadow-2125](https://wandb.ai/aurora_gpt/AuroraGPT/runs/uhfkwmp2)   |
+| 8[^2126]  |  96  |  8  |  6  |  2  |  1  |  1  |   6 | True  |  10.26 | 0.541 |  23.084 | [glamorous-darkness-2126](https://wandb.ai/aurora_gpt/AuroraGPT/runs/tdehvqey) |
+| 8[^2153]  |  96  |  8  |  6  |  2  |  1  |  1  |   6 | False |  13.16 | 0.694 |  29.608 | [proud-frog-2153](https://wandb.ai/aurora_gpt/AuroraGPT/runs/ho1lwmer)         |
+| 8[^2127]  |  96  |  8  |  6  |  2  |  1  |  2  |  12 | True  |  17.75 | 0.936 |  39.927 | [stoic-dragon-2127](https://wandb.ai/aurora_gpt/AuroraGPT/runs/2vay044x)       |
+| 8[^2128]  |  96  |  8  |  6  |  2  |  1  |  4  |  24 | True  |  28.93 | 1.525 |  65.081 | [drawn-wildflower-2128](https://wandb.ai/aurora_gpt/AuroraGPT/runs/qjaqpbxg)   |
+| 8[^2129]  |  96  |  8  |  6  |  2  |  1  |  8  |  48 | True  |  42.27 | 2.229 |  95.103 | [fresh-waterfall-2129](https://wandb.ai/aurora_gpt/AuroraGPT/runs/8m38fq95)    |
+| 8[^2130]  |  96  |  8  |  6  |  2  |  1  | 16  |  96 | True  |  54.66 | 2.882 | 122.974 | [divine-waterfall-2130](https://wandb.ai/aurora_gpt/AuroraGPT/runs/on3m4isp)   |
+| 8[^2131]  |  96  |  8  |  6  |  2  |  1  | 32  | 192 | True  |  64.02 | 3.376 | 144.037 | [wild-bee-2131](https://wandb.ai/aurora_gpt/AuroraGPT/runs/hitrbi6d)           |
+|  &nbsp;   |      |     |     |     |     |     |     |       |        |       |         |                                                                                |
+| 16[^2118] | 192  | 16  | 12  |  1  |  1  |  1  |  12 | True  |    5.6 | 0.594 |  12.695 | [fluent-surf-2118](https://wandb.ai/aurora_gpt/AuroraGPT/runs/0y250j0i)        |
+| 16[^2119] | 192  | 16  | 12  |  1  |  1  |  2  |  24 | True  |  10.25 | 1.081 |  23.064 | [dulcet-salad-2119](https://wandb.ai/aurora_gpt/AuroraGPT/runs/5f1rdn9p)       |
+| 16[^2120] | 192  | 16  | 12  |  1  |  1  |  4  |  48 | True  |  18.10 | 1.908 |  40.713 | [rose-blaze-2120](https://wandb.ai/aurora_gpt/AuroraGPT/runs/9obt1iqi)         |
+| 16[^2121] | 192  | 16  | 12  |  1  |  1  |  8  |  96 | True  |  29.49 | 3.110 |  66.342 | [azure-jazz-2121](https://wandb.ai/aurora_gpt/AuroraGPT/runs/oaft4n5p)         |
+|    16     | 192  | 16  | 12  |  1  |  1  | 16  | 192 | True  |    OOM |   OOM |     OOM | OOM                                                                            |
+
+
+[^2125]: [chocolate-meadow-2125](https://wandb.ai/aurora_gpt/AuroraGPT/runs/uhfkwmp2)
+[^2126]: [glamorous-darkness-2126](https://wandb.ai/aurora_gpt/AuroraGPT/runs/tdehvqey)
+[^2153]: [proud-frog-2153](https://wandb.ai/aurora_gpt/AuroraGPT/runs/ho1lwmer)
+[^2127]: [stoic-dragon-2127](https://wandb.ai/aurora_gpt/AuroraGPT/runs/2vay044x)
+[^2128]: [drawn-wildflower-2128](https://wandb.ai/aurora_gpt/AuroraGPT/runs/qjaqpbxg)
+[^2129]: [fresh-waterfall-2129](https://wandb.ai/aurora_gpt/AuroraGPT/runs/8m38fq95)
+[^2130]: [divine-waterfall-2130](https://wandb.ai/aurora_gpt/AuroraGPT/runs/on3m4isp)
+[^2131]: [wild-bee-2131](https://wandb.ai/aurora_gpt/AuroraGPT/runs/hitrbi6d)
+[^2118]: [fluent-surf-2118](https://wandb.ai/aurora_gpt/AuroraGPT/runs/0y250j0i)
+[^2119]: [dulcet-salad-2119](https://wandb.ai/aurora_gpt/AuroraGPT/runs/5f1rdn9p)
+[^2120]: [rose-blaze-2120](https://wandb.ai/aurora_gpt/AuroraGPT/runs/9obt1iqi)
+[^2121]: [azure-jazz-2121](https://wandb.ai/aurora_gpt/AuroraGPT/runs/oaft4n5p)
+
+
+## ZeRO-3 + HPZ
+
+- Command:
+
+    ```bash
+    TP=1 \
+      GRAD_ACC_STEPS=4 \
+      ZERO_HPZ_PARTITION_SIZE="${NGPU_PER_HOST}" \
+      PP=1 \
+      ZERO_STAGE=3 \
+      HEADS=64 \
+      NLAYERS=80 \
+      [NUM_KV_HEAD](2025-07-07_num_kv_head.md)=8 \
+      FFN_HIDDEN_SIZE=28672 \
+      HIDDEN=8192 \
+      MICRO_BATCH=1 \
+      SEQ_LEN=8192 \
+      USE_ACTIVATION_CHECKPOINTING=1 \
+      DATA_FILE_LIST="ALCF/data-lists/aurora/books.txt" \
+      bash train.sh
+    ```
+
+
+|  Nodes  | NGPU | PP  | DP  | TP  | MBS | GAS | GBS | ACKPT | TFLOPS | `sps` | `tpgps` | wandb                                                                      |
+| :-----: | :--: | :-: | :-: | :-: | :-: | :-: | --: | :---: | -----: | ----: | ------: | :------------------------------------------------------------------------- |
+| 4[^z3h] |  48  |  1  |  1  |  1  |  1  |  1  |  48 | True  |    ??? |   ??? |     ??? | ???                                                                        |
+| &nbsp;  |      |     |     |     |     |     |     |       |        |       |         |                                                                            |
+|    6    |  72  |  1  |  1  |  1  |  1  |  1  |  72 | True  |  39.05 | 1.544 |  87.849 | [charmed-fire-2203](https://wandb.ai/aurora_gpt/AuroraGPT/runs/actny2dl)   |
+| &nbsp;  |      |     |     |     |     |     |     |       |        |       |         |                                                                            |
+|    8    |  96  |  1  |  1  |  1  |  1  |  1  |  96 | True  |  47.60 | 2.510 | 107.087 | [glamorous-wood-2199](https://wandb.ai/aurora_gpt/AuroraGPT/runs/bgu31497) |
+|    8    |  96  |  1  |  1  |  1  |  1  |  2  | 192 | True  |  55.69 | 2.936 | 125.287 | [solar-plant-2200](https://wandb.ai/aurora_gpt/AuroraGPT/runs/gnc48o99)    |
+|    8    |  96  |  1  |  1  |  1  |  1  |  4  | 384 | True  |  59.66 | 3.146 | 134.216 | [smooth-eon-2207](https://wandb.ai/aurora_gpt/AuroraGPT/runs/awt6d825)     |
+|    8    |  96  |  1  |  1  |  1  |  1  |  8  | 768 | True  |  62.19 | 3.279 | 139.919 | [glamorous-eon-2209](https://wandb.ai/aurora_gpt/AuroraGPT/runs/jmukcjdc)  |
+| &nbsp;  |      |     |     |     |     |     |     |       |        |       |         |                                                                            |
+|   16    | 192  |  1  |  1  |  1  |  1  |  1  | 192 | True  |   57.6 | 6.074 | 129.577 | [gallant-field-2208](https://wandb.ai/aurora_gpt/AuroraGPT/runs/gb94ahi3)  |
+|   16    | 192  |  1  |  1  |  1  |  1  |  2  | 384 | True  |  61.86 | 6.523 | 139.161 | [swept-shadow-2210](https://wandb.ai/aurora_gpt/AuroraGPT/runs/riy7y3k1)   |
+|   16    | 192  |  1  |  1  |  1  |  1  |  4  | 768 | True  |  64.28 | 6.779 | 144.621 | [restful-oath-2212](https://wandb.ai/aurora_gpt/AuroraGPT/runs/kzmhlcju)   |
+
+[^z3h]: Seems to get hung on 4 nodes (waited ~30 min)
+
+## 42B Model (Pure Tensor Parallelism) (TP=6)
+
+- 42B param model
+
+```bash
+#[🐍 aurora_nre_models_frameworks-2025.0.0](👻 aurora_nre_models_frameworks-2025.0.0)
+#[/f/d/f/p/a/Megatron-DeepSpeed][🌱 saforem2/dev][📦📝🤷✓] [⏱️ 4m15s]
+#[06/14/25 @ 16:33:06][x4515c6s0b0n0]
+; TP=6 PP=1 HEADS=$((TP * $((48 / TP)))) NLAYERS=$((TP * $((48 / TP)))) NUM_KV_HEAD=$((TP * $((8 / TP)))) FFN_HIDDEN_SIZE=$((TP * $((28672 / TP)))) HIDDEN=$((HEADS * $((8192 / HEADS)))) ZERO_STAGE=2 MICRO_BATCH=1 GRAD_ACC_STEPS=1 DATA_FILE_LIST=ALCF/data-lists/aurora/books.txt bash train_alcf.sh
+```
+
+```bash
+==== ARCHITECTURE ====
+NLAYERS: 48
+GAS: 1
+PP: 1
+HEADS: 48
+USE_ACTIVATION_CHECKPOINTING: 0
+FFN_HIDDEN_SIZE: 28668
+SEQ: 4096
+GBS: 16
+DP: 16
+NUM_KV_HEAD: 6
+HIDDEN: 8160
+TP: 6
+SP: 1
+MBS: 1
+======================
+```
+
+| Nodes | NGPU |  PP |  DP |  TP | MBS | GAS | GBS | TFLOPS | samples / s | tok / gpu / s | wandb                                                                          |
+| ----: | :--: | --: | --: | --: | --: | --: | --: | -----: | ----------: | ------------: | :----------------------------------------------------------------------------- |
+|     8 |  96  |   1 |  16 |   6 |   1 |   1 |  16 |  19.76 |       1.740 |        74.257 | [royal-forest-2135](https://wandb.ai/aurora_gpt/AuroraGPT/runs/o3cyy1mq)       |
+|     8 |  96  |   1 |  16 |   6 |   1 |   2 |  32 |  22.13 |       1.949 |        83.170 | [balmy-terrain-2136](https://wandb.ai/aurora_gpt/AuroraGPT/runs/rpo1fbk9)      |
+|     8 |  96  |   1 |  16 |   6 |   1 |   4 |  64 |  23.60 |       2.078 |        88.676 | [eternal-wildflower-2137](https://wandb.ai/aurora_gpt/AuroraGPT/runs/faxpu0r6) |
+
+## From Deepak
+
+### Pipeline + ZeRO-1
+
+| Nodes | NGPU |  PP |  DP |  TP | MBS | GBS | TFLOPS | samples / s |
+| ----: | ---: | --: | --: | --: | --: | --: | -----: | ----------: |
+|     8 |   96 |   8 |  12 |   1 |   1 |  96 |    OOM |         OOM |
+|     8 |   96 |   8 |   6 |   2 |   1 |  48 |   58.2 |         1.1 |
+|     8 |   96 |   8 |   6 |   2 |   1 |  96 |   72.5 |         1.4 |
+|     8 |   96 |   8 |   6 |   2 |   1 | 192 |   85.6 |         1.7 |
+|    16 |  192 |  16 |  12 |   1 |   1 | 192 |   59.9 |         2.3 |
+|    16 |  192 |  16 |  12 |   1 |   1 | 384 |   76.1 |         3.0 |
+|    16 |  192 |  16 |  12 |   1 |   1 | 768 |    OOM |         OOM |
+|    32 |  384 |  16 |  24 |   1 |   1 | 384 |    OOM |         OOM |
+|    32 |  384 |  16 |  24 |   1 |   1 | 768 |    OOM |         OOM |
+
+### ZeRO-3 MiCS Performance Data
+
+| Nodes | DP  | TP  | MBS | GBS | TFLOPS | sample/s |
+| :---: | :-: | :-: | :-: | :-: | :----: | :------: |
+|   4   | 48  |  1  |  1  | 48  |  98.5  |   0.96   |
+|   8   | 96  |  1  |  1  | 96  |  96.7  |   1.88   |
+|  16   | 192 |  1  |  1  | 192 |  95.4  |   3.70   |
+
+| Nodes | DP  | TP  | MBS | GBS | TFLOPS | sample/s |
+| :---: | :-: | :-: | :-: | :-: | :----: | :------: |
+| 4     | 48  | 1   | 1   | 48  | 96.8   | 0.94     |
+| 8     | 96  | 1   | 1   | 96  | 99.1   | 1.92     |
+| 16    | 192 | 1   | 1   | 192 | 97.2   | 3.77     |
diff --git a/ALCF/notes/AuroraGPT-small.md b/ALCF/notes/AuroraGPT-small.md
new file mode 100644
index 00000000000..13d3379e294
--- /dev/null
+++ b/ALCF/notes/AuroraGPT-small.md
@@ -0,0 +1,152 @@
+# AuroraGPT-v1 (Small)
+
+- [WandB Report: AuroraGPT-v1 (Small)](https://api.wandb.ai/links/aurora_gpt/5qxfdak3)
+
+## 📊 Performance Results
+
+| model-arch | `nlayers` | model size (B) | `tpgps` | `TFLOPs` |
+| :--------: | :-------: | :------------: | :-----: | :------: |
+|   Llama3   |     4     |      1.98      |  8018   |  66.75   |
+|   Llama3   |     6     |      2.18      |  6786   |  68.76   |
+|   Llama3   |     8     |      2.38      |  5874   |  70.37   |
+|   Llama3   |    10     |      2.58      |  5179   |  71.36   |
+|   Llama3   |    12     |      2.78      |  4646   |  72.34   |
+|   Llama3   |    14     |      2.98      |  4202   |  73.15   |
+|  SmolLM3   |     8     |      1.67      |  7316   |  61.59   |
+|  SmolLM3   |    10     |      1.83      |  6448   |  62.72   |
+|  SmolLM3   |    12     |      1.99      |  5780   |  64.09   |
+|  SmolLM3   |    14     |      2.14      |  5238   |  64.82   |
+|  SmolLM3   |    16     |      2.30      |  4734   |  64.77   |
+|  SmolLM3   |    18     |      2.45      |  4363   |  65.38   |
+
+- Note: OOM for LLama3 @ 16 layers and SmolLM3 @ 20 layers
+
+## ⚙️ Configs
+
+- Explicit command:
+
+    ```bash
+    MODEL_ARCH={smollm3-3B,llama3-3B} \
+        NLAYERS=<nlayers> \
+        GRAD_ACC_STEPS=2 \
+        MICRO_BATCH=1 \
+        USE_ACTIVATION_CHECKPOINTING=0 \
+        ZERO_STAGE=0 \
+        OPT=adamw \
+        LR_DECAY_STYLE=constant \
+        TOKENIZER_TYPE=HFTokenizer \
+        TOKENIZER_MODEL=google/gemma-7b \
+        DATA_FILE_LIST=ALCF/data-lists/$(ezpz_get_machine_name)/books.txt \
+        bash train_alcf.sh
+    ```
+
+- Llama3 Architecture:
+
+    ```llama3-architecture.yaml
+    HEADS: 24
+    HIDDEN: 3072
+    FFN_HIDDEN_SIZE: 8192
+    NLAYERS: 28  # default
+    NUM_KV_HEAD: 8
+    SEQ: 8192
+    USE_ACTIVATION_CHECKPOINTING: 0
+    ZERO: 0
+    ```
+
+  - [meta-llama/Llama-3.2-3B/`config.json`](https://huggingface.co/meta-llama/Llama-3.2-3B/blob/main/config.json)
+
+- SmolLM3 Architecture:
+
+    ```smollm3-architecture.yaml
+    HEADS: 16
+    HIDDEN: 2048
+    FFN_HIDDEN_SIZE: 11008
+    NLAYERS: 36
+    NUM_KV_HEAD: 4
+    SEQ: 8192
+    USE_ACTIVATION_CHECKPOINTING: 0
+    ZERO: 0
+    ```
+
+  - [HuggingFaceTB/SmolLM3-3B-Base/`config.json`](https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base/blob/main/config.json)
+
+## Raw Data
+
+- TFLOPs data:
+
+    ```bash
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-124405][id:Aurora, 2, llama3-3B-nLayers14, 48, 2025-08-21-124405][TFLOPS-lm:73.04185]	73.15212991672594
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-133138][id:Aurora, 2, llama3-3B-nLayers12, 48, 2025-08-21-133138][TFLOPS-lm:72.30713]	72.34283930368927
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-134052][id:Aurora, 2, llama3-3B-nLayers10, 48, 2025-08-21-134052][TFLOPS-lm:71.56954]	71.56953772155975
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-122810][id:Aurora, 2, llama3-3B-nLayers10, 48, 2025-08-21-122810][TFLOPS-lm:71.26275]	71.36638292006606
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-134526][id:Aurora, 2, llama3-3B-nLayers8, 48, 2025-08-21-134526][TFLOPS-lm:70.29466]	70.37302585667582
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-142250][id:Aurora, 2, llama3-3B-nLayers6, 48, 2025-08-21-142250][TFLOPS-lm:68.81743]	68.75536285086024
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-143234][id:Aurora, 2, llama3-3B-nLayers4, 48, 2025-08-21-143234][TFLOPS-lm:66.88754]	66.7547450957777
+
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-131910][id:Aurora, 2, smollm3-nLayers18, 48, 2025-08-21-131910][TFLOPS-lm:66.34897]	66.319195539024
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-125937][id:Aurora, 2, smollm3-nLayers16, 48, 2025-08-21-125937][TFLOPS-lm:65.7598]	65.87611405627682
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-140507][id:Aurora, 2, smollm3-nLayers14, 48, 2025-08-21-140507][TFLOPS-lm:12.39282]	65.57458612915367
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-135339][id:Aurora, 2, smollm3-nLayers12, 48, 2025-08-21-135339][TFLOPS-lm:64.87912]	64.89387696083435
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-134749][id:Aurora, 2, smollm3-nLayers10, 48, 2025-08-21-134749][TFLOPS-lm:63.40927]	63.266400862713915
+    [Aurora] [NHOST:2][MB:1][GAS:2][GB:48]  [@ 2025-08-21-135130][id:Aurora, 2, smollm3-nLayers8, 48, 2025-08-21-135130][TFLOPS-lm:62.34549]	62.28304152993416
+    ```
+
+- LLama3 tokens per gpu per second:
+
+    ```bash
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers14, args.global_batch_size: 48, created_at: 2025-08-21-124405	4202.008365924828
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers12, args.global_batch_size: 48, created_at: 2025-08-21-133138	4646.389722691857
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers12, args.global_batch_size: 96, created_at: 2025-08-21-121138	4986.43082836443
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers10, args.global_batch_size: 48, created_at: 2025-08-21-122810	5179.048714554391
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers8, args.global_batch_size: 48, created_at: 2025-08-21-134526	5874.068043287903
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers6, args.global_batch_size: 48, created_at: 2025-08-21-142250	6786.922466326357
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers4, args.global_batch_size: 48, created_at: 2025-08-21-143234	8018.191437878496
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers10, args.global_batch_size: 48, created_at: 2025-08-21-134749	6445.155290877832
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers8, args.global_batch_size: 48, created_at: 2025-08-21-135130	7327.6685718892195
+    ```
+
+- SmolLM3 (global) tokens per second:
+
+
+    ```bash
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers18, args.global_batch_size: 48, created_at: 2025-08-21-131910	104714.98091017039
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers16, args.global_batch_size: 48, created_at: 2025-08-21-125937	113606.28598021298
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers14, args.global_batch_size: 48, created_at: 2025-08-21-140507	125730.55726532736
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers12, args.global_batch_size: 48, created_at: 2025-08-21-135339	138737.32674433687
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers10, args.global_batch_size: 48, created_at: 2025-08-21-134749	154746.97733244646
+    machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers8, args.global_batch_size: 48, created_at: 2025-08-21-135130	175552.08689111052
+    ```
+
+    - Corrections:
+
+        ```bash
+        175552 / 24 = 7315.5
+        154746 / 24 = 6447.75
+        138737 / 24 = 5,780.71
+        125730 / 24 = 5,238.75
+        113606 / 24 = 4733.58
+        104714 / 24 = 4363.08
+        ```
+
+- SmolLM3 Model size:
+
+    ```bash
+    [smollm3-nLayers18][nlayers: 18] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers18, args.global_batch_size: 48, created_at: 2025-08-21-131910	2.454792192
+    [smollm3-nLayers16][nlayers: 16] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers16, args.global_batch_size: 48, created_at: 2025-08-21-125937	2.298546176
+    [smollm3-nLayers14][nlayers: 14] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers14, args.global_batch_size: 48, created_at: 2025-08-21-140507	2.14230016
+    [smollm3-nLayers12][nlayers: 12] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers12, args.global_batch_size: 48, created_at: 2025-08-21-135339	1.986054144
+    [smollm3-nLayers10][nlayers: 10] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers10, args.global_batch_size: 48, created_at: 2025-08-21-134749	1.829808128
+    [smollm3-nLayers8][nlayers: 8] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: smollm3-nLayers8, args.global_batch_size: 48, created_at: 2025-08-21-135130 1.673562112
+    ```
+
+- Explicitly:
+
+    ```bash
+    [llama3-3B-nLayers14][nlayers: 14] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers14, args.global_batch_size: 48, created_at: 2025-08-21-124405	2.982239232
+    [llama3-3B-nLayers12][nlayers: 12] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers12, args.global_batch_size: 48, created_at: 2025-08-21-133138	2.780900352
+    [llama3-3B-nLayers12][nlayers: 12] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers12, args.global_batch_size: 96, created_at: 2025-08-21-121138	2.780900352
+    [llama3-3B-nLayers10][nlayers: 10] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers10, args.global_batch_size: 48, created_at: 2025-08-21-134052	2.579561472
+    [llama3-3B-nLayers10][nlayers: 10] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers10, args.global_batch_size: 48, created_at: 2025-08-21-122810	2.579561472
+    [llama3-3B-nLayers8][nlayers: 8] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers8, args.global_batch_size: 48, created_at: 2025-08-21-134526	2.378222592
+    [llama3-3B-nLayers6][nlayers: 6] machine: Aurora, env.NHOSTS: 2, env.MODEL_ARCH: llama3-3B-nLayers6, args.global_batch_size: 48, created_at: 2025-08-21-142250	2.176883712
+    ```
diff --git a/ALCF/notes/assets/cooldown-grad-norm.png b/ALCF/notes/assets/cooldown-grad-norm.png
new file mode 100644
index 00000000000..26a970ec0ff
Binary files /dev/null and b/ALCF/notes/assets/cooldown-grad-norm.png differ
diff --git a/ALCF/notes/assets/cooldown-grid.png b/ALCF/notes/assets/cooldown-grid.png
new file mode 100644
index 00000000000..b78119012d8
Binary files /dev/null and b/ALCF/notes/assets/cooldown-grid.png differ
diff --git a/ALCF/notes/assets/cooldown-lr.png b/ALCF/notes/assets/cooldown-lr.png
new file mode 100644
index 00000000000..39db729b058
Binary files /dev/null and b/ALCF/notes/assets/cooldown-lr.png differ
diff --git a/ALCF/notes/assets/cooldown-train-loss.png b/ALCF/notes/assets/cooldown-train-loss.png
new file mode 100644
index 00000000000..94512194c37
Binary files /dev/null and b/ALCF/notes/assets/cooldown-train-loss.png differ
diff --git a/ALCF/notes/assets/cooldown-val-loss.png b/ALCF/notes/assets/cooldown-val-loss.png
new file mode 100644
index 00000000000..a81af67ebad
Binary files /dev/null and b/ALCF/notes/assets/cooldown-val-loss.png differ
diff --git a/ALCF/notes/assets/cooldown-wide.png b/ALCF/notes/assets/cooldown-wide.png
new file mode 100644
index 00000000000..37c25b87ecb
Binary files /dev/null and b/ALCF/notes/assets/cooldown-wide.png differ
diff --git a/ALCF/notes/assets/cooldown.png b/ALCF/notes/assets/cooldown.png
new file mode 100644
index 00000000000..0d34decfed6
Binary files /dev/null and b/ALCF/notes/assets/cooldown.png differ
diff --git a/ALCF/notes/assets/cpt_images/CPT_data_mixing.png b/ALCF/notes/assets/cpt_images/CPT_data_mixing.png
new file mode 100644
index 00000000000..3258af13d46
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/CPT_data_mixing.png differ
diff --git a/ALCF/notes/assets/cpt_images/readme.md b/ALCF/notes/assets/cpt_images/readme.md
new file mode 100644
index 00000000000..5cc98683a5a
--- /dev/null
+++ b/ALCF/notes/assets/cpt_images/readme.md
@@ -0,0 +1 @@
+Pictures used in cpt documentation file
diff --git a/ALCF/notes/assets/cpt_images/stages_training_initial-1.png b/ALCF/notes/assets/cpt_images/stages_training_initial-1.png
new file mode 100644
index 00000000000..b83de36cdd7
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/stages_training_initial-1.png differ
diff --git a/ALCF/notes/assets/cpt_images/strategy3_cpt_stage2tostage3_decay-1.png b/ALCF/notes/assets/cpt_images/strategy3_cpt_stage2tostage3_decay-1.png
new file mode 100644
index 00000000000..bd25c7f6802
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/strategy3_cpt_stage2tostage3_decay-1.png differ
diff --git a/ALCF/notes/assets/cpt_images/strategy3_cpt_stage3tostage4ifprevdecay-1.png b/ALCF/notes/assets/cpt_images/strategy3_cpt_stage3tostage4ifprevdecay-1.png
new file mode 100644
index 00000000000..4d08349645c
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/strategy3_cpt_stage3tostage4ifprevdecay-1.png differ
diff --git a/ALCF/notes/assets/cpt_images/strategy_cpt_stage1tostage2-1.png b/ALCF/notes/assets/cpt_images/strategy_cpt_stage1tostage2-1.png
new file mode 100644
index 00000000000..238ae88c8fe
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/strategy_cpt_stage1tostage2-1.png differ
diff --git a/ALCF/notes/assets/cpt_images/strategy_cpt_stage2tostage3-1.png b/ALCF/notes/assets/cpt_images/strategy_cpt_stage2tostage3-1.png
new file mode 100644
index 00000000000..dcaebb109bb
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/strategy_cpt_stage2tostage3-1.png differ
diff --git a/ALCF/notes/assets/cpt_images/strategy_cpt_stage3tostage4-1.png b/ALCF/notes/assets/cpt_images/strategy_cpt_stage3tostage4-1.png
new file mode 100644
index 00000000000..fd4d59bf4e0
Binary files /dev/null and b/ALCF/notes/assets/cpt_images/strategy_cpt_stage3tostage4-1.png differ
diff --git a/ALCF/notes/assets/lb_optimizers/lr_finder_example.png b/ALCF/notes/assets/lb_optimizers/lr_finder_example.png
new file mode 100644
index 00000000000..5e5b195ecac
Binary files /dev/null and b/ALCF/notes/assets/lb_optimizers/lr_finder_example.png differ
diff --git a/ALCF/notes/assets/lb_optimizers/readme.md b/ALCF/notes/assets/lb_optimizers/readme.md
new file mode 100644
index 00000000000..cd73cc337a6
--- /dev/null
+++ b/ALCF/notes/assets/lb_optimizers/readme.md
@@ -0,0 +1 @@
+Images for the large_batch_optimizers_settings document
diff --git a/ALCF/notes/checkpoints.md b/ALCF/notes/checkpoints.md
new file mode 100644
index 00000000000..f5acd425a73
--- /dev/null
+++ b/ALCF/notes/checkpoints.md
@@ -0,0 +1,207 @@
+# Converting Checkpoints
+
+## Megatron $\rightarrow$ 🤗 HuggingFace
+
+On Aurora,
+
+- Setup:
+
+    ```bash
+    CKPT_ROOT="/flare/Aurora_deployment/AuroraGPT-Testing/foremans/rollback-41k8/Megatron-DeepSpeed-41800/checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05";
+
+    LAST_STEP=$(cat "${CKPT_ROOT}/latest_checkpointed_iteration.txt")
+    GLOBAL_STEP="${GLOBAL_STEP:-${LAST_STEP}}"
+
+    SRC="${CKPT_ROOT}/global_step${GLOBAL_STEP}"
+
+    OUTPUT_PARENT="/flare/Aurora_deployment/AuroraGPT-Checkpoints/production-checkpoints/aGPT-7B/HF"
+    DST="${OUTPUT_PARENT}/global_step${GLOBAL_STEP}_hf"
+
+    printf "SRC: %s\n DST: %s\n" "${SRC}" "${DST}"
+    ```
+
+- Convert:
+
+    ```bash
+    python3 Megatron-DeepSpeed/mds_to_hf.py \
+        --mds_checkpoint "${SRC}/mp_rank_00_model_states.pt" \
+        --output_dir "${DST}" \
+        --cache_dir "./.cache"
+    ```
+
+<!-- ```bash -->
+<!-- # [SRC]: Megatron-DeepSpeed checkpoint -->
+<!-- GLOBAL_STEP=77000 -->
+<!-- CKPT_ROOT="/flare/Aurora_deployment/AuroraGPT-Testing/foremans/rollback-41k8/Megatron-DeepSpeed-41800/checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05" -->
+<!-- SRC="${CKPT_ROOT}/global_step${GLOBAL_STEP}" -->
+<!-- # [DST]: HuggingFace checkpoint -->
+<!-- OUTPUT_PARENT="/flare/Aurora_deployment/AuroraGPT-Checkpoints/production-checkpoints/aGPT-7B/HF/" -->
+<!-- DST="${OUTPUT_PARENT}/global_step${GLOBAL_STEP}_hf" -->
+<!-- # Convert [SRC] --> [DST] -->
+<!-- # using `argonne-lcf/Megatron-DeepSpeed/mds_to_hf.py` -->
+<!-- # see: -->
+<!-- #   https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/mds_to_hf.py -->
+<!-- # for implementation -->
+<!-- python3 \ -->
+<!--     Megatron-DeepSpeed/mds_to_hf.py \ -->
+<!--     --mds_checkpoint "${SRC}/mp_rank_00_model_states.pt" \ -->
+<!--     --output_dir "${DST}" \ -->
+<!--     --cache_dir "./.cache" -->
+<!-- ``` -->
+
+## Use in 🤗 `transformers`
+
+```python
+from pathlib import Path
+import time
+from rich import print
+from typing import Optional
+from transformers import LlamaForCausalLM, AutoTokenizer
+
+def load_model(ckpt_dir: str, step: Optional[int] = None):
+    if step is None:
+        fp = Path(ckpt_dir)
+    else:
+        fp = Path(ckpt_dir).joinpath(f"global_step{step}_hf")
+    print(f"Loading ckpt from: {fp}")
+    if fp.exists():
+        model = LlamaForCausalLM.from_pretrained(fp.as_posix())
+        print(f"{model=}")
+        return model
+
+    raise FileNotFoundError(f"Unable to locate checkpoint at: {fp}")
+
+
+def eval_model(
+        model: torch.nn.Module,
+        max_length: int = 64,
+        prompt: Optional[str] = None,
+        tokenizer: Optional[AutoTokenizer] = None,
+) -> str:
+    prompt = "What is it like in there?" if prompt is None else prompt
+    tokenizer = (
+        AutoTokenizer.from_pretrained("meta-llama/Llama-2-7B-hf")
+        if tokenizer is None else tokenizer
+    )
+    output = (
+        tokenizer.batch_decode(
+            model.generate(
+                **tokenizer(prompt, return_tensors="pt"),
+                 max_length=max_length,
+            ),
+            clean_up_tokenization_spaces=True,
+            skip_special_tokens=True,
+        )[0]
+    )
+    return output
+
+
+def loop_over_checkpoints(
+    steps_list: list[int],
+    ckpt_dir: str,
+    max_length: int = 128,
+    prompt: Optional[str] = None,
+):
+    for step in steps_list:
+        t0 = time.perf_counter()
+        prompt = "What is it like in there?" if prompt is None else prompt
+        print(f"\n Loading model from checkpoint at global step: {step}")
+        outputs = eval_model(
+            load_model(step, ckpt_dir),
+            max_length=max_length,
+            prompt=prompt,
+        )
+        print(f"{outputs}")
+        print(f"\ntook: {time.perf_counter() - t0:.6f}s\n")
+```
+
+```python
+>>> ckpt_dir = "/flare/Aurora_deployment/AuroraGPT-Checkpoints/production-checkpoints/aGPT-7B/HF/"
+>>> tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7B-hf")
+>>> model = load_model(76300, ckpt_dir)
+Loading ckpt from:
+/flare/Aurora_deployment/AuroraGPT-Checkpoints/production-checkpoints/aGPT-7B/HF/global_step76300_hf
+model=LlamaForCausalLM(
+  (model): LlamaModel(
+    (embed_tokens): Embedding(32000, 4096)
+    (layers): ModuleList(
+      (0-31): 32 x LlamaDecoderLayer(
+        (self_attn): LlamaSdpaAttention(
+          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
+          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
+          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
+          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
+          (rotary_emb): LlamaRotaryEmbedding()
+        )
+        (mlp): LlamaMLP(
+          (gate_proj): Linear(in_features=4096, out_features=11008, bias=False)
+          (up_proj): Linear(in_features=4096, out_features=11008, bias=False)
+          (down_proj): Linear(in_features=11008, out_features=4096, bias=False)
+          (act_fn): SiLU()
+        )
+        (input_layernorm): LlamaRMSNorm((4096,), eps=1e-05)
+        (post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-05)
+      )
+    )
+    (norm): LlamaRMSNorm((4096,), eps=1e-05)
+    (rotary_emb): LlamaRotaryEmbedding()
+  )
+  (lm_head): Linear(in_features=4096, out_features=32000, bias=False)
+)
+
+>>> print(
+...     eval_model(
+...         model,
+...         max_length=128,
+...         prompt="What is it like in there?",
+...         tokenizer=tokenizer
+...     )
+... )
+Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
+Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, whereit will always be FP32)
+What is it like in there?
+I've been in there a few times. It's a pretty cool place.
+I've been in there a few times. It's a pretty cool place.
+I've been in there a few times. It's a pretty cool place.
+I've been in there a few times. It's a pretty cool place.
+I've been in there a few times. It's a pretty cool place.
+I've been in there a few times. It's a pretty cool place.
+I've been in
+```
+
+## Helper Script
+
+```bash
+convert_mds_to_hf() {
+    if [[ "$#" -eq 3 ]]; then
+        GLOBAL_STEP=$1
+        CKPT_ROOT=$2
+        OUTPUT_PARENT=$3
+    elif [[ "$#" -eq 2 ]]; then
+        GLOBAL_STEP=$1
+        CKPT_ROOT=$2
+        OUPUT_PARENT=$(pwd)
+    elif [[ "$#" -eq 1 ]]; then
+        GLOBAL_STEP=$1
+        CKPT_ROOT="/flare/Aurora_deployment/AuroraGPT-Testing/foremans/rollback-41k8/Megatron-DeepSpeed-41800/checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/";
+        OUPUT_PARENT=$(pwd)
+    else
+        echo "Expected exactly 1, 2, or 3 arguments (global_step, src, dst, respectively)"
+        exit
+    fi
+    SRC="${CKPT_ROOT}/global_step${GLOBAL_STEP}"
+    DST="${OUTPUT_PARENT}/global_step${GLOBAL_STEP}_hf"
+    if [[ -d "${SRC}" ]]; then
+        echo "Converting checkpoint @ global step ${GLOBAL_STEP}"
+        echo "\tsrc = ${SRC}\n"
+        echo "\tdst = ${DST}\n"
+        python3 mds_to_hf.py \
+            --mds_checkpoint "${SRC}/mp_rank_00_model_states.pt" \
+            --output_dir "${DST}" \
+            --cache_dir "./.cache"
+    else
+        echo "Unable to locate directory ${SRC}. Exiting"
+        exit 1
+    fi
+}
+```
diff --git a/ALCF/notes/cooldown.md b/ALCF/notes/cooldown.md
new file mode 100644
index 00000000000..3eaf7fae4a3
--- /dev/null
+++ b/ALCF/notes/cooldown.md
@@ -0,0 +1,239 @@
+# 🧊 Cooling Down AuroraGPT-2B Checkpoints
+
+## 📉 Simple Experiment to Compare Validation Loss
+
+![Cool Down Comparison](./assets/cooldown-grid.png)
+
+See W&B Report: [Cooling Down
+Checkpoints](https://api.wandb.ai/links/aurora_gpt/dek99dmd) for more details.
+
+## ☃️ Cooling Down
+
+- 256 Nodes of Aurora:
+
+  - Cooled down over last 10\%:
+    - W&B Run: [volcanic-blaze-4312](https://wandb.ai/aurora_gpt/AuroraGPT/runs/7bjj8vgu/overview?nw=nwuserforemans)
+
+  - Explicit command:
+
+    ```bash
+    LR_DECAY_STYLE=constant \
+        OPT=ipex.fusedlamb \
+        OVERRIDE_CKPT_OPT_PARAM=1 \
+        TRAIN_ITERS=137650 \
+        GRAD_ACC_STEPS=2 \
+        LOAD=test_rollback \
+        DATA_FILE_LIST=ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+        bash train_alcf.sh \
+            --override-opt_param-scheduler \
+            --min-lr=2e-5 \
+            --lr_constant_plus_cooldown \
+            --lr_constant_plus_cooldown_frac=0.9
+    ```
+
+  - <details closed><summary>Example:</summary>
+
+    ```bash
+    #[🐍 aurora_frameworks-2025.2.0](👻 Megatron-DeepSpeed-aurora_frameworks-2025.2.0)
+    #[/f/A/A/E/A/c/r/Megatron-DeepSpeed][🌱 main][✅] [⏱️ 26m13s]
+    #[11/10/25 @ 10:19:03][x4417c6s4b0n0]
+    ; LR_DECAY_STYLE=constant \
+        LR=0.0002 \
+        OPT=ipex.fusedlamb \
+        OVERRIDE_CKPT_OPT_PARAM=1 \
+        TRAIN_ITERS=137650 \
+        GRAD_ACC_STEPS=2 \
+        LOAD=test_rollback \
+        DATA_FILE_LIST=ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+        bash train_alcf.sh \
+            --lr_constant_plus_cooldown \
+            --lr_constant_plus_cooldown_frac=0.9 \
+            --min-lr=2e-5 \
+            --override-opt_param-scheduler
+    [2025-11-10-095114][I][] Detected PBS scheduler environment.
+    [2025-11-10-095114][I][] running [ezpz_setup_env]...
+    [2025-11-10-095114][I][] [PYTHON]
+    [2025-11-10-095114][I][]   - Found both conda_prefix and virtual_env in environment.
+    [2025-11-10-095114][I][]   - Using conda from: /opt/aurora/25.190.0/frameworks/aurora_frameworks-2025.2.0
+    [2025-11-10-095114][I][]   - Using venv from: /lus/flare/projects/AuroraGPT/AuroraGPT-v1/Experiments/AuroraGPT-2B/cooldown-experiments/run-pt25-ipex-fusedlamb-
+    256-nodes/Megatron-DeepSpeed/venvs/aurora/Megatron-DeepSpeed-aurora_frameworks-2025.2.0
+    [2025-11-10-095114][I][]   - Using python from: /lus/flare/projects/AuroraGPT/AuroraGPT-v1/Experiments/AuroraGPT-2B/cooldown-experiments/run-pt25-ipex-fusedlam
+    b-256-nodes/Megatron-DeepSpeed/venvs/aurora/Megatron-DeepSpeed-aurora_frameworks-2025.2.0/bin/python3
+    [2025-11-10-095114][I][] [JOB]
+    [2025-11-10-095114][I][]   - Setting up env for foremans
+    [2025-11-10-095114][I][]   - Detected pbs scheduler
+    [2025-11-10-095114][I][]   - Machine: aurora
+    [2025-11-10-095114][I][]   - Hostname: x4417c6s4b0n0
+    [2025-11-10-095116][I][]   - PBS_JOBID=8140578.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov
+        to calculate:
+          - num_hosts: 256
+          - num_cores_per_host: 208
+          - num_cpus_per_host: 104
+          - num_gpus_per_host: 12
+          - depth: 8
+          - num_gpus: 3072
+    [2025-11-10-095116][I][] [HOSTS] - ezpz_print_hosts
+    [2025-11-10-095116][I][]   - Detected PBS Scheduler
+    [2025-11-10-095116][I][] [HOSTS]
+    [2025-11-10-095116][I][]   - HOSTFILE=/var/spool/pbs/aux/8140578.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov
+    [2025-11-10-095116][I][]   - NHOSTS=256
+    [2025-11-10-095116][I][]   - HOSTS:
+    [2025-11-10-095116][I][]     - [host:0] - x4417c6s4b0n0.hsn.cm.aurora.alcf.anl.gov
+    # [...clipped...]
+    [2025-11-10 09:56:45,204] [INFO] [config.py:684:__init__] Config mesh_device None world_size = 3072
+    [2025-11-10 09:56:45,302] [INFO] [utils.py:781:see_memory_usage] Before Building Model
+    [2025-11-10 09:56:45,303] [INFO] [utils.py:782:see_memory_usage] MA 0.0 GB         Max_MA 0.0 GB         CA 0.0 GB         Max_CA 0 GB
+    [2025-11-10 09:56:45,303] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 73.83 GB, percent = 6.5%
+    [2025-11-10 09:56:45,304] [INFO] [config.py:684:__init__] Config mesh_device None world_size = 3072
+    [2025-11-10 09:56:45,320815][I][Megatron-DeepSpeed/pretrain_gpt_alcf:151:model_provider] --------------------------------------------------------------------------------
+    [2025-11-10 09:56:45,321819][I][Megatron-DeepSpeed/pretrain_gpt_alcf:152:model_provider] Number of parameters in model: 1986054144
+    [2025-11-10 09:56:45,322546][I][Megatron-DeepSpeed/pretrain_gpt_alcf:153:model_provider] --------------------------------------------------------------------------------
+    [2025-11-10 09:56:45,484] [INFO] [utils.py:781:see_memory_usage] After Building Model
+    [2025-11-10 09:56:45,485] [INFO] [utils.py:782:see_memory_usage] MA 3.71 GB         Max_MA 3.71 GB         CA 3.72 GB         Max_CA 4 GB
+    [2025-11-10 09:56:45,485] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 73.84 GB, percent = 6.5%
+    [2025-11-10 09:56:45,485921][I][Megatron-DeepSpeed/pretrain_gpt_alcf:161:model_provider] Patching tensorboard from checkpoints/AuroraGPT-2B-ws3072-ds-stage1-nl12-hs2048-mb1-seq8192-gb6144-sp1-pp1-tp1-bf16-optipex.fusedlamb-lr0.0002-lwf0.05_ntok0B_flash/tensorboard
+    wandb: WARNING The get_url method is deprecated and will be removed in a future release. Please use `run.url` instead.
+    [2025-11-10 09:56:51,975268][I][Megatron-DeepSpeed/pretrain_gpt_alcf:168:model_provider] Updating WandB run.config: [sandy-darkness-4309](https://wandb.ai/aurora_gpt/AuroraGPT/runs/2cmpsosr)
+     > number of parameters on (tensor, pipeline) model parallel rank (0, 0)=1986054144
+    [2025-11-10 09:56:51,979967][I][megatron/optimizer_param_scheduler:89:__init__] > learning rate decay style: constant
+    [2025-11-10 09:56:51,980855][I][megatron/training:725:setup_model_and_optimizer] DeepSpeed is enabled.
+    [2025-11-10 09:56:51,981610][I][megatron/training:780:setup_model_and_optimizer] Did NOT catch: ('args.data_efficiency_curriculum_learning' and 'build_train_valid_test_datasets_provider is not None')
+    [2025-11-10 09:56:51,982375][I][megatron/training:789:setup_model_and_optimizer] Calling 'deepspeed.initialize'...
+    [2025-11-10 09:56:51,983047][I][megatron/training:790:setup_model_and_optimizer] Wrapped with: profiler=<megatron.utils.Profile object at 0x1472dc6c21a0>
+    [2025-11-10 09:56:51,983] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed info: version=0.17.5, git-hash=unknown, git-branch=unknown
+    # [...clipped...]
+    [2025-11-10 09:43:36,149] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 715.45 | bwd_microstep: 2402.91 | bwd_inner_microstep: 1223.71 | bwd_allreduce_microstep: 1178.40 | step_microstep: 160.78
+    [2025-11-10 09:43:36,149] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 715.40 | bwd: 2402.86 | bwd_inner: 1223.70 | bwd_allreduce: 1178.40 | step: 160.79
+    [2025-11-10 09:43:36,161992][I][megatron/training_log:402:training_log]  iteration=  136004/  136100 | consumed_samples=   835608576 | consumed_tokens=6845305454592 | elapsed_time_per_iteration_ms=3415.3 | learning_rate=2.0127e-05 | global_batch_size= 6144 | lm loss=12.316531 | loss_scale=1.0 | grad_norm=1020.352 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=1798.971 | tokens_per_gpu_per_second_tgs=4797.255 | TFLOPs=53.66 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (3198.27, 3199.53)
+        optimizer ......................................: (158.53, 166.36)
+    [2025-11-10 09:43:39,572] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 167.02 | optimizer_gradients: 0.46 | optimizer_step: 1.13
+    [2025-11-10 09:43:39,573] [INFO] [logging.py:107:log_dist] [Rank 0] step=136005, skipped=0, lr=[2.012568679065123e-05, 2.012568679065123e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:43:39,573] [INFO] [timer.py:264:stop] epoch=0/micro_step=5/global_step=5, RunningAvgSamplesPerSec=2443.9516881034883, CurrSamplesPerSec=2553.443452275532, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:43:39,574] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 713.96 | bwd_microstep: 2398.60 | bwd_inner_microstep: 1222.63 | bwd_allreduce_microstep: 1175.22 | step_microstep: 173.52
+    [2025-11-10 09:43:39,574] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 713.90 | bwd: 2398.57 | bwd_inner: 1222.62 | bwd_allreduce: 1175.27 | step: 173.53
+    [2025-11-10 09:43:39,582716][I][megatron/training_log:402:training_log]  iteration=  136005/  136100 | consumed_samples=   835614720 | consumed_tokens=6845355786240 | elapsed_time_per_iteration_ms=3420.2 | learning_rate=2.01257e-05 | global_batch_size= 6144 | lm loss=11.967899 | loss_scale=1.0 | grad_norm=735.534 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=1796.410 | tokens_per_gpu_per_second_tgs=4790.426 | TFLOPs=53.59 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (3194.05, 3195.63)
+        optimizer ......................................: (170.97, 175.03)
+    [2025-11-10 09:43:46,436] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 157.82 | optimizer_gradients: 0.47 | optimizer_step: 1.12
+    [2025-11-10 09:43:46,436] [INFO] [logging.py:107:log_dist] [Rank 0] step=136006, skipped=0, lr=[2.0124363314442905e-05, 2.0124363314442905e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:43:46,437] [INFO] [timer.py:264:stop] epoch=0/micro_step=6/global_step=6, RunningAvgSamplesPerSec=2472.2740699287133, CurrSamplesPerSec=2561.3206693919196, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:43:46,438] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 714.84 | bwd_microstep: 2347.61 | bwd_inner_microstep: 1165.11 | bwd_allreduce_microstep: 1181.70 | step_microstep: 164.54
+    [2025-11-10 09:43:46,438] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 714.77 | bwd: 2347.57 | bwd_inner: 1165.11 | bwd_allreduce: 1181.73 | step: 164.55
+    [2025-11-10 09:43:46,446173][I][megatron/training_log:402:training_log]  iteration=  136006/  136100 | consumed_samples=   835620864 | consumed_tokens=6845406117888 | elapsed_time_per_iteration_ms=6863.2 | learning_rate=2.01244e-05 | global_batch_size= 6144 | lm loss=11.744588 | loss_scale=1.0 | grad_norm=527.276 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=895.207 | tokens_per_gpu_per_second_tgs=2387.220 | TFLOPs=26.70 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (6639.44, 6640.87)
+        optimizer ......................................: (161.40, 165.76)
+    [2025-11-10 09:43:49,839] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 150.38 | optimizer_gradients: 0.47 | optimizer_step: 1.12
+    [2025-11-10 09:43:49,839] [INFO] [logging.py:107:log_dist] [Rank 0] step=136007, skipped=0, lr=[2.012303984797229e-05, 2.012303984797229e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:43:49,840] [INFO] [timer.py:264:stop] epoch=0/micro_step=7/global_step=7, RunningAvgSamplesPerSec=2492.441497638933, CurrSamplesPerSec=2576.511402462105, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:43:49,841] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 714.13 | bwd_microstep: 2397.86 | bwd_inner_microstep: 1224.18 | bwd_allreduce_microstep: 1172.96 | step_microstep: 156.83
+    [2025-11-10 09:43:49,841] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 714.07 | bwd: 2397.83 | bwd_inner: 1224.17 | bwd_allreduce: 1172.99 | step: 156.84
+    [2025-11-10 09:43:49,849423][I][megatron/training_log:402:training_log]  iteration=  136007/  136100 | consumed_samples=   835627008 | consumed_tokens=6845456449536 | elapsed_time_per_iteration_ms=3402.7 | learning_rate=2.0123e-05 | global_batch_size= 6144 | lm loss=11.613136 | loss_scale=1.0 | grad_norm=579.721 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=1805.618 | tokens_per_gpu_per_second_tgs=4814.980 | TFLOPs=53.86 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (3191.89, 3193.07)
+        optimizer ......................................: (154.73, 158.25)
+    [2025-11-10 09:43:55,173] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 144.15 | optimizer_gradients: 0.47 | optimizer_step: 1.13
+    [2025-11-10 09:43:55,174] [INFO] [logging.py:107:log_dist] [Rank 0] step=136008, skipped=0, lr=[2.0121716391239166e-05, 2.0121716391239166e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:43:55,175] [INFO] [timer.py:264:stop] epoch=0/micro_step=8/global_step=8, RunningAvgSamplesPerSec=2214.823701527157, CurrSamplesPerSec=1422.5676763766571, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:43:55,175] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 714.49 | bwd_microstep: 2325.32 | bwd_inner_microstep: 1170.29 | bwd_allreduce_microstep: 1154.19 | step_microstep: 150.72
+    [2025-11-10 09:43:55,176] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 714.43 | bwd: 2325.28 | bwd_inner: 1170.29 | bwd_allreduce: 1154.22 | step: 150.73
+    [2025-11-10 09:43:55,183901][I][megatron/training_log:402:training_log]  iteration=  136008/  136100 | consumed_samples=   835633152 | consumed_tokens=6845506781184 | elapsed_time_per_iteration_ms=5334.1 | learning_rate=2.01217e-05 | global_batch_size= 6144 | lm loss=11.405020 | loss_scale=1.0 | grad_norm=230.690 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=1151.839 | tokens_per_gpu_per_second_tgs=3071.570 | TFLOPs=34.36 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (5129.49, 5130.83)
+        optimizer ......................................: (147.99, 152.14)
+    [2025-11-10 09:43:58,569] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 138.00 | optimizer_gradients: 0.47 | optimizer_step: 1.12
+    [2025-11-10 09:43:58,570] [INFO] [logging.py:107:log_dist] [Rank 0] step=136009, skipped=0, lr=[2.0120392944243313e-05, 2.0120392944243313e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:43:58,570] [INFO] [timer.py:264:stop] epoch=0/micro_step=9/global_step=9, RunningAvgSamplesPerSec=2261.5249756425674, CurrSamplesPerSec=2589.0806546406557, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:43:58,571] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 716.27 | bwd_microstep: 2402.82 | bwd_inner_microstep: 1226.62 | bwd_allreduce_microstep: 1175.49 | step_microstep: 144.53
+    [2025-11-10 09:43:58,571] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 716.21 | bwd: 2402.79 | bwd_inner: 1226.63 | bwd_allreduce: 1175.53 | step: 144.54
+    [2025-11-10 09:43:58,579283][I][megatron/training_log:402:training_log]  iteration=  136009/  136100 | consumed_samples=   835639296 | consumed_tokens=6845557112832 | elapsed_time_per_iteration_ms=3394.8 | learning_rate=2.01204e-05 | global_batch_size= 6144 | lm loss=11.290359 | loss_scale=1.0 | grad_norm=326.170 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=1809.814 | tokens_per_gpu_per_second_tgs=4826.171 | TFLOPs=53.99 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (3194.54, 3195.97)
+        optimizer ......................................: (141.84, 145.75)
+    [2025-11-10 09:44:01,970] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 137.27 | optimizer_gradients: 0.48 | optimizer_step: 1.13
+    [2025-11-10 09:44:01,971] [INFO] [logging.py:107:log_dist] [Rank 0] step=136010, skipped=0, lr=[2.011906950698453e-05, 2.011906950698453e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:44:01,972] [INFO] [timer.py:264:stop] epoch=0/micro_step=10/global_step=10, RunningAvgSamplesPerSec=2296.9740702454246, CurrSamplesPerSec=2580.0686696658236, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:44:01,972] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 713.33 | bwd_microstep: 2403.22 | bwd_inner_microstep: 1220.85 | bwd_allreduce_microstep: 1181.64 | step_microstep: 143.81
+    [2025-11-10 09:44:01,973] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 713.27 | bwd: 2403.19 | bwd_inner: 1220.86 | bwd_allreduce: 1181.69 | step: 143.82
+    [2025-11-10 09:44:01,981208][I][megatron/training_log:402:training_log]  iteration=  136010/  136100 | consumed_samples=   835645440 | consumed_tokens=6845607444480 | elapsed_time_per_iteration_ms=3401.5 | learning_rate=2.01191e-05 | global_batch_size= 6144 | lm loss=11.142616 | loss_scale=1.0 | grad_norm=184.646 | actual_seqlen= 8192 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=1806.288 | tokens_per_gpu_per_second_tgs=4816.769 | TFLOPs=53.88 |
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (3196.98, 3200.27)
+        optimizer ......................................: (141.42, 145.17)
+    [2025-11-10 09:44:05,471] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | optimizer_allgather: 131.87 | optimizer_gradients: 0.47 | optimizer_step: 1.14
+    [2025-11-10 09:44:05,472] [INFO] [logging.py:107:log_dist] [Rank 0] step=136011, skipped=0, lr=[2.0117746079462598e-05, 2.0117746079462598e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+    [2025-11-10 09:44:05,473] [INFO] [timer.py:264:stop] epoch=0/micro_step=11/global_step=11, RunningAvgSamplesPerSec=2327.316936098493, CurrSamplesPerSec=2602.3285686919153, MemAllocated=3.71GB, MaxMemAllocated=39.0GB
+    [2025-11-10 09:44:05,473] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd_microstep: 719.44 | bwd_microstep: 2365.65 | bwd_inner_microstep: 1195.86 | bwd_allreduce_microstep: 1169.15 | step_microstep: 138.29
+    [2025-11-10 09:44:05,474] [INFO] [logging.py:107:log_dist] [Rank 0] time (ms) | fwd: 719.38 | bwd: 2365.62 | bwd_inner: 1195.82 | bwd_allreduce: 1169.19 | step: 138.30
+    [2025-11-10 12:29:56,532794][I][megatron/training:1534:evaluate] Evaluating iter 19/20
+    [2025-11-10 12:29:57,331870][I][megatron/training:1534:evaluate] Evaluating iter 20/20
+    [2025-11-10 12:29:58,133928][I][megatron/training:1692:evaluate_and_print_results] -----------------------------------------------------------------------------------------------------------------------------
+    [2025-11-10 12:29:58,134910][I][megatron/training:1693:evaluate_and_print_results]  validation loss at iteration 137650 on 122880-sample draw from validation set | lm loss value=2.697780lm loss PPL=14.846734
+    [2025-11-10 12:29:58,136014][I][megatron/training:1694:evaluate_and_print_results] -----------------------------------------------------------------------------------------------------------------------------
+    Comm. Op            Message Size        Count               Total Latency(ms)   Avg Latency(ms)     tput_avg (Gbps)     busbw_avg (Gbps)
+    broadcast
+                        4.0 KB              25                  980.95              0.33                0.11                0.11
+                        8.0 MB              12                  214.59              12.05               8.72                8.72
+                        12.0 MB             12                  354.42              12.34               10.63               10.63
+                        43.0 MB             12                  346.20              23.60               16.63               16.63
+                        86.0 MB             12                  492.66              37.23               20.63               20.63
+                        1000.0 MB           2                   62863.52            31431.76            11.92               11.92
+    all_reduce
+                        4.0 B               3300                1828.19             0.53                0.00                0.00
+                        20.0 B              68                  238.60              3.36                0.00                0.00
+                        100.0 KB            1650                108812.85           26.15               0.53                0.53
+                        45.6 MB             1650                59143.33            31.96               24.15               24.14
+                        45.62 MB            1650                72884.32            42.17               18.16               18.15
+                        874.0 MB            1650                -259904.95          246.25              59.55               59.53
+                        914.0 MB            1650                -296460.05          230.41              66.55               66.53
+                        954.38 MB           1650                -223315.44          268.82              59.56               59.54
+                        954.4 MB            1650                497077.13           285.12              56.16               56.14
+    all_gather_into_tensor
+                        36.0 B              1650                61948.81            37.49               0.02                0.02
+                        1.23 MB             1650                -527532.78          95.50               332.86              332.75
+    barrier
+                        0B                  68                  6248.29             14.28               0.00                0.00
+    log_summary_barrier
+                        0B                  1                   498.65              498.65              0.00                0.00
+    wandb.run.name: volcanic-blaze-4312
+    wandb.run.url: https://wandb.ai/aurora_gpt/AuroraGPT/runs/7bjj8vgu
+    wandb: updating run metadata
+    wandb: uploading config.yaml
+    wandb:
+    wandb: Run summary:
+    wandb:                learning-rate/iteration 137650
+    wandb:            learning-rate/learning-rate 2e-05
+    wandb: lm-loss-training/consumed_train_tokens 6928151347200
+    wandb:             lm-loss-training/iteration 137650
+    wandb:               lm-loss-training/lm loss 2.69441
+    wandb:                         loss/grad_norm 3.39173
+    wandb:                         loss/iteration 137650
+    wandb:                           loss/lm loss 2.69441
+    wandb:                       loss/lm loss_avg 2.69441
+    wandb:                        loss/loss_scale 1
+    wandb:                                    +50 ...
+    wandb:
+    wandb:  View run volcanic-blaze-4312 at: https://wandb.ai/aurora_gpt/AuroraGPT/runs/7bjj8vgu
+    wandb:  View project at: https://wandb.ai/aurora_gpt/AuroraGPT
+    wandb: Synced 8 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
+    wandb: Find logs at: ./wandb/run-20251110_102334-7bjj8vgu/logs
+    Application 5d196584 resources: utime=21540179s stime=2039451s maxrss=46631076KB inblock=18009722136 oublock=2015065920 minflt=16872908673 majflt=453960025 nvcsw=11096789454 nivcsw=10717725
+    [2025-11-10 12:30:19,247084][I][ezpz/launch:402:launch] Execution finished with 0.
+    [2025-11-10 12:30:19,247825][I][ezpz/launch:403:launch] Executing finished in 7795.27 seconds.
+    [2025-11-10 12:30:19,248203][I][ezpz/launch:404:launch] Took 7795.28 seconds to run. Exiting.
+    took: 2h 11m 1s
+    ```
+
+  </details>
+
+
+## ♻️ Convert to Universal (Optional)
+
+```bash
+TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1 python3 ALCF/ds_to_universal.py \
+    --input_folder test_rollback/global_step136000 \
+    --output_folder test_rollback/global_step136000_universal
+```
+
diff --git a/ALCF/notes/cpt.md b/ALCF/notes/cpt.md
new file mode 100644
index 00000000000..26f3811ba5f
--- /dev/null
+++ b/ALCF/notes/cpt.md
@@ -0,0 +1,212 @@
+# CPT
+This document serves as a **strategy cookbook** for doing CPT for auroraGPT V1.
+
+Continual pre-training (CPT) is the process of training a model on new data over time while retaining previously learned knowledge and avoiding forgetting. Unlike fine-tuning, the goal of CPT is **not** to optimize performance on a specific downstream task. Instead, CPT aims to **retain and incrementally improve general model knowledge** as new data are streamed, while mitigating catastrophic forgetting.
+
+In this document, we focus on two CPT approaches: a **data-centric strategy** and an **optimization (learning-rate) strategy**. As a result, the following components are **fixed** across all runs:
+
+- Model architecture  
+- Sequence length  
+- Optimizer  
+  *(although it may be interesting to explore how changing optimizers across stages affects training)*  
+- All hyperparameters except the learning rate  
+- Evaluation and validation tasks  
+  *(these must be fixed from the start and remain consistent across stages)*
+
+
+In what follows, we assume that the base model was trained on dataset $D_0$, and we denote subsequent datasets by $D_i$, with $i = 1, \ldots, N$.
+
+Under this convention:
+- **Stage 1** corresponds to training on $D_0$,
+- **Stage 2** corresponds to training on $D_1$,
+- **Stage 3** corresponds to training on $D_2$,
+- **Stage 4** corresponds to training on $D_3$,
+
+We denote by $D^{CPT}_i$ the **training data actually used for CPT at stage $i$** (which may be a mixture of multiple datasets, depending on the strategy).
+
+A CPT strategy for the legacy model (**agpt-7B**) is provided at the end of this document.
+
+## Recommended CPT strategies by stage
+
+| CPT Stages | Distribution shift | Primary strategy | Fallbacks | Notes |
+|------|--------------------|------------------|-------------|-------|
+| Stage 1 → 2 | Weak | Naive CPT wih $D_1$ (no replay, no mixing) | 5% Replay: $D^{CPT}_{2} = 0.05D_0 + 0.95D_1$| Add $D_1$ to buffer $B$ |
+| Stage 2 → 3 | Strong | 5-30% replay of $D^{CPT}_{2}$ and monitor loss  | Use buffer: $0.33D_0 + 0.33D_2 + 0.34B$| Add $D_2$ to buffer $B$, you might need to switch to LR centric strategy, see below |
+| Stage 3 → 4 | Strong | Cooldown with mix  $0.33D_0 + 0.33D_3 + 0.34B$ |  Cooldown with mix  $0.05D_0 + 0.47D_3 + 0.48B$  | You will need to continue decay if used in previous stage. Play with decay function,stages, and final LR value |
+
+
+
+## AuroraGPT V1 (Stages 1 to 4)
+![different stages](./assets/cpt_images/stages_training_initial-1.png)
+For these runs, we consider **four stages of training**, with the first stage producing the pretrained (base) model.
+
+A key component of our setup is the **learning-rate scheduler**. Unlike the legacy model, we use an **infinite scheduler**, in which the learning rate is warmed up to $LR_{\max}$, held constant, and then cooled down to convergence. The main advantage of this approach is that it **avoids rewarming the learning rate during CPT**, which can otherwise introduce instabilities.
+
+As a result, we primarily adopt a **data-centric strategy** throughout these stages, resorting to learning-rate adjustments only when necessary.
+
+The dataset $D_0$ for pretraining is Olmo-mix and has 4 Trillion tokens, then $D_1$ has 2 Trillion tokens from Dolmino and fineweb Edu meaning the data distribution between these two stages is weak. We then have $D_2$ for stage 3 that has 1.5 trillion tokens from math, code, ans science papers. Finally, we have $D_3$ stage 4 made of 0.5 trillion tokens from reasoning traces. 
+
+| Stage | Dataset Symbol | Size | Source / Path | Notes |
+|------:|----------------|----------------------|---------------|-------|
+| 1 | D₀ |  4T | Olmo-mix | Pretraining |
+| 2 | D₁ | 2T | Dolmino and fineweb Edu | High quality focused data |
+| 3 | D₂ | 1.5T |Open Alex, and proof pile II | Math, code, science focused |
+| 4 | D₃ | 0.5T |OpenMathInstruct, CoT Collection, AQUA-RAT, Llama-Nemotron Dataset, GSM8K, OpenHermes  | reasoning traces |
+
+## Data centric strategy ##
+The main thing to determine is the **data-mixing strategy**. To avoid catastrophic forgetting, we sample from the pretraining dataset $D_0$, the current dataset $D_i$, and, when necessary, from a buffer $B$ containing data from previous stages $D_1, \ldots, D_{i-1}$.
+
+This requires defining sampling weights:
+- $\alpha_0$ for the pretraining data $D_0$,
+- $\alpha_D$ for the current dataset $D_i$,
+- $\alpha_B$ for the buffer $B$,
+
+with the constraint
+\[
+\alpha_0 + \alpha_D + \alpha_B = 1.
+\]
+See the figure below from this [paper](https://arxiv.org/pdf/2408.14471)
+![data mixing](./assets/cpt_images/CPT_data_mixing.png)
+Note that data are added to the buffer $B$ **after** the current stage completes and are used only in subsequent stages. That is, at sampling time during stage $i$, the buffer $B$ contains data exclusively from **previous stages**.
+
+#### Stage 1 to stage 2 (weak distribution shift)
+##### Strategy 1: No replay
+`Important: USE A CHECKPOINT AT LR=LR_max i.e. BEFORE COOLING DOWN`.
+
+Naively continue training with $D_1$, no replay data. 
+- Continue training using only the current dataset $D_1$
+- No replay from $D_0$ or buffer data
+This may be sufficient under weak distribution shift but there is potential risks of forgetting
+
+##### Strategy 2: Replay from pretraining dataset
+`Important: USE A CHECKPOINT AT LR=LR_max i.e. BEFORE COOLING DOWN`. Then,replay the pretraining dataset
+ We mix data from:
+- the pretraining dataset $D_0$,
+- the current CPT dataset $D_1$.
+
+No buffer data is used at this stage, $\alpha_B=0$.
+
+###### Mixing weights
+- Start conservatively:
+  - $\alpha_0 = 0.05$–$0.10$
+  - $\alpha_D = 1 - \alpha_0$
+> In practice, $\alpha_0 = 0.05$ is often a safe starting point.
+> Increase up to 25–30% only if forgetting is observed.
+![stage 1 to 2](./assets/cpt_images/strategy_cpt_stage1tostage2-1.png)
+
+
+**Dataset construction**
+   Use [mix_datasets.py](https://github.com/zhenghh04/blendcorpus/blob/main/utils/mix_datasets.py) function to build your cpt dataset. For example, to mix the lucid papers with weight 0.9 and the dolma dataset with weight 0.1, you do
+ ```bash
+python3 mix_datasets.py --input 0.9 /flare/Aurora_deployment/AuroraGPT/datasets/papers/papers.txt 0.1 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/dolma_v1_7_file_list_v2.txt > ${debug_dir}/Megatron-DeepSpeed/ALCF/data-lists/aurora/mix_lucid_papers09_dolma01.txt
+```
+2. **Start building the buffer $B$** in prevision of the next stages.
+3. **Run CPT**: Load your checkpoint and run CPT with the --finetube flag.
+Note that you might need to convert your checkpoints following [these instructions](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/notes/universal_checkpoint_bug.md) to a universal checkpoint.
+
+At the end of this stage, we have $D^{CPT}_1$.
+
+
+#### Stage 2 to stage 3 (shift to math/code datasets)
+##### Naive strategy
+You can try the naive approach but it might not work here, stop early if loss does not recover.
+##### Strategy 2
+Mix in the final dataset $D^{CPT}_1$ used in Stage 1.
+1. Construct a mixed dataset containing the final dataset $D^{CPT}_1$ used in stage 2 and $D_3$.
+2. Follow the same procedure as in the previous mixing strategy. At this point, the model has seen 6T tokens and $D_3$ contains 1.5T. Here, give $D_3$ less weight.
+##### Strategy 3
+![stage 2 to 3](./assets/cpt_images/strategy_cpt_stage2tostage3-1.png)
+If the loss is not recovering, sample from $D_0$, $D_2$ (not the final mix after stage 1), and the buffer $B$.
+Start with the following candidate weights (some exploration may be required):
+ - **Mix A:**  
+  - `D0`: 0.33  
+  - `D2`: 0.33  
+  - `B`: 0.34
+   
+- **Mix B:**  
+  - `D0`: 0.05  
+  - `D2`: 0.48  
+  - `B`: 0.47  
+
+- **Mix C:** (this is called IIDifying the dataset)  
+  - `D0`: 0.00  
+  - `D2`: 0.10  
+  - `B`: 0.90
+Notes:
+- Even a small weight on `D0` can help stabilize optimization.
+- The buffer should contain representative or difficult samples from earlier stages.
+- **Important:** Add samples from `D2` to the buffer at the end of this stage for use in the next training stage.
+
+##### Strategy 4 (if all else fails)
+![stage 2 to 3 decay](./assets/cpt_images/strategy3_cpt_stage2tostage3_decay-1.png)
+If all previous strategies fail, apply the following procedure:
+
+- Take a checkpoint **before convergence** (i.e., **before cooldown**).
+- Continue training on the **base dataset** using one of the following:
+  - a cosine scheduler decaying to **`LR_3 = LR_max / N`**, or
+  - a cooldown to **`LR_max / N`**.  
+  *(If resources allow, experiment with both. Try N=10, 50,100)*
+- Introduce the new dataset at **`LR = LR_max / 5`**.
+- When introducing the new dataset, **do not train on it exclusively**; always use a **mixed dataset**. Here try $\alpha_0=0.8 - 0.6$
+
+This follows the general recipe described in  
+[https://arxiv.org/pdf/2407.07263v1](https://arxiv.org/pdf/2407.07263v1)
+
+##### Strategy 5 (last resort)
+
+If Strategy 4 does not work:
+
+- Take a **converged checkpoint** (i.e., **after cooldown**).
+- Experiment with:
+  - rewarming the learning rate to a different max value, and
+  - adjusting the data-mixing strategy by **increasing the weight of pretraining data**.
+
+At the end of this stage, we have $D^{CPT}_2$.
+#### Stage 3 to stage 4 (shift to reasoning tracex)
+![stage 3 to 4](./assets/cpt_images/strategy_cpt_stage3tostage4-1.png)
+At this point, we only have ~6% of training left and one should start the final decay.
+
+***If we didn't use Strategy 4 above:***
+1. Try
+ **Mix A:**  
+  - `D0`: 0.33  
+  - `D_3`: 0.33  
+  - `B`: 0.34
+    
+ **Mix B:**  
+  - `D0`: 0.5  
+  - `D_3`: 0.25  
+  - `B`: 0.25
+2. Cooldown/decay the LR to convergence.
+
+***If we did use Strategy 4 above:***
+We should keep decaying with $D^{CPT}_2$ until $LR_3/100$ then introduce the new mix at $LR_3/5$
+![stage 3 to 4 previous devay](./assets/cpt_images/strategy3_cpt_stage3tostage4ifprevdecay-1.png)
+
+
+## Legacy agpt-7b checkpoints
+This is for doing CPT on the initial agpt-7B checkpoint where a cosine scheduler was used from `lr=0.0002` to 0. Here, the CPT stratregy followed is the [replay+rewarm one](https://arxiv.org/pdf/2403.08763) where we replay a small amount of data from the initial pretraining dataset and mix it with the cpt one. The steps are as follows:
+1. First, if running on resources different than in base pretraining i.e smaller num of gpus, we need to train from an **universal checkpoint**. If you don't have the universal checkpoint, you can follow [the instructions](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/notes/universal_checkpoint_bug.md) here.
+2. Use [mix_datasets.py](https://github.com/zhenghh04/blendcorpus/blob/main/utils/mix_datasets.py) function to build your cpt dataset. Here we are mixing the lucid papers with weight 0.9 and dolma with weight 0.1 (you can play with the weights if needed):
+```bash
+python3 mix_datasets.py --input 0.9 /flare/Aurora_deployment/AuroraGPT/datasets/papers/papers.txt 0.1 /flare/Aurora_deployment/AuroraGPT/datasets/dolma/dolma_v1_7_file_list_v2.txt > ${debug_dir}/Megatron-DeepSpeed/ALCF/data-lists/aurora/mix_lucid_papers09_dolma01.txt
+```
+
+3. Then, we can run the following cpt command from the Megatron-deepspeed folder (you can modify GRAD_ACC_STEPS according to the batch size you want to do CPT with):
+```bash
+DATA_FILE_LIST=./ALCF/data-lists/aurora/mix_lucid_papers_dolma.txt LOAD=/flare/AuroraGPT/AuroraGPT-v0/checkpoint-copies/checkpoints/ws768_ds_stage1_nl32_hs4096_mb1_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash TRAIN_TOKENS=$((22*10**9)) GRAD_ACC_STEPS=16 LR=0.0002 LR_WARMUP_FRACTION=0.01 bash train_alcf.sh --universal-checkpoint --finetune
+```
+Here, we are rewarming to the original learning but you can rewarm to any LR you seem fit. by just setting a different value for LR For example, we tested rewarming to LR/2 i.e **LR=0.0001** and 2LR as well.
+Here the following options options/flags should be:
+```bash
+DATA_FILE_LIST=path/to/your/tokenized/data
+LOAD=path/to/your/universal/checkpoint
+SAVE=path/to/where/you/want/to/save/checkpoints
+--universal-checkpoint to load a universal checkpoint (not needed if checkpoint not universal)
+```
+ 
+     
+
+## Things to keep in mind
+- If new dataset is considerably smaller that previous ones, one need to put more weight on previous data.
+- One can reduce/increase the batch size by a factor k but need to reduce/increase LR by a factor $\sqrt(k)$ or $k$.
diff --git a/ALCF/notes/debugging.md b/ALCF/notes/debugging.md
new file mode 100644
index 00000000000..cdb49db69be
--- /dev/null
+++ b/ALCF/notes/debugging.md
@@ -0,0 +1,145 @@
+# 🐛 Debugging Megatron-DeepSpeed[^sanity]
+
+If you're running into issues with Megatron-DeepSpeed, here are some things to
+try that I've found useful.
+
+> [!NOTE]
+> This guide assumes you're **running directly on a compute node**,
+> and should work on _any_ of the ALCF systems[^alcf].
+> (though it _should_ work anywhere, let me know if you run into issues!)
+
+## 🔄 Turning it Off and On Again
+
+The first thing to try is to simply re-run your script, after resetting your
+environment (see below):
+
+```bash
+"${SHELL}" --login ; now=$(date +'%Y-%m-%d-%H%M%S'); debug_dir="${HOME}/debugging/${now}" && mkdir -p "${debug_dir}" && cd "${debug_dir}"&& git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed && source <(curl -L https://bit.ly/ezpz-utils) && ezpz_setup_env && python3 -m pip install --require-virtualenv "git+https://github.com/saforem2/ezpz" "numpy<2" deepspeed tensorboard && ezpz-test && DATA_FILE_LIST=ALCF/data-lists/aurora/books.txt bash train_alcf.sh
+```
+
+## 🤔 Why Does this Happen?
+
+One of the most common issues encountered by users is a mangled environment.
+
+This happens often when a user is:
+
+- Loading system modules (`module load ...`)
+- Trying to use `python`. In particular:
+  - Activating `conda` environments (`conda activate ...`)
+  - Using virtual environments, e.g.:
+    (`uv venv`, `python -m venv`, `source venv/bin/activate`, ..., etc.)
+  - Working on multiple projects with _different_ virtual environments
+
+Ultimately, this is usually due to some combination of the above causing
+conflicts in one (or more) of:
+
+```bash
+"${PATH}", "${LD_LIBRARY_PATH}", "${CUDA_HOME}",
+"${VIRTUAL_ENV}", "${VENV_DIR}", "${PYTHONPATH}", "${CONDA_PREFIX}",
+...
+```
+
+being misconfigured[^bad_env].
+
+<!--
+Some of the most common reasons this may happen are:
+
+- Loading system modules (`module load ...`) that overwrite or silently change
+  things in your active environment
+  - These will often change your `PATH`, `LD_LIBRARY_PATH`, and other
+    environment variables, taking precedence over your `conda` environment or
+    other installed software
+- Activating `conda` environments (`conda activate ...`)
+
+
+
+- `module load` commands
+- `conda activate` commands
+- `pip install --user ...` commands
+- `source /path/to/some/setup/script.sh` commands
+-->
+
+[^bad_env]: Among _many_ possible others.
+
+## 🧪 Things to Try
+
+1. **Reset your environment**: If you're in an interactive session, you can get
+   a clean environment by re-logging into the node:
+
+   ```bash
+   ssh $(hostname)
+   ```
+
+   - <details closed><summary>Example:</summary>
+
+      ```bash
+      #[/f/d/f/p/s/ezpz][🌱 main][📦📝🤷✓]
+      #[07/14/25 @ 07:35:04][x4301c6s1b0n0]
+      ; export TEST_VAR=1
+
+      #[/f/d/f/p/s/ezpz][🌱 main][📦📝🤷✓]
+      #[07/14/25 @ 07:35:09][x4301c6s1b0n0]
+      ; ssh $(hostname)
+      Last login: Mon Jul 14 12:30:56 2025 from aurora-uan-0010.hostmgmt1000.cm.aurora.alcf.anl.gov
+
+      #[~][C v7.5.0-gcc]
+      #[07/14/25 @ 07:35:33][x4301c6s1b0n0]
+      ; echo "${TEST_VAR}"
+
+
+      #[~][C v7.5.0-gcc]
+      #[07/14/25 @ 07:35:35][x4301c6s1b0n0]
+      ;
+      Connection to x4301c6s1b0n0 closed.
+      took: 0h:00m:19s
+
+      #[/f/d/f/p/s/ezpz][🌱 main][📦📝🤷✓] [⏱️ 19s]
+      #[07/14/25 @ 07:35:37][x4301c6s1b0n0]
+      ; echo "${TEST_VAR}"
+      1
+      ```
+
+   </details>
+
+1. **Start from scratch**:
+   - Create a _new_, _isolated_ directory for debugging
+  
+     ```bash
+     now=$(date +'%Y-%m-%d %H:%M:%S')
+     debug_dir="debugging/${now}"
+     mkdir -p "${debug_dir}" && cd "${debug_dir}"
+     echo "Debugging in $(pwd)"
+  
+   - Create a new clone of the repository
+
+     ```bash
+     git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed
+     ```
+     
+   - Create a new virtual environment
+
+     ```bash
+     source <(curl -L https://bit.ly/ezpz-utils) && ezpz_setup_env
+     ```
+     
+   - Re-install dependencies
+
+     ```bash
+     python3 -m pip install -e "git+https://github.com/saforem2/ezpz"
+     ```
+
+   - Run simple test to verify python can launch distributed processes:
+  
+     ```bash
+     ezpz-test
+     ```
+     
+   - Try re-running
+  
+     ```bash
+     DATA_FILE_LIST=ALCF/data-lists/aurora/books.txt bash train_alcf.sh
+     ```
+
+[^alcf]: Yes, _any_ of the ALCF systems! e.g.: Aurora, Polaris, ThetaGPU, Sunspot, Sophia, Sirius, ...
+
+[^sanity]: While trying to maintain your sanity 😂
diff --git a/ALCF/notes/deepspeed_init_time.md b/ALCF/notes/deepspeed_init_time.md
new file mode 100644
index 00000000000..a355a082a9b
--- /dev/null
+++ b/ALCF/notes/deepspeed_init_time.md
@@ -0,0 +1,269 @@
+# DeepSpeed Initialization Time on Aurora
+
+## TODOs
+
+- [ ] Use `ZeRO={1, 2}` @ 256 Nodes of Aurora
+- [ ] Figure out bottleneck in startup time on Aurora
+- [ ] Use GAS=8 on Aurora
+- [ ] Weight decay too high
+- [ ] Save checkpoints every ~ 1 hr
+- [ ] Write weekly updates and post to GitHub
+
+## Initialization Times
+
+- Search for "deepspeed.initialize" in `Megatron-DeepSpeed/logs/`:
+
+```bash
+#[🌌][11:44:57 PM][foremans@aurora-uan-0010][…/Megatron-DeepSpeed/logs][🌱 alcf-startup-time][$!?]
+$ rg --hidden "deepspeed\.initialize" **/**/*.log | grep took
+```
+
+### Measurements
+
+| NUM_NODES | WORLD_SIZE |    TIME    |
+|:---------:|:----------:|:----------:|
+|     8     |     96     |   61.073   |
+|           |            |            |
+|     16    |     192    |  107.74411 |
+|     16    |     192    | 107.201338 |
+|     16    |     192    |  107.10853 |
+|           |            |            |
+|     32    |     384    |  200.23095 |
+|     32    |     384    |  206.49485 |
+|     32    |     384    |  200.49485 |
+|           |            |            |
+|     64    |     768    |  413.55765 |
+|     64    |     768    |  394.92617 |
+|     64    |     768    |   414.725  |
+|     64    |     768    |   387.987  |
+|     64    |     768    |  411.72035 |
+|     64    |     768    |   394.926  |
+|     64    |     768    |   409.375  |
+|     64    |     768    |   393.091  |
+|     64    |     768    |   412.600  |
+|           |            |            |
+|    128    |    1536    |  789.30077 |
+|    128    |    1536    |  788.86531 |
+|    128    |    1536    |  792.71864 |
+|    128    |    1536    |   836.98   |
+|    128    |    1536    |   801.205  |
+|    128    |    1536    |   836.98   |
+|    128    |    1536    |  820.9538  |
+|    128    |    1536    |   707.048  |
+|           |            |            |
+|    256    |    3072    | 1639.62374 |
+|    256    |    3072    |  1591.345  |
+|    256    |    3072    | 1632.12712 |
+|    256    |    3072    |  1674.444  |
+|    256    |    3072    |  1618.100  |
+
+
+- <details closed><summary><code>WORLD_SIZE=96</code>:</summary>
+
+  ```bash title="deepspeed_init_times.sh"
+  ws96_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-125717_96_x4420c5s5b0n0.hostmgmt2420.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:59:19][INFO][training:795] - 'deepspeed.initialize' took: 61.07362s
+  ws96_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-125717_96_x4420c5s5b0n0.hostmgmt2420.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:59:19][INFO][training:795] - 'deepspeed.initialize' took: 61.07362s
+  ws96_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-125717_96_x4420c5s5b0n0.hostmgmt2420.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:59:19][INFO][training:795] - 'deepspeed.initialize' took: 61.07362s
+  ```
+
+  </details>
+
+- <details closed><summary><code>WORLD_SIZE = 192</code>:</summary>
+
+  ```bash
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb6144_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-154948_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:52:30][INFO][training:795] - 'deepspeed.initialize' took: 107.74411s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb6144_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-154948_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:52:30][INFO][training:795] - 'deepspeed.initialize' took: 107.74411s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb6144_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-154948_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:52:30][INFO][training:795] - 'deepspeed.initialize' took: 107.74411s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamwschedulefree_lr0.0003_lwf0.05/20240623-163640_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:38:52][INFO][training:800] - 'deepspeed.initialize' took: 107.10853s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb6144_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-160332_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:05:43][INFO][training:800] - 'deepspeed.initialize' took: 107.20138s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb6144_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-160332_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:05:43][INFO][training:800] - 'deepspeed.initialize' took: 107.20138s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb6144_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-160332_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:05:43][INFO][training:800] - 'deepspeed.initialize' took: 107.20138s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamwschedulefree_lr0.0003_lwf0.05/20240623-163640_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:38:52][INFO][training:800] - 'deepspeed.initialize' took: 107.10853s
+  ws192_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamwschedulefree_lr0.0003_lwf0.05/20240623-163640_192_x4716c2s6b0n0.hostmgmt2716.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:38:52][INFO][training:800] - 'deepspeed.initialize' took: 107.10853s
+  ```
+
+  </details>
+
+- <details closed><summary><code>WORLD_SIZE = 384</code>:</summary>
+
+  ```bash
+  ws384_ds_stage1_nl32_hs4096_mb4_seq4096_gb12288_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-164607_384_x4402c6s7b0n0.hostmgmt2402.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:52:15][INFO][training:800] - 'deepspeed.initialize' took: 206.49485s
+  ws384_ds_stage1_nl32_hs4096_mb4_seq4096_gb12288_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-164607_384_x4402c6s7b0n0.hostmgmt2402.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:52:15][INFO][training:800] - 'deepspeed.initialize' took: 206.49485s
+  ws384_ds_stage1_nl32_hs4096_mb4_seq4096_gb12288_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-164607_384_x4402c6s7b0n0.hostmgmt2402.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:52:15][INFO][training:800] - 'deepspeed.initialize' took: 206.49485s
+  ws384_ds_stage1_nl32_hs4096_mb4_seq4096_gb12288_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-223159_384_x4706c1s6b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 22:37:53][INFO][training:800] - 'deepspeed.initialize' took: 200.23095s
+  ws384_ds_stage1_nl32_hs4096_mb4_seq4096_gb12288_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-223159_384_x4706c1s6b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 22:37:53][INFO][training:800] - 'deepspeed.initialize' took: 200.23095s
+  ws384_ds_stage1_nl32_hs4096_mb4_seq4096_gb12288_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-223159_384_x4706c1s6b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 22:37:53][INFO][training:800] - 'deepspeed.initialize' took: 200.23095s
+  ```
+
+  </details>
+
+- <details closed><summary><code>WORLD_SIZE=768</code>:</summary>
+
+  ```bash
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-180052_768_x4704c4s1b0n0.hostmgmt2704.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 18:12:43][INFO][training:800] - 'deepspeed.initialize' took: 394.92617s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-185626_768_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 19:05:45][INFO][training:800] - 'deepspeed.initialize' took: 414.72580s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-185626_768_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 19:05:45][INFO][training:800] - 'deepspeed.initialize' took: 414.72580s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-233045_768_x4711c0s1b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 23:39:19][INFO][training:797] - 'deepspeed.initialize' took: 387.98744s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-233045_768_x4711c0s1b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 23:39:19][INFO][training:797] - 'deepspeed.initialize' took: 387.98744s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-233045_768_x4711c0s1b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 23:39:19][INFO][training:797] - 'deepspeed.initialize' took: 387.98744s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-141802_768_x4706c2s0b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:27:50][INFO][training:795] - 'deepspeed.initialize' took: 411.72035s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-141802_768_x4706c2s0b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:27:50][INFO][training:795] - 'deepspeed.initialize' took: 411.72035s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-180052_768_x4704c4s1b0n0.hostmgmt2704.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 18:12:43][INFO][training:800] - 'deepspeed.initialize' took: 394.92617s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-180052_768_x4704c4s1b0n0.hostmgmt2704.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 18:12:43][INFO][training:800] - 'deepspeed.initialize' took: 394.92617s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-134324_768_x4705c2s1b0n0.hostmgmt2705.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:51:19][INFO][training:795] - 'deepspeed.initialize' took: 393.09134s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-185626_768_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 19:05:45][INFO][training:800] - 'deepspeed.initialize' took: 414.72580s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-165713_768_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:06:47][INFO][training:800] - 'deepspeed.initialize' took: 389.15768s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-122601_768_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:35:18][INFO][training:793] - 'deepspeed.initialize' took: 409.37578s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-134324_768_x4705c2s1b0n0.hostmgmt2705.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:51:19][INFO][training:795] - 'deepspeed.initialize' took: 393.09134s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-134324_768_x4705c2s1b0n0.hostmgmt2705.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:51:19][INFO][training:795] - 'deepspeed.initialize' took: 393.09134s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-141802_768_x4706c2s0b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:27:50][INFO][training:795] - 'deepspeed.initialize' took: 411.72035s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-165713_768_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:06:47][INFO][training:800] - 'deepspeed.initialize' took: 389.15768s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-124517_768_x4315c4s1b0n0.hostmgmt2315.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:57:42][INFO][training:795] - 'deepspeed.initialize' took: 395.05079s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-124517_768_x4315c4s1b0n0.hostmgmt2315.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:57:42][INFO][training:795] - 'deepspeed.initialize' took: 395.05079s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-165713_768_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:06:47][INFO][training:800] - 'deepspeed.initialize' took: 389.15768s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-130702_768_x4420c6s7b0n0.hostmgmt2420.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:15:22][INFO][training:795] - 'deepspeed.initialize' took: 412.60004s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-130702_768_x4420c6s7b0n0.hostmgmt2420.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:15:22][INFO][training:795] - 'deepspeed.initialize' took: 412.60004s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-122601_768_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:35:18][INFO][training:793] - 'deepspeed.initialize took: 409.37578s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-122601_768_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:35:18][INFO][training:793] - 'deepspeed.initialize took: 409.37578s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-173730_768_x4707c5s6b0n0.hostmgmt2707.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:45:33][INFO][training:800] - 'deepspeed.initialize' took: 400.74402s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-124517_768_x4315c4s1b0n0.hostmgmt2315.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:57:42][INFO][training:795] - 'deepspeed.initialize' took: 395.05079s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-130702_768_x4420c6s7b0n0.hostmgmt2420.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:15:22][INFO][training:795] - 'deepspeed.initialize' took: 412.60004s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-132452_768_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:34:32][INFO][training:795] - 'deepspeed.initialize' took: 413.55765s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-173730_768_x4707c5s6b0n0.hostmgmt2707.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:45:33][INFO][training:800] - 'deepspeed.initialize' took: 400.74402s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-173730_768_x4707c5s6b0n0.hostmgmt2707.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:45:33][INFO][training:800] - 'deepspeed.initialize' took: 400.74402s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-132452_768_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:34:32][INFO][training:795] - 'deepspeed.initialize' took: 413.55765s
+  ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb24576_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-132452_768_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:34:32][INFO][training:795] - 'deepspeed.initialize' took: 413.55765s
+  ```
+
+  </details>
+
+- <details closed><summary><code>WORLD_SIZE = 1536</code>:</summary>
+
+  ```bash
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-162028_1536_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:37:49][INFO][training:800] - 'deepspeed.initialize' took: 789.30077s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-162028_1536_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:37:49][INFO][training:800] - 'deepspeed.initialize' took: 789.30077s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-162028_1536_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:37:49][INFO][training:800] - 'deepspeed.initialize' took: 789.30077s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-145656_1536_x4119c5s7b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:14:35][INFO][training:795] - 'deepspeed.initialize' took: 788.86531s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-145656_1536_x4119c5s7b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:14:35][INFO][training:795] - 'deepspeed.initialize' took: 788.86531s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-145656_1536_x4119c5s7b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:14:35][INFO][training:795] - 'deepspeed.initialize' took: 788.86531s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-122207_1536_x4309c6s4b0n0.hostmgmt2309.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:39:56][INFO][training:793] - 'deepspeed.initialize' took: 792.71864s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-122207_1536_x4309c6s4b0n0.hostmgmt2309.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:39:56][INFO][training:793] - 'deepspeed.initialize' took: 792.71864s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-122207_1536_x4309c6s4b0n0.hostmgmt2309.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 12:39:56][INFO][training:793] - 'deepspeed.initialize' took: 792.71864s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-125001_1536_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:06:47][INFO][training:795] - 'deepspeed.initialize' took: 836.98388s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-125001_1536_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:06:47][INFO][training:795] - 'deepspeed.initialize' took: 836.98388s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-175213_1536_x4702c1s4b0n0.hostmgmt2702.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 18:10:54][INFO][training:800] - 'deepspeed.initialize' took: 801.20500s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-175213_1536_x4702c1s4b0n0.hostmgmt2702.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 18:10:54][INFO][training:800] - 'deepspeed.initialize' took: 801.20500s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-184503_1536_x4702c1s4b0n0.hostmgmt2702.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 19:04:07][INFO][training:800] - 'deepspeed.initialize' took: 801.15950s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-131641_1536_x4315c4s1b0n0.hostmgmt2315.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:33:00][INFO][training:795] - 'deepspeed.initialize' took: 801.11322s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-213107_1536_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 21:46:29][INFO][training:800] - 'deepspeed.initialize' took: 820.95380s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-155216_1536_x4706c2s3b0n0.hostmgmt2706.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 16:07:23][INFO][training:795] - 'deepspeed.initialize' took: 787.04806s
+  ws1536_ds_stage1_nl32_hs4096_mb4_seq4096_gb49152_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-141727_1536_x4102c7s0b0n0.hostmgmt2102.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:34:20][INFO][training:795] - 'deepspeed.initialize' took: 809.36787s
+  ```
+
+  </details>
+
+- <details closed><summary><code>WORLD_SIZE = 3072</code>:</summary>
+
+  ```bash
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-144534_3072_x4309c6s2b0n0.hostmgmt2309.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:18:41][INFO][training:795] - 'deepspeed.initialize' took: 1639.62374s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-144534_3072_x4309c6s2b0n0.hostmgmt2309.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:18:41][INFO][training:795] - 'deepspeed.initialize' took: 1639.62374s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-144534_3072_x4309c6s2b0n0.hostmgmt2309.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 15:18:41][INFO][training:795] - 'deepspeed.initialize' took: 1639.62374s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-213304_3072_x4704c0s6b0n0.hostmgmt2704.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 22:03:15][INFO][training:800] - 'deepspeed.initialize' took: 1591.34487s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-213304_3072_x4704c0s6b0n0.hostmgmt2704.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 22:03:15][INFO][training:800] - 'deepspeed.initialize' took: 1591.34487s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-213304_3072_x4704c0s6b0n0.hostmgmt2704.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 22:03:15][INFO][training:800] - 'deepspeed.initialize' took: 1591.34487s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-170636_3072_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:37:20][INFO][training:800] - 'deepspeed.initialize' took: 1632.12712s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-170636_3072_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:37:20][INFO][training:800] - 'deepspeed.initialize' took: 1632.12712s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-170636_3072_x4415c2s3b0n0.hostmgmt2415.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 17:37:20][INFO][training:800] - 'deepspeed.initialize' took: 1632.12712s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-124519_3072_x4119c5s3b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:16:22][INFO][training:795] - 'deepspeed.initialize' took: 1674.44393s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-124519_3072_x4119c5s3b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:16:22][INFO][training:795] - 'deepspeed.initialize' took: 1674.44393s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-124519_3072_x4119c5s3b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 13:16:22][INFO][training:795] - 'deepspeed.initialize' took: 1674.44393s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-140113_3072_x4119c5s3b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:30:23][INFO][training:795] - 'deepspeed.initialize' took: 1618.10035s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-140113_3072_x4119c5s3b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:30:23][INFO][training:795] - 'deepspeed.initialize' took: 1618.10035s
+  ws3072_ds_stage1_nl32_hs4096_mb4_seq4096_gb98304_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240623-140113_3072_x4119c5s3b0n0.hostmgmt2119.cm.aurora.alcf.anl.gov/output.log:
+      [2024-06-23 14:30:23][INFO][training:795] - 'deepspeed.initialize' took: 1618.10035s
+  ```
+
+  </details>
diff --git a/ALCF/notes/deprecated.md b/ALCF/notes/deprecated.md
new file mode 100644
index 00000000000..c6413d5b764
--- /dev/null
+++ b/ALCF/notes/deprecated.md
@@ -0,0 +1,1068 @@
+# Deprecated
+
+This contains the (now deprecated) contents from the [`ALCF/README.md`](ALCF/README.md) file.
+
+To launch on {`Polaris`, `Aurora`, `Sunspot`} @ [ALCF](https://alcf.anl.gov):
+
+1. <details closed><summary>⏳ Request an interactive job with <code>qsub -I</code>:</summary>
+
+    ```bash
+    qsub -A <your-project> -q debug -l select=2 -l walltime=01:00:00,filesystems=eagle:home -I
+    ```
+
+    - Or, alternatively, you can submit [`train_aGPT_7B.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/train_aGPT_7B.sh)
+      directly as a batch script with
+
+        ```bash
+        cd Megatron-DeepSpeed
+        qsub -A <your-project> -q debug -l select=2 -l walltime=01:00:00:filesystems=eagle:home train_aGPT_7B.sh
+        ```
+
+</details>
+
+2. <details closed><summary>⬇️ Clone repo + navigate into it:</summary>
+
+    ```bash
+    git clone "https://github.com/argonne-lcf/Megatron-DeepSpeed"
+    cd Megatron-DeepSpeed
+    ```
+
+</details>
+
+3. <details closed><summary>🐍 Setup Python:</summary>
+
+    <br>
+
+    > **NOTE**: The following commands should be ran from [`Megatron-DeepSpeed`](https://github.com/argonne-lcf/Megatron-DeepSpeed), following the `cd` command from 2.
+
+    1. Load `conda` module and activate base environment:
+
+       ```bash
+       export PBS_O_WORKDIR=$(pwd) && source ALCF/helpers.sh && ezpz_setup
+       ```
+
+        - <details closed><summary><code>[output]</code>:</summary>
+
+            <br>
+
+            - <details closed><summary><code>[Polaris]</code>:</summary>
+
+                ```bash
+                # [05:47:13 PM][foremans@x3001c0s13b1n0][/eagle/a/f/p/ar/Megatron-DeepSpeed-D/Megatron-DeepSpeed]
+                $ PBS_O_WORKDIR=$(pwd) source ALCF/helpers.sh && setup_python
+                Using WORKING_DIR: /eagle/argonne_tpc/foremans/projects/argonne-lcf/Megatron-DeepSpeed-DistributedDataLoading/Megatron-DeepSpeed
+                No conda_prefix or virtual_env found in environment...
+                Setting up conda...
+                Running on Polaris !!
+
+                Lmod is automatically replacing "nvhpc/23.9" with "gcc-native/12.3".
+
+
+                Lmod is automatically replacing "PrgEnv-nvhpc/8.5.0" with "PrgEnv-gnu/8.5.0".
+
+
+                Due to MODULEPATH changes, the following have been reloaded:
+                  1) cray-mpich/8.1.28
+
+                Found conda at: /soft/applications/conda/2024-04-29/mconda3
+                No VIRTUAL_ENV found in environment!
+                    - Trying to setup from /soft/applications/conda/2024-04-29/mconda3
+                    - Using VENV_DIR=/eagle/argonne_tpc/foremans/projects/argonne-lcf/Megatron-DeepSpeed-DistributedDataLoading/Megatron-DeepSpeed/venvs/2024-04-29
+                    - Found existing venv, activating from /eagle/argonne_tpc/foremans/projects/argonne-lcf/Megatron-DeepSpeed-DistributedDataLoading/Megatron-DeepSpeed/venvs/2024-04-29
+                [python] Using: /eagle/argonne_tpc/foremans/projects/argonne-lcf/Megatron-DeepSpeed-DistributedDataLoading/Megatron-DeepSpeed/venvs/2024-04-29/bin/python3
+                ```
+
+               </details>
+
+           - <details closed><summary><code>[Aurora]</code>:</summary>
+
+                ```bash
+                # [10:04:02 PM][foremans@x4415c0s2b0n0][/gecko/A/fo/p/a/Megatron-DeepSpeed]
+                $ PBS_O_WORKDIR=$(pwd) source ALCF/helpers.sh && setup_python
+                Using WORKING_DIR: /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed
+                No conda_prefix or virtual_env found in environment...
+                Setting up conda...
+
+                The following have been reloaded with a version change:
+                  1) intel_compute_runtime/release/821.36 => intel_compute_runtime/release/803.29     2) oneapi/eng-compiler/2024.04.15.002 => oneapi/release/2024.1
+
+                Found conda at: /opt/aurora/24.086.0/frameworks/aurora_nre_models_frameworks-2024.1
+                No VIRTUAL_ENV found in environment!
+                    - Trying to setup from /opt/aurora/24.086.0/frameworks/aurora_nre_models_frameworks-2024.1
+                    - Using VENV_DIR=/gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1
+                    - Found existing venv, activating from /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1
+                [python] Using: /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1/bin/python3
+                ```
+
+               </details>
+
+           - <details closed><summary><code>[Sunspot]</code>:</summary>
+
+                ```bash
+                # [05:37:18 PM][foremans@x1921c0s0b0n0][/gila/A/fo/p/a/Megatron-DeepSpeed]
+                $ PBS_O_WORKDIR=$(pwd) source ALCF/helpers.sh && setup_python
+                Using WORKING_DIR: /gila/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed
+                No conda_prefix or virtual_env found in environment...
+                Setting up conda...
+                Running on SunSpot !!
+
+                Due to MODULEPATH changes, the following have been reloaded:
+                  1) gcc/12.2.0             5) mpich-config/collective-tuning/1024
+                  2) gmp/6.2.1-pcxzkau      6) mpich/icc-all-pmix-gpu/20231026
+                  3) mpc/1.3.1-dfagrna      7) oneapi/eng-compiler/2024.04.15.002
+                  4) mpfr/4.2.0-w7v7yjv
+
+                The following have been reloaded with a version change:
+                  1) intel_compute_runtime/release/821.36 => intel_compute_runtime/release/775.20
+                  2) spack-pe-gcc/0.7.0-24.086.0 => spack-pe-gcc/0.6.1-23.275.2
+                     UMD: agama-ci-devel-803.29 successfully loaded:
+                     UMD: graphics-compute-runtime/agama-ci-devel-803.29
+
+                The following have been reloaded with a version change:
+                  1) oneapi/eng-compiler/2024.04.15.002 => oneapi/release/2024.04.15.001
+
+                Found conda at: /soft/datascience/aurora_nre_models_frameworks-2024.1_preview_u1
+                No VIRTUAL_ENV found in environment!
+                    - Trying to setup from /soft/datascience/aurora_nre_models_frameworks-2024.1_preview_u1
+                    - Using VENV_DIR=/gila/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1_preview_u1
+                    - Found existing venv, activating from /gila/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1_preview_u1
+                [python] Using: /lus/gila/projects/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1_preview_u1/bin/python3
+                ```
+
+               </details>
+
+    <!--
+    3. Create virtual environment _on top of the base `conda`_[^venv]:
+
+        ```bash
+        export PBS_O_WORKDIR=$(pwd) && source ALCF/helpers.sh && setup_venv_from_conda
+        ```
+    -->
+
+    2. 🍋 Install [`ezpz`](https://github.com/saforem2/ezpz):
+
+        ```bash
+        mkdir deps &&  git clone https://github.com/saforem2/ezpz deps/ezpz
+        python3 -m pip install -e deps/ezpz --require-virtualenv
+        ```
+
+    [^venv]: Its generally a good practice to keep separate virtual Python environments different projects.  
+        We provide a helper function, [`setup_venv_from_conda()`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/2f0154394bbdf3c64b4669f9d944645e2cdb8f2b/ALCF/helpers.sh#L440),
+        that helps take care of this for you.  
+        <br>
+        This will: activate (or build, if necessary) a `venv` in your working dir,  
+        _automatically_ matching the name of your active `conda` environment (e.g. `2024-04-29`, on Polaris_.
+
+   3. Setup [`wandb`](https://docs.wandb.ai/quickstart)
+
+      > **NOTE**: this can be disabled by setting `export WANDB_DISABLED=1`
+
+</details>
+
+<!--
+Explicitly, it will (if inside a `conda` environment):
+
+- look for a virtual environment in `"./venvs/${conda_tag}/"`
+  (e.g. `./venvs/2024-04-29`) and:
+    - if found:  
+        - activate the existing virtual environment
+    - else:
+        - create a _new_ virtual environment in `"./venvs/${conda_tag}"`
+            - activate it
+
+Explicitly, at the command line:
+
+```bash
+PBS_O_WORKDIR=$(pwd) source ALCF/helpers.sh  # 1.
+setup_conda_polaris    # 2.
+setup_venv_from_conda  # 3.
+```
+
+will (1.) 
+-->
+
+4. <details closed><summary>🚀 Launch:</summary>
+
+    In this case, train a ~ 2B Model (with 10 layers),
+    for 1000 iterations using the data file list in:
+
+    [`ALCF/data-lists/polaris/books.txt`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/data-lists/polaris/books.txt)
+
+    with a micro-batch-size of 2 (`MICRO_BATCH=2`), with the `torch.optim.AdamW` optimizer (`OPT=adamw`).
+
+    **Note** that _any_ of the options in the [`setParams`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/helpers.sh#L140)
+    function from [`ALCF/helpers.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/7d203596dbf14e048e756c5ee6705de7dcb22283/ALCF/helpers.sh)
+    can be overridden dynamically at runtime using this technique.
+
+    ```bash
+    # for systems other than Polaris, replace "polaris/books.txt" below with:
+    # "{aurora,sunspot}/books.txt", 
+    PBS_O_WORKDIR=$(pwd) DATA_FILE_LIST=./ALCF/data-lists/polaris/books.txt TRAIN_ITER=1000 NLAYERS=10 MICRO_BATCH=2 OPT=adamw bash train_aGPT_7B.sh
+    ```
+
+    - **Note**: If no additional options specified, i.e.
+
+        ```bash
+        PBS_O_WORKDIR=$(pwd) bash train_aGPT_7B.sh
+        ```
+
+      then this will fallback to using the default AuroraGPT-7B architecture
+      with the full Dolma (v1.7) dataset.
+
+    <details closed><summary><code>[output]</code>:</summary>
+
+    <br>
+
+    The outputs should look _something_ like this, though YMMV (things change quick):
+
+    <details closed><summary><code>[Aurora]</code>:</summary>
+
+    ```bash
+    #[🌌][10:45:59 AM][foremans@x4711c1s2b0n0][…/Megatron-DeepSpeed][🌱 main][$!?]
+    $ export PBS_O_WORKDIR=$(pwd) && source ALCF/helpers.sh && setup_python
+
+    #[🌌][10:46:57 AM][foremans@x4711c1s2b0n0][…/Megatron-DeepSpeed][🌱 main][$!?][aurora_nre_models_frameworks-2024.1]
+    (aurora_nre_models_frameworks-2024.1) $ PBS_O_WORKDIR=$(pwd) DATA_FILE_LIST=./ALCF/data-lists/aurora/books.txt bash train_aGPT_7B.sh > train-log-$(tstamp).log 2>&1 &
+
+    Using WORKING_DIR: /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed
+    Running on: aurora
+    Using virtual_env: /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1 on top of conda from: /opt/aurora/24.086.0/frameworks/aurora_nre_models_frameworks-2024.1
+    [python] Using: /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1/bin/python3
+    Ensuring all dependencies from /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/ALCF/requirements/requirements.txt installed...
+
+    [notice] A new release of pip is available: 24.0 -> 24.1
+    [notice] To update, run: pip install --upgrade pip
+    ┌─────────────────────────────────────────────────────────────────────┐
+    │ [savejobenv]:
+    │     • Writing PBS vars to: /home/foremans/.pbsenv
+    └─────────────────────────────────────────────────────────────────────┘
+    ┌─────────────────────────────────────────────────────────────────────┐
+    │ [HOSTS]:
+    │     • [host:0] - x4711c1s2b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov
+    │     • [host:1] - x4711c1s3b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov
+    └─────────────────────────────────────────────────────────────────────┘
+    ┌─────────────────────────────────────────────────────────────────────┐
+    │ [DIST INFO]:
+    │     • HOSTFILE=/var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov
+    │     • NHOSTS=2
+    │     • NGPU_PER_HOST=12
+    │     • NGPUS=24
+    └─────────────────────────────────────────────────────────────────────┘
+    ┌─────────────────────────────────────────────────────────────────────┐
+    │ [LAUNCH]:
+    │     • To launch across all available GPUs, use:
+    │       'launch' ( = mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov )
+    └─────────────────────────────────────────────────────────────────────┘
+    2024-06-21 10:47:09,771 - numexpr.utils - INFO - Note: detected 208 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+    2024-06-21 10:47:09,772 - numexpr.utils - INFO - Note: NumExpr detected 208 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.
+    2024-06-21 10:47:09,772 - numexpr.utils - INFO - NumExpr defaulting to 8 threads.
+    /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1/lib/python3.9/site-packages/pandas/core/computation/expressions.py:21: UserWarning: Pandas requires version '2.8.4' or n>
+      from pandas.core.computation.check import NUMEXPR_INSTALLED
+    /opt/aurora/24.086.0/frameworks/aurora_nre_models_frameworks-2024.1/lib/python3.9/runpy.py:127: RuntimeWarning: 'ezpz.jobs' found in sys.modules after import of package 'ezpz', but prior to execution of 'ezpz.jobs'; this may result in u>
+      warn(RuntimeWarning(msg))
+    [2024-06-21 10:47:10][INFO][jobs:366] - Caught PBS_JOBID='684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov', pbsnf=PosixPath('/var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov') from env. Saving jobenv!
+    [2024-06-21 10:47:10][WARNING][jobs:117] - /home/foremans/PBS-jobs/684084  already in /home/foremans/PBS-jobs.log,  not appending !!
+    [2024-06-21 10:47:10][INFO][jobs:192] - Saving job env to /home/foremans/PBS-jobs/684084/jobenv.sh
+    [2024-06-21 10:47:10][INFO][jobs:220] - Saving job env to /home/foremans/PBS-jobs/684084/jobenv.json
+    [2024-06-21 10:47:10][INFO][jobs:233] - Saving job env to /home/foremans/PBS-jobs/684084/jobenv.yaml
+    [2024-06-21 10:47:10][INFO][jobs:137] - Saving job env to .jobenv file in  /home/foremans/PBS-jobs/684084/.jobenv
+    [2024-06-21 10:47:10][INFO][jobs:137] - Saving job env to .jobenv file in  /lus/gecko/projects/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/.jobenv
+    [2024-06-21 10:47:10][WARNING][jobs:154] - To use launch alias, be sure to:  source /lus/gecko/projects/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/.jobenv
+    [2024-06-21 10:47:10][INFO][jobs:277] - Writing PBS env vars to  /home/foremans/PBS-jobs/684084 / jobenv{.sh, .yaml, .json}
+    [2024-06-21 10:47:10][WARNING][jobs:281] - Run: source ./.jobenv in your current shell to set job variables
+    [2024-06-21 10:47:10][INFO][jobs:374] -
+    [DIST_INFO]:
+      • DEVICE=xpu
+      • DEVICE_ID=xpu:0
+      • DISTRIBUTED_BACKEND=ccl
+      • GPUS_PER_NODE=12
+      • HOSTS=['x4711c1s2b0n0', 'x4711c1s3b0n0']
+      • HOSTFILE=/var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov
+      • HOSTNAME=x4711c1s2b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov
+      • LOCAL_RANK=0
+      • MACHINE=Aurora
+      • NUM_NODES=2
+      • NGPUS=24
+      • NODE_ID=0
+      • RANK=0
+      • SCHEDULER=PBS
+      • WORLD_SIZE_TOTAL=24
+      • WORLD_SIZE_IN_USE=1
+    [2024-06-21 10:47:10][CRITICAL][jobs:245] - To launch across ALL GPUs in your job, use:
+    LAUNCH_CMD=mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov
+    creating alias launch=mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov
+    Found ezpz!
+
+    [notice] A new release of pip is available: 24.0 -> 24.1
+    [notice] To update, run: pip install --upgrade pip
+    Done with ezpz.
+    Not using flash-attn!!
+    LR_ARGS: --lr 0.0003 --lr-decay-style cosine --lr-warmup-fraction 0.05
+    DS_CONFIG: /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/ds-configs/ds_stage1_mb4_gb768_pp1_bf16.json
+    ZS: 1, MB: 4, GB: 768, PP: 1, DTYPE: bf16
+     Please see logs at: logs/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240621-104713_24_x4711c1s2b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov
+    Checkpoints will be saved to: checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05
+    !! Caught USE_ACTIVATION_CHECKPOINTING=1 !!
+    !! Caught USE_ACTIVATION_CHECKPOINTING=1 !!
+    Setting up tokenizer with Llama2
+    Using data_file_list: ./ALCF/data-lists/aurora/books.txt
+    Using tokenizer: Llama2. Setting up data with ./ALCF/data-lists/aurora/books.txt
+    Calling:  setData() with ./ALCF/data-lists/aurora/books.txt
+    --------------------
+    Updated environment:
+    DATA_FILE_LIST: ./ALCF/data-lists/aurora/books.txt
+    NUM_DOCS: 3
+     WEIGHT_SUM: 0.0072042092147565125
+    DFL_STEM: books
+    DATA_CACHE_PATH: .cache/books/index-cache
+    DATA_FLAGS:  --data-file-list ./ALCF/data-lists/aurora/books.txt
+    --------------------
+    [setData] DATA_FLAGS:  --data-file-list ./ALCF/data-lists/aurora/books.txt
+    [setData] TOKENIZER_FLAGS: --tokenizer-type Llama2Tokenizer --tokenizer-model /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/ALCF/tokenizer.model
+    Requirement already satisfied: pybind11 in ./venvs/aurora_nre_models_frameworks-2024.1/lib/python3.9/site-packages (2.12.0)
+
+    [notice] A new release of pip is available: 24.0 -> 24.1
+    [notice] To update, run: pip install --upgrade pip
+    make: Nothing to be done for 'default'.
+    /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed
+    ++++++++++++++++++++++++++++++++++++++++++++++++++
+    - MPICH_DIR=/opt/aurora/24.086.0/CNDA/mpich/20231026/mpich-ofi-all-icc-default-pmix-gpu-drop20231026
+    - Using /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1/bin/python3
+    - WORLD_SIZE:24
+    - BACKEND: ccl
+    - MODEL_TYPE: llama-seq4096-pp1-tp1-32layers-32heads-4096hidden
+    - Using DATA_FILE_LIST: ./ALCF/data-lists/aurora/books.txt
+    ++++++++++++++++++++++++++++++++++++++++++++++++++
+
+    Currently Loaded Modules:
+      1) mpich/icc-all-pmix-gpu/20231026       3) libfabric/1.15.2.0   5) cray-libpals/1.3.3            7) gmp/6.2.1-pcxzkau    9) mpc/1.3.1-dfagrna  11) intel_compute_runtime/release/803.29  13) frameworks/2024.1
+      2) mpich-config/collective-tuning/1024   4) cray-pals/1.3.3      6) spack-pe-gcc/0.7.0-24.086.0   8) mpfr/4.2.0-w7v7yjv  10) gcc/12.2.0         12) oneapi/release/2024.1
+
+
+
+    Saving environment to checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.env
+    Not currently running. Continuing!
+    Launching with: MPICH
+     mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov --genvall --cpu-bind depth -d 16 /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1/bin/python3 -Wignore /lus/gecko/projects/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/pretrain_gpt_alcf.py
+    Using data_cache_path: checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.cache/books/index-cache
+
+            mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov --genvall --cpu-bind depth -d 16 /gecko/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.1/bin/python3 -Wignore /lus/gecko/projects/Aurora_deployment/foremans/projects/argonne-lcf/Megatron-DeepSpeed/pretrain_gpt_alcf.py         --bf16                 --split 100,0,0         --log-interval 1         --no-bias-gelu-fusion         --no-bias-dropout-fusion         --no-masked-softmax-fusion         --no-gradient-accumulation-fusion        >
+
+    [!! NOTE] View output at:
+     logs/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/20240621-104713_24_x4711c1s2b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov/output.log
+    Connected to tcp://x4711c1s2b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov:7919
+    Launching application eafe3e80-ad2e-4cee-a3e4-d63af2a77c66
+    [2024-06-21 10:47:31,610] [INFO] [comm.py:161:init_deepspeed_backend] Initialize ccl backend
+    [2024-06-21 10:47:31,610] [INFO] [comm.py:637:init_distributed] cdb=None
+    [2024-06-21 10:47:31,610] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=15, local_rank=3, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=23, local_rank=11, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=12, local_rank=0, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=13, local_rank=1, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=3, local_rank=3, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=14, local_rank=2, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=16, local_rank=4, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=17, local_rank=5, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=18, local_rank=6, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=19, local_rank=7, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=20, local_rank=8, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=21, local_rank=9, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=22, local_rank=10, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=6, local_rank=6, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=8, local_rank=8, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=10, local_rank=10, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=0, local_rank=0, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:668:init_distributed] Initializing TorchBackend in DeepSpeed with backend ccl
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=1, local_rank=1, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=2, local_rank=2, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=4, local_rank=4, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=5, local_rank=5, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=7, local_rank=7, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=9, local_rank=9, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:31,611] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=11, local_rank=11, world_size=24, master_addr=10.115.79.12, master_port=29500
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=2/23][local_rank=2/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=6/23][local_rank=6/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=8/23][local_rank=8/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=1/23][local_rank=1/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=15/23][local_rank=3/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=17/23][local_rank=5/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=3/23][local_rank=3/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=13/23][local_rank=1/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=14/23][local_rank=2/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=4/23][local_rank=4/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=18/23][local_rank=6/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=20/23][local_rank=8/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=5/23][local_rank=5/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=21/23][local_rank=9/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=7/23][local_rank=7/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=23/23][local_rank=11/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=9/23][local_rank=9/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=12/23][local_rank=0/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=16/23][local_rank=4/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=10/23][local_rank=10/11][node=0/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=11/23][local_rank=11/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=19/23][local_rank=7/11][node=1/1]
+    [2024-06-21 10:47:32][INFO][dist:291] - [device='xpu'][rank=22/23][local_rank=10/11][node=0/1]
+    2024-06-21 10:47:32][INFO][dist:240] - DistInfo={
+        "DEVICE": "xpu",
+        "DEVICE_ID": "xpu:0",
+        "DISTRIBUTED_BACKEND": "ccl",
+        "GPUS_PER_NODE": 12,
+        "HOSTFILE": "/var/spool/pbs/aux/684084.aurora-pbs-0001.hostmgmt.cm.aurora.alcf.anl.gov",
+        "HOSTNAME": "x4711c1s2b0n0.hostmgmt2711.cm.aurora.alcf.anl.gov",
+        "HOSTS": "['x4711c1s2b0n0', 'x4711c1s3b0n0']",
+        "LOCAL_RANK": 0,
+        "MACHINE": "Aurora",
+        "NGPUS": 24,
+        "NODE_ID": 0,
+        "NUM_NODES": 2,
+        "RANK": 0,
+        "SCHEDULER": "PBS",
+        "WORLD_SIZE_IN_USE": 24,
+        "WORLD_SIZE_TOTAL": 24
+    }
+
+    # [...clipped...]
+
+    [2024-06-21 10:48:48][INFO][utils:307] - > elapsed time for building blendable dataset indices: 1.19 (sec)
+    [2024-06-21 10:48:48][INFO][utils:307] -  > saving index map files
+    [2024-06-21 10:48:51][INFO][utils:307] -  > finished saving index map files in 3.0829622745513916 seconds
+    [2024-06-21 10:48:51][INFO][utils:307] - > loading blendable dataset index: checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.cache/books/index-cache/49e9529a32d0a98f1e40f4a82872b11c_index.npy
+    [2024-06-21 10:48:52][INFO][utils:307] - > loading blendable dataset sample index: checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.cache/books/index-cache/49e9529a32d0a98f1e40f4a82872b11c_sample_index.npy
+    [2024-06-21 10:48:52][INFO][utils:307] - > finished loading in 0.30188989639282227 seconds
+    [2024-06-21 10:48:52][INFO][utils:307] -  >> building dataset for /gecko/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document
+    [2024-06-21 10:48:52][INFO][utils:307] -  > building dataset index ...
+    [2024-06-21 10:48:52][INFO][utils:307] -     reading sizes...
+    [2024-06-21 10:48:52][INFO][utils:307] -     reading pointers...
+    [2024-06-21 10:48:52][INFO][utils:307] -     reading document index...
+    [2024-06-21 10:48:52][INFO][utils:307] -     creating numpy buffer of mmap...
+    [2024-06-21 10:48:52][INFO][utils:307] - /gecko/Aurora_deployment/AuroraGPT/datasets/dolma/data_v1.7_Llama2Tokenizer/books-0002_text_document.bin
+    [2024-06-21 10:48:52][INFO][utils:307] -     creating memory view of numpy buffer...
+    [2024-06-21 10:48:52][INFO][utils:307] -  > finished creating indexed dataset in 0.003112 seconds
+    [2024-06-21 10:48:52][INFO][utils:307] -     number of documents: 7386
+    [2024-06-21 10:48:52][INFO][utils:307] -  > dataset split:
+    [2024-06-21 10:48:52][INFO][utils:307] -     train:
+    [2024-06-21 10:48:52][INFO][utils:307] -      document indices in [0, 7386) total of 7386 documents
+    [2024-06-21 10:48:52][INFO][utils:307] -     validation:
+    [2024-06-21 10:48:52][INFO][utils:307] -      document indices in [7386, 7386) total of 0 documents
+    [2024-06-21 10:48:52][INFO][utils:307] -     test:
+    [2024-06-21 10:48:52][INFO][utils:307] -      document indices in [7386, 7386) total of 0 documents
+    [2024-06-21 10:48:52][INFO][utils:307] -  > loading doc-idx mapping from checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.cache/books/index-cache/1fa7757ef8907da21e1e1326705e7f3f_doc_idx.npy
+    [2024-06-21 10:48:52][INFO][utils:307] -  > loading sample-idx mapping from checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.cache/books/index-cache/1fa7757ef8907da21e1e1326705e7f3f_sample_idx.npy
+    [2024-06-21 10:48:52][INFO][utils:307] -  > loading shuffle-idx mapping from checkpoints/ws24_ds_stage1_nl32_hs4096_mb4_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr0.0003_lwf0.05/.cache/books/index-cache/1fa7757ef8907da21e1e1326705e7f3f_shuffle_idx.npy
+    [2024-06-21 10:48:52][INFO][utils:307] -     loaded indexed file in 0.008 seconds
+    [2024-06-21 10:48:52][INFO][utils:307] -     total number of samples: 34196233
+    [2024-06-21 10:48:52][INFO][utils:307] -     total number of epochs: 175
+    [2024-06-21 10:48:52][INFO][utils:307] - > size of blendable dataset: 245361763 samples
+    [2024-06-21 10:48:52][INFO][utils:307] -  >>> Finished building BlendableDataset in 4.613574266433716 seconds
+    [2024-06-21 10:48:52][INFO][pretrain_gpt_alcf:579] - > finished creating GPT datasets. Took: 45730179865763.24219s
+    [2024-06-21 10:48:53][INFO][training:88] - [after dataloaders are built] datetime=2024-06-21 10:48:53
+    [2024-06-21 10:48:53][INFO][training:307] - done with setup ...
+    [2024-06-21 10:48:53][INFO][training:313] - training ...
+    (min, max) time across ranks (ms):
+        model-and-optimizer-setup ......................: (63763.34, 63857.25)
+        train/valid/test-data-iterators-setup ..........: (12936.53, 13432.64)
+    [2024-06-21 10:48:53][INFO][training:88] - [before the start of training step] datetime=2024-06-21 10:48:53
+    [2024-06-21 10:48:53,396] [INFO] [checkpointing.py:541:forward] Activation Checkpointing Information
+    [2024-06-21 10:48:53,396] [INFO] [checkpointing.py:542:forward] ----Partition Activations False, CPU CHECKPOINTING False
+    [2024-06-21 10:48:53,396] [INFO] [checkpointing.py:543:forward] ----contiguous Memory Checkpointing False with 32 total layers
+    [2024-06-21 10:48:53,396] [INFO] [checkpointing.py:545:forward] ----Synchronization False
+    [2024-06-21 10:48:53,396] [INFO] [checkpointing.py:546:forward] ----Profiling time in checkpointing False
+    [2024-06-21 10:50:42,167] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | optimizer_allgather: 1867.64 | optimizer_gradients: 19.65 | optimizer_step: 46.07
+    [2024-06-21 10:50:42,167] [INFO] [logging.py:96:log_dist] [Rank 0] step=1, skipped=0, lr=[1.887433467970254e-08, 1.887433467970254e-08], mom=[(0.9, 0.999), (0.9, 0.999)]
+    [2024-06-21 10:50:42,167] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd_microstep: 25341.72 | bwd_microstep: 77707.38 | bwd_inner_microstep: 75751.84 | bwd_allreduce_microstep: 1955.54 | step_microstep: 2218.38
+    [2024-06-21 10:50:42,168] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd: 25341.72 | bwd: 77707.38 | bwd_inner: 75751.84 | bwd_allreduce: 1955.54 | step: 2218.38
+    [2024-06-21 10:50:42][INFO][training:1609] -  iteration=       1/  317892 | consumed_samples=         768 | consumed_tokens=     3145728 | elapsed_time_per_iteration_ms=108893.2 | learning_rate=1.88743e-08 | global_batch_size=  768 | lm loss=11.133188 | loss_scale=1.0 | actual_seqlen= 4096 | number_of_skipped_iterations=  0 | number_of_nan_iterations=  0 | samples_per_second=7.053 | tokens_per_gpu_per_second_tgs=1203.674 | [LM]-TFLOPs=49.66 | [DS]-TFLOPs=73.32 |
+    [2024-06-21 10:50:42][INFO][utils:190] - [Rank 0] (after 1 iterations) memory (MB) | allocated: 18243.64111328125 | max allocated: 50664.2548828125 | reserved: 54556.0 | max reserved: 54556.0
+    (min, max) time across ranks (ms):
+        forward-backward ...............................: (106622.81, 106624.28)
+        optimizer ......................................: (2221.02, 2234.98)
+    ```
+
+    </details>
+
+    <details closed><summary><code>[Sunspot]</code>:</summary>
+
+    ```bash
+    # [09:07:32 AM][foremans@x1921c0s0b0n0][~/q/llm.devkit/Megatron-DeepSpeed][🌱 main][$!?]
+    $ PBS_O_WORKDIR=$(pwd) DATA_FILE_LIST=./ALCF/data-lists/polaris/books.txt bash train_aGPT_7B.sh
+    source-ing /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/ALCF/helpers.sh
+    Sourcing /home/foremans/q4-drop_sunspot/llm.devkit/setenv.sh...
+         UMD: agama-ci-devel-736.9 successfully loaded:
+         UMD: graphics-compute-runtime/agama-ci-devel-736.9 
+    Lmod has detected the following error: The following module(s) are unknown: "gcc/12.1.0"
+
+    Please check the spelling or version number. Also try "module spider ..."
+    It is also possible your cache file is out-of-date; it may help to try:
+      $ module --ignore_cache load "gcc/12.1.0"
+
+    Also make sure that all modulefiles written in TCL start with the string #%Module
+
+    Note: the module "intel_compute_runtime/release/agama-devel-647" cannot be unloaded because it was not loaded.
+
+    Running on SunSpot !!
+    [python] Using: /home/foremans/miniconda3/envs/q4-drop/bin/python3
+    Saving {PATH, LD_LIBRARY_PATH, htt{p,ps}_proxy, CFLAGS, PYTHONUSERBASE} to .deepspeed_env
+    Found ezpz!
+    /lus/gila/projects/Aurora_deployment/foremans/locations/sunspot/projects/saforem2/ezpz/src/ezpz/__init__.py
+    Has ezpz installed. Nothing to do.
+    Done with ezpz.
+    ┌───────────────────────────────────────────────────────────────────
+    │ Writing PBS vars to /home/foremans/.pbsenv
+    │ HOSTFILE: /var/spool/pbs/aux/8988430.amn-0001
+    │ NHOSTS: 2
+    │ NGPU_PER_HOST: 12 GPUs per host
+    │ NGPUS: 24 GPUs total
+    └───────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [Hosts]: 
+    │     • [host:0] - x1921c0s0b0n0.hostmgmt2000.cm.americas.sgi.com
+    │     • [host:1] - x1921c0s1b0n0.hostmgmt2000.cm.americas.sgi.com
+    └──────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [DIST INFO]: 
+    │     • Loading job env from: /home/foremans/.pbsenv
+    │     • HOSTFILE: /var/spool/pbs/aux/8988430.amn-0001
+    │     • NHOSTS: 2
+    │     • NGPU_PER_HOST: 12
+    │     • NGPUS (NHOSTS x NGPU_PER_HOST): 24
+    │     • WORLD_SIZE: 24
+    │     • DIST_LAUNCH: mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/8988430.amn-0001
+    └──────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [Launch]:
+    │     • Use: 'launch' (=mpiexec --verbose --envall -n 24 -ppn 12 --hostfile /var/spool/pbs/aux/8988430.amn-0001)
+    │       to launch job
+    └──────────────────────────────────────────────────────────────────
+    DS_CONFIG: ds_stage2_mb4_gb96_pp1_bf16.json
+    ZS: 2, CPU_OPTIMIZER: , MB: 4, GB: 96, PP: 1, DTYPE: bf16!!!Please see logs at logs/ds_stage2_nl32_hs4096_mb4_seq4096_gb96_pp1_tp1_bf16/0404090742_x1921c0s0b0n0
+    !! Caught USE_ACTIVATION_CHECKPOINTING=1 !!
+    !! Caught USE_ACTIVATION_CHECKPOINTING=1 !!
+    Calling:  setData() with ./convergence_debug_small.txt
+    --------------------
+    Updated environment:
+    DATA_FILE_LIST: ./convergence_debug_small.txt
+    NUM_DOCS: 15
+     WEIGHT_SUM: 15.0
+    DFL_STEM: convergence_debug_small
+    DATA_CACHE_PATH: /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache
+    --------------------
+    ++++++++++++++++++++++++++++++++++++++++++++++++++
+    - MPICH_DIR=
+    - Using /home/foremans/miniconda3/envs/q4-drop/bin/python3
+    - WORLD_SIZE:24
+    - NCCL: nccl
+    - MODEL_TYPE: llama-seq4096-pp1-tp1-32layers-32heads-4096hidden
+    - Using DATA_FILE_LIST: ./convergence_debug_small.txt
+    ++++++++++++++++++++++++++++++++++++++++++++++++++
+    ! Using /home/foremans/miniconda3/envs/q4-drop/bin/deepspeed
+    /home/foremans/miniconda3/envs/q4-drop/bin/ds_report:4: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html
+      __import__('pkg_resources').require('deepspeed==0.12.3+6ea44d02')
+    /home/foremans/miniconda3/envs/q4-drop/lib/python3.9/site-packages/torchvision/io/image.py:13: UserWarning: Failed to load image Python extension: ''If you dont plan on using image function
+    ality from `torchvision.io`, you can ignore this warning. Otherwise, there might be something wrong with your environment. Did you have `libjpeg` or `libpng` installed before building `torch
+    vision` from source?
+      warn(
+    [2024-04-04 09:07:45,585] [INFO] [real_accelerator.py:158:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+    [2024-04-04 09:07:45,818] [INFO] [real_accelerator.py:158:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+    --------------------------------------------------
+    DeepSpeed C++/CUDA extension op report
+    --------------------------------------------------
+    NOTE: Ops not installed will be just-in-time (JIT) compiled at
+          runtime if needed. Op compatibility means that your system
+          meet the required dependencies to JIT install the op.
+    --------------------------------------------------
+    JIT compiled ops requires ninja
+    ninja .................. [OKAY]
+    --------------------------------------------------
+    op name ................ installed .. compatible
+    --------------------------------------------------
+    async_io ............... [NO] ....... [OKAY]
+    cpu_adagrad ............ [NO] ....... [OKAY]
+    cpu_adam ............... [NO] ....... [OKAY]
+    flash_attn ............. [NO] ....... [OKAY]
+    fused_adam ............. [NO] ....... [OKAY]
+    quantizer .............. [NO] ....... [OKAY]
+    transformer ............ [NO] ....... [OKAY]
+    transformer_inference .. [NO] ....... [OKAY]
+    utils .................. [NO] ....... [OKAY]
+    --------------------------------------------------
+    DeepSpeed general environment info:
+    torch install path ............... ['/home/foremans/miniconda3/envs/q4-drop/lib/python3.9/site-packages/torch']
+    torch version .................... 2.1.0a0+cxx11.abi
+    deepspeed install path ........... ['/lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/DeepSpeed/deepspeed']
+    deepspeed info ................... 0.12.3+6ea44d02, 6ea44d02, HEAD
+    deepspeed wheel compiled w. ...... torch 2.1 
+    shared memory (/dev/shm) size .... 503.18 GB
+
+        deepspeed --hostfile /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/hostfile_deepspeed --launcher MPICH /lus/gila/projects/Aurora_deployment/
+    foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/pretrain_gpt_alcf.py     --bf16     --optimizer adamw     --split 100,0,0     --log-interval 1     --no-bias-gelu-fusion     --lr-decay
+    -style cosine     --no-bias-dropout-fusion     --no-masked-softmax-fusion     --tokenizer-type Llama2Tokenizer     --no-gradient-accumulation-fusion     --accumulate-allreduce-grads-in-fp32 
+        --use-checkpoint-opt_param-scheduler     --tensorboard-dir checkpoints/ds_stage2_nl32_hs4096_mb4_seq4096_gb96_pp1_tp1_bf16/tensorboard     --log-timers-to-tensorboard     --log-optimizer
+    -states-to-tensorboard     --lr 0.0003     --save checkpoints/ds_stage2_nl32_hs4096_mb4_seq4096_gb96_pp1_tp1_bf16     --load checkpoints/ds_stage2_nl32_hs4096_mb4_seq4096_gb96_pp1_tp1_bf16  
+       --seq-length 4096     --num-layers 32     --hidden-size 4096     --train-iters 317892     --eval-iters 10     --distributed-backend ccl     --num-attention-heads 32     --save-interval 20
+    0     --eval-interval 50000     --max-position-embeddings 4096     --micro-batch-size 4     --data-file-list ./convergence_debug_small.txt     --tensor-model-parallel-size 1     --global-bat
+    ch-size 96     --pipeline-model-parallel-size 1     --num-key-value-heads 8     --data-cache-path /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/
+    .cache/convergence_debug_small/index-cache     --ffn-hidden-size 11008     --tokenizer-model /home/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/ALCF/tokenizer.model     --no-query-
+    key-layer-scaling --use-rotary-position-embeddings --untie-embeddings-and-output-weights --swiglu --normalization rmsnorm --disable-bias-linear      --deepspeed-activation-checkpointing  --z
+    ero-stage=2  --deepspeed_config=ds_stage2_mb4_gb96_pp1_bf16.json  --no-pipeline-parallel  --deepspeed       --checkpoint-activations --checkpoint-num-layers 1           |& tee logs/ds_stage2
+    _nl32_hs4096_mb4_seq4096_gb96_pp1_tp1_bf16/0404090742_x1921c0s0b0n0/output.log
+
+    [!! NOTE] View output at:
+    logs/ds_stage2_nl32_hs4096_mb4_seq4096_gb96_pp1_tp1_bf16/0404090742_x1921c0s0b0n0/output.log
+
+    # ...
+
+    /gila/Aurora_deployment/AuroraGPT/datasets/dolma/data_Llama2Tokenizer/common-crawl/cc_en_middle/cc_en_middle-0051_text_document.bin
+        creating memory view of numpy buffer...
+     > finished creating indexed dataset in 0.010017 seconds
+        number of documents: 1498927
+     > dataset split:
+        train:
+         document indices in [0, 1498927) total of 1498927 documents
+        validation:
+         document indices in [1498927, 1498927) total of 0 documents
+        test:
+         document indices in [1498927, 1498927) total of 0 documents
+     > loading doc-idx mapping from /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/bf90c74a625ac2ee4de6e1d6f7f84fbb_doc_idx.npy
+     > loading sample-idx mapping from /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/bf90c74a625ac2ee4de6e1d6f7f84fbb_sample_idx.npy
+     > loading shuffle-idx mapping from /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/bf90c74a625ac2ee4de6e1d6f7f84fbb_shuffle_idx.npy
+        loaded indexed file in 0.056 seconds
+        total number of samples: 2318461
+        total number of epochs: 8
+    > loading blendable dataset index: /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/3a426af74008c22f9db24db811aad6b7_index.npy
+    > loading blendable dataset sample index: /lus/gila/projects/Aurora_deployment/foremans/q4-drop_sunspot/llm.devkit/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/3a426af74008c22f9db24db811aad6b7_sample_index.npy
+    /home/foremans/miniconda3/envs/q4-drop/lib/python3.9/site-packages/torch/utils/data/dataloader.py:557: UserWarning: This DataLoader will create 2 worker processes in total. Our suggested max number of worker in current system is 1, which is smaller than what this DataLoader is going to create. Please be aware that excessive worker creation might get DataLoader running slow or even freeze, lower the worker number to avoid potential slowness/freeze if necessary.
+
+    [after dataloaders are built] datetime: 2024-04-04 09:09:27
+    done with setup ...
+    (min, max) time across ranks (ms):
+        model-and-optimizer-setup ......................: (64818.18, 64858.22)
+        train/valid/test-data-iterators-setup ..........: (1968.10, 2288.56)
+    training ...
+    [before the start of training step] datetime: 2024-04-04 09:09:27
+    [2024-04-04 09:09:27,718] [INFO] [checkpointing.py:540:forward] Activation Checkpointing Information
+    [2024-04-04 09:09:27,719] [INFO] [checkpointing.py:541:forward] ----Partition Activations False, CPU CHECKPOINTING False
+    [2024-04-04 09:09:27,719] [INFO] [checkpointing.py:542:forward] ----contiguous Memory Checkpointing False with 32 total layers
+    [2024-04-04 09:09:27,719] [INFO] [checkpointing.py:544:forward] ----Synchronization False
+    [2024-04-04 09:09:27,719] [INFO] [checkpointing.py:545:forward] ----Profiling time in checkpointing False
+    [2024-04-04 09:09:33][INFO][utils:145] - Note: detected 208 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+    [2024-04-04 09:09:33][INFO][utils:148] - Note: NumExpr detected 208 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.
+    [2024-04-04 09:09:33][INFO][utils:160] - NumExpr defaulting to 8 threads.
+    ^[c[2024-04-04 09:09:53,311] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | optimizer_allgather: 884.11 | optimizer_gradients: 6.43 | optimizer_step: 23.44
+    [2024-04-04 09:09:53,312] [INFO] [logging.py:96:log_dist] [Rank 0] step=1, skipped=0, lr=[0.00029999999999267505, 0.00029999999999267505], mom=[(0.9, 0.999), (0.9, 0.999)]
+    [2024-04-04 09:09:53,313] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd_microstep: 6567.68 | bwd_microstep: 17950.36 | bwd_inner_microstep: 17711.20 | bwd_allreduce_microstep: 239.11 | step_microstep: 1139.27
+    [2024-04-04 09:09:53,313] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd: 6567.66 | bwd: 17950.35 | bwd_inner: 17711.19 | bwd_allreduce: 239.11 | step: 1139.29
+    [Rank 0] (after 1 iterations) memory (MB) | allocated: 18244.640625 | max allocated: 41299.50146484375 | reserved: 46764.0 | max reserved: 46764.0
+     iteration        1/  317892 | consumed samples:           96 | consumed tokens:       393216 | elapsed time per iteration (ms): 25849.1 | learning rate: 3.000E-04 | global batch size:    96 | lm loss: 1.117136E+01 | loss scale: 1.0 | actual seqlen:  4096 | number of skipped iterations:   0 | number of nan iterations:   0 | samples per second: 3.714 | tokens per gpu per second(tgs): 633.832 | TFLOPs: 38.61 |
+    [2024-04-04 09:10:13,619] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | optimizer_allgather: 327.85 | optimizer_gradients: 6.26 | optimizer_step: 23.60
+    [2024-04-04 09:10:13,619] [INFO] [logging.py:96:log_dist] [Rank 0] step=2, skipped=0, lr=[0.00029999999997070033, 0.00029999999997070033], mom=[(0.9, 0.999), (0.9, 0.999)]
+    [2024-04-04 09:10:13,620] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd_microstep: 4022.74 | bwd_microstep: 15738.67 | bwd_inner_microstep: 15556.80 | bwd_allreduce_microstep: 181.82 | step_microstep: 371.01
+    [2024-04-04 09:10:13,620] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd: 4022.73 | bwd: 15738.66 | bwd_inner: 15556.62 | bwd_allreduce: 181.81 | step: 371.02
+     iteration        2/  317892 | consumed samples:          192 | consumed tokens:       786432 | elapsed time per iteration (ms): 20298.3 | learning rate: 3.000E-04 | global batch size:    96 | lm loss: 2.537718E+01 | loss scale: 1.0 | actual seqlen:  4096 | number of skipped iterations:   0 | number of nan iterations:   0 | samples per second: 4.729 | tokens per gpu per second(tgs): 807.159 | TFLOPs: 49.17 |
+    ```
+
+    </details>
+
+    <details closed><summary><code>[Polaris]</code>:</summary>
+
+    ```bash
+    # [09:31:35 AM][foremans@x3112c0s13b0n0][~/pol/p/a/Megatron-DeepSpeed][🌱 main][$!?]
+    $ PBS_O_WORKDIR=$(pwd) DATA_FILE_LIST=./ALCF/data-lists/polaris/books.txt OPT=adamw bash train_aGPT_7B.sh
+    source-ing /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/ALCF/helpers.sh
+    Running on Polaris !!
+
+    [python] Using: /eagle/datascience/foremans/miniconda3/envs/cu118-pt221/bin/python3
+    Saving {PATH, LD_LIBRARY_PATH, htt{p,ps}_proxy, CFLAGS, PYTHONUSERBASE} to .deepspeed_env
+    Found ezpz!
+    /lus/eagle/projects/datascience/foremans/tmp/Megatron-DeepSpeed/ezpz/src/ezpz/__init__.py
+    Has ezpz installed. Nothing to do.
+    Done with ezpz.
+    ┌───────────────────────────────────────────────────────────────────
+    │ Writing PBS vars to /home/foremans/.pbsenv
+    │ HOSTFILE: /var/spool/pbs/aux/1822297.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
+    │ NHOSTS: 2
+    │ NGPU_PER_HOST: 4 GPUs per host
+    │ NGPUS: 8 GPUs total
+    └───────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [Hosts]: 
+    │     • [host:0] - x3112c0s13b0n0.hsn.cm.polaris.alcf.anl.gov
+    │     • [host:1] - x3112c0s13b1n0.hsn.cm.polaris.alcf.anl.gov
+    └──────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [DIST INFO]: 
+    │     • Loading job env from: /home/foremans/.pbsenv
+    │     • HOSTFILE: /var/spool/pbs/aux/1822297.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
+    │     • NHOSTS: 2
+    │     • NGPU_PER_HOST: 4
+    │     • NGPUS (NHOSTS x NGPU_PER_HOST): 8
+    │     • WORLD_SIZE: 8
+    │     • DIST_LAUNCH: mpiexec --verbose --envall -n 8 -ppn 4 --hostfile /var/spool/pbs/aux/1822297.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
+    └──────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [Launch]:
+    │     • Use: 'launch' (=mpiexec --verbose --envall -n 8 -ppn 4 --hostfile /var/spool/pbs/aux/1822297.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov)
+    │       to launch job
+    └──────────────────────────────────────────────────────────────────
+    DS_CONFIG: ds_stage2_mb8_gb32_pp1_bf16.json
+    ZS: 2, CPU_OPTIMIZER: , MB: 8, GB: 32, PP: 1, DTYPE: bf16!!!Please see logs at logs/ds_stage2_nl32_hs4096_mb8_seq4096_gb32_pp1_tp2_bf16/0404093534_x3112c0s13b0n0
+    !! Caught USE_ACTIVATION_CHECKPOINTING=1 !!
+    !! Caught USE_ACTIVATION_CHECKPOINTING=1 !!
+    Calling:  setData() with "./convergence_debug_small.txt"
+    --------------------
+    Updated environment:
+    DATA_FILE_LIST: ./convergence_debug_small.txt
+    NUM_DOCS: 15
+     WEIGHT_SUM: 15.0
+    DFL_STEM: convergence_debug_small
+    DATA_CACHE_PATH: /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache
+    --------------------
+    ++++++++++++++++++++++++++++++++++++++++++++++++++
+    - MPICH_DIR=/opt/cray/pe/mpich/8.1.25/ofi/gnu/9.1
+    - Using /eagle/datascience/foremans/miniconda3/envs/cu118-pt221/bin/python3
+    - WORLD_SIZE:8
+    - NCCL: nccl
+    - MODEL_TYPE: llama-seq4096-pp1-tp2-32layers-32heads-4096hidden
+    - Using DATA_FILE_LIST: ./convergence_debug_small.txt
+    ++++++++++++++++++++++++++++++++++++++++++++++++++
+    ! Using /eagle/datascience/foremans/miniconda3/envs/cu118-pt221/bin/deepspeed
+    [2024-04-04 09:35:35,959] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda [auto detect]
+    --------------------------------------------------
+    DeepSpeed C++/CUDA extension op report
+    --------------------------------------------------
+    NOTE: Ops not installed will be just-in-time (JIT) compiled at
+          runtime if needed. Op compatibility means that your system
+          meet the required dependencies to JIT install the op.
+    --------------------------------------------------
+    JIT compiled ops requires ninja
+    ninja .................. [OKAY]
+    --------------------------------------------------
+    op name ................ installed .. compatible
+    --------------------------------------------------
+    async_io ............... [NO] ....... [OKAY]
+    fused_adam ............. [NO] ....... [OKAY]
+    cpu_adam ............... [NO] ....... [OKAY]
+    cpu_adagrad ............ [NO] ....... [OKAY]
+    cpu_lion ............... [NO] ....... [OKAY]
+     [WARNING]  Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
+    evoformer_attn ......... [NO] ....... [NO]
+    fused_lamb ............. [NO] ....... [OKAY]
+    fused_lion ............. [NO] ....... [OKAY]
+    inference_core_ops ..... [NO] ....... [OKAY]
+    cutlass_ops ............ [NO] ....... [OKAY]
+    transformer_inference .. [NO] ....... [OKAY]
+    quantizer .............. [NO] ....... [OKAY]
+    ragged_device_ops ...... [NO] ....... [OKAY]
+    ragged_ops ............. [NO] ....... [OKAY]
+    random_ltd ............. [NO] ....... [OKAY]
+     [WARNING]  sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.2
+     [WARNING]  using untested triton version (2.2.0), only 1.0.0 is known to be compatible
+    sparse_attn ............ [NO] ....... [NO]
+    spatial_inference ...... [NO] ....... [OKAY]
+    transformer ............ [NO] ....... [OKAY]
+    stochastic_transformer . [NO] ....... [OKAY]
+    --------------------------------------------------
+    DeepSpeed general environment info:
+    torch install path ............... ['/eagle/datascience/foremans/miniconda3/envs/cu118-pt221/lib/python3.12/site-packages/torch']
+    torch version .................... 2.2.1
+    deepspeed install path ........... ['/eagle/datascience/foremans/miniconda3/envs/cu118-pt221/lib/python3.12/site-packages/deepspeed']
+    deepspeed info ................... 0.14.0, unknown, unknown
+    torch cuda version ............... 11.8
+    torch hip version ................ None
+    nvcc version ..................... 11.8
+    deepspeed wheel compiled w. ...... torch 2.2, cuda 11.8
+    shared memory (/dev/shm) size .... 251.61 GB
+
+        deepspeed --hostfile /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/hostfile_deepspeed --launcher MPICH /lus/eagle/projects/datascienc
+    e/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/pretrain_gpt_alcf.py     --bf16     --optimizer adamw     --split 100,0,0     --log-interval 1     --no-bias-gelu-fusion 
+        --lr-decay-style cosine     --no-bias-dropout-fusion     --no-masked-softmax-fusion     --tokenizer-type Llama2Tokenizer     --no-gradient-accumulation-fusion     --accumulate-allreduce-
+    grads-in-fp32     --use-checkpoint-opt_param-scheduler     --tensorboard-dir checkpoints/ds_stage2_nl32_hs4096_mb8_seq4096_gb32_pp1_tp2_bf16/tensorboard     --log-timers-to-tensorboard     -
+    -log-optimizer-states-to-tensorboard     --lr 0.0003     --save checkpoints/ds_stage2_nl32_hs4096_mb8_seq4096_gb32_pp1_tp2_bf16     --load checkpoints/ds_stage2_nl32_hs4096_mb8_seq4096_gb32_
+    pp1_tp2_bf16     --seq-length 4096     --num-layers 32     --hidden-size 4096     --train-iters 317892     --eval-iters 10     --distributed-backend nccl     --num-attention-heads 32     --s
+    ave-interval 200     --eval-interval 50000     --max-position-embeddings 4096     --micro-batch-size 8     --data-file-list ./convergence_debug_small.txt     --tensor-model-parallel-size 2  
+       --global-batch-size 32     --pipeline-model-parallel-size 1     --num-key-value-heads 8     --data-cache-path /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-l
+    cf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache     --ffn-hidden-size 11008     --tokenizer-model /home/foremans/polaris/projects/argonne-lcf/Megatron-DeepSpeed/ALCF/tokeniz
+    er.model     --no-query-key-layer-scaling --use-rotary-position-embeddings --untie-embeddings-and-output-weights --swiglu --normalization rmsnorm --disable-bias-linear --use-flash-attn-v2   
+       --deepspeed-activation-checkpointing  --zero-stage=2  --deepspeed_config=ds_stage2_mb8_gb32_pp1_bf16.json  --no-pipeline-parallel  --deepspeed       --checkpoint-activations --checkpoint-
+    num-layers 1           |& tee logs/ds_stage2_nl32_hs4096_mb8_seq4096_gb32_pp1_tp2_bf16/0404093534_x3112c0s13b0n0/output.log
+
+    [!! NOTE] View output at:
+    logs/ds_stage2_nl32_hs4096_mb8_seq4096_gb32_pp1_tp2_bf16/0404093534_x3112c0s13b0n0/output.log
+
+    # ...
+
+    /eagle/datasets/dolma/data_Llama2Tokenizer/common-crawl/cc_en_middle/cc_en_middle-0051_text_document.bin
+        creating memory view of numpy buffer...
+     > finished creating indexed dataset in 0.001280 seconds
+        number of documents: 1498927
+     > dataset split:
+        train:
+         document indices in [0, 1498927) total of 1498927 documents
+        validation:
+         document indices in [1498927, 1498927) total of 0 documents
+        test:
+         document indices in [1498927, 1498927) total of 0 documents
+     > loading doc-idx mapping from /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/9217d94f3290abc2fddf9e87bff236d6_doc_idx.npy
+     > loading sample-idx mapping from /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/9217d94f3290abc2fddf9e87bff236d6_sample_idx.npy
+     > loading shuffle-idx mapping from /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/9217d94f3290abc2fddf9e87bff236d6_shuffle_idx.npy
+        loaded indexed file in 0.004 seconds
+        total number of samples: 869423
+        total number of epochs: 3
+    > loading blendable dataset index: /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/a815d51f6752c6f486d94194ce95fb87_index.npy
+    > loading blendable dataset sample index: /lus/eagle/projects/datascience/foremans/locations/polaris/projects/argonne-lcf/Megatron-DeepSpeed/.cache/convergence_debug_small/index-cache/a815d51f6752c6f486d94194ce95fb87_sample_index.npy
+    > size of blendable dataset: 10223415 samples
+    > finished creating GPT datasets ...
+    [after dataloaders are built] datetime: 2024-04-04 09:36:07
+    done with setup ...
+    (min, max) time across ranks (ms):
+        model-and-optimizer-setup ......................: (4794.78, 4795.23)
+        train/valid/test-data-iterators-setup ..........: (589.69, 721.20)
+    training ...
+    [before the start of training step] datetime: 2024-04-04 09:36:07
+    [2024-04-04 09:36:07,407] [INFO] [checkpointing.py:539:forward] Activation Checkpointing Information
+    [2024-04-04 09:36:07,407] [INFO] [checkpointing.py:540:forward] ----Partition Activations False, CPU CHECKPOINTING False
+    [2024-04-04 09:36:07,407] [INFO] [checkpointing.py:541:forward] ----contiguous Memory Checkpointing False with 32 total layers
+    [2024-04-04 09:36:07,407] [INFO] [checkpointing.py:543:forward] ----Synchronization False
+    [2024-04-04 09:36:07,407] [INFO] [checkpointing.py:544:forward] ----Profiling time in checkpointing False
+    [2024-04-04 09:36:28,429] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | optimizer_allgather: 1626.54 | optimizer_gradients: 19.29 | optimizer_step: 419.48
+    [2024-04-04 09:36:28,430] [INFO] [logging.py:96:log_dist] [Rank 0] step=1, skipped=0, lr=[0.00029999999999267505, 0.00029999999999267505], mom=[(0.9, 0.999), (0.9, 0.999)]
+    [2024-04-04 09:36:28,430] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd_microstep: 11336.34 | bwd_microstep: 7134.73 | bwd_inner_microstep: 7090.02 | bwd_allreduce_microstep: 44.65 | step_microstep: 2564.02
+    [2024-04-04 09:36:28,430] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd: 11336.33 | bwd: 7134.75 | bwd_inner: 7090.01 | bwd_allreduce: 44.66 | step: 2564.02
+     iteration        1/  317892 | consumed samples:           32 | consumed tokens:       131072 | elapsed time per iteration (ms): 21133.8 | learning rate: 3.000E-04 | global batch size:    32 | lm loss: 1.119983E+01 | loss scale: 1.0 | actual seqlen:  4096 | number of skipped iterations:   0 | number of nan iterations:   0 | samples per second: 1.514 | tokens per gpu per second(tgs): 775.250 | TFLOPs: 47.23 |
+    [Rank 1] (after 1 iterations) memory (MB) | allocated: 14165.525390625 | max allocated: 22332.37255859375 | reserved: 24642.0 | max reserved: 35824.0
+    [Rank 0] (after 1 iterations) memory (MB) | allocated: 14165.525390625 | max allocated: 22332.37255859375 | reserved: 24642.0 | max reserved: 32994.0
+    [2024-04-04 09:36:38,623] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | optimizer_allgather: 1605.55 | optimizer_gradients: 11.56 | optimizer_step: 50.92
+    [2024-04-04 09:36:38,623] [INFO] [logging.py:96:log_dist] [Rank 0] step=2, skipped=0, lr=[0.00029999999997070033, 0.00029999999997070033], mom=[(0.9, 0.999), (0.9, 0.999)]
+    [2024-04-04 09:36:38,623] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd_microstep: 1395.17 | bwd_microstep: 6832.48 | bwd_inner_microstep: 6789.73 | bwd_allreduce_microstep: 42.70 | step_microstep: 1867.64
+    [2024-04-04 09:36:38,623] [INFO] [logging.py:96:log_dist] [Rank 0] time (ms) | fwd: 1395.15 | bwd: 6832.49 | bwd_inner: 6789.73 | bwd_allreduce: 42.71 | step: 1867.65
+     iteration        2/  317892 | consumed samples:           64 | consumed tokens:       262144 | elapsed time per iteration (ms): 10154.3 | learning rate: 3.000E-04 | global batch size:    32 | lm loss: 1.766422E+01 | loss scale: 1.0 | actual seqlen:  4096 | number of skipped iterations:   0 | number of nan iterations:   0 | samples per second: 3.151 | tokens per gpu per second(tgs): 1613.503 | TFLOPs: 98.29 |
+
+    # ...
+    ```
+
+    </details>
+
+    </details>
+
+</details>
+
+<!--
+
+[^example]: |
+    In this case, train a ~ 2B Model (with 10 layers),
+    for 1000 iterations using the data file list in:
+
+    [`ALCF/data-lists/polaris/books.txt`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/data-lists/polaris/books.txt)
+
+    with a micro-batch-size of 2, with the `torch.optim.AdamW` optimizer. Note that _any_ of the options in the
+
+    [`setParams`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/ALCF/helpers.sh#L140)
+
+    function from
+
+    [`ALCF/helpers.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/7d203596dbf14e048e756c5ee6705de7dcb22283/ALCF/helpers.sh)
+
+    can be overridden dynamically at runtime using this technique.
+-->
+
+<!--
+export PBS_O_WORKDIR="$(pwd)" && DATA_FILE_LIST=./ALCF/data-lists/polaris/books.txt bash train_aGPT_7B.sh
+export PBS_O_WORKDIR="$(pwd)" && DATA_FILE_LIST=./ALCF/data-lists/polaris/books.txt bash train_aGPT_7B.sh
+-->
+
+
+
+<!--
+
+## 📦 Install
+
+<details closed><summary>Install Instructions</summary>
+
+1. Clone [`argonne-lcf/Megatron-DeepSpeed`](https://github.com/argonne-lcf/Megatron-DeepSpeed)
+
+    ```bash
+    $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+    $ cd Megatron-DeepSpeed
+    ```
+
+     > [!NOTE]  
+     > In the `conda create` command below,
+     > you can replace `--name "${DAY}"` with
+     > `--prefix /path/to/your/conda/envs`, if you prefer:
+
+2. Create `conda` env:
+
+    ```bash
+    $ module load conda/2023-10-04
+    $ export MPICC="cc -shared -taret-accel=nvidia80"
+    $ export DAY=$(date "+%Y-%m-%d")
+    $ export PYTHONUSERBASE="${HOME}/.local/polaris/conda/${DAY}"
+    $ conda create --solver libmamba -c pytorch -c nvidia --name "${DAY}" "python==3.12"
+    ```
+
+3. Install dependencies:
+
+    ```bash
+    $ conda activate "${DAY}"  # e.g. 2024-03-07
+    $ conda install -c pytorch -c nvidia --solver libmamba mpi4py ninja transformers xformers triton pytorch torchvision torchaudio pytorch-cuda=11.8
+    $ conda install --solver libmamba mpi4py -c conda-forge -c pytorch -c nvidia
+    $ python3 -m pip install --upgrade pip pybind11 toolong appdirs wandb sentencepiece ipython setuptools wheel ninja
+    $ python3 -m pip install --upgrade deepspeed wandb
+    ```
+
+    - [`ezpz`](https://github.com/saforem2/ezpz):
+
+        <details closed><summary><code>install</code>:</summary>
+
+        ```bash
+        $ git clone https://github.com/saforem2/ezpz
+        $ python3 -m pip install -e "ezpz[dev]"
+        ```
+
+        </details>
+
+     - [**OPTIONAL**] [`NVIDIA/apex`](https://github.com/NVIDIA/apex):
+
+        <details closed><summary><code>install</code>:</summary>
+
+        ```bash
+        $ git clone https://github.com/NVIDIA/apex
+        $ cd apex
+        # NOTE: need GCC < 11 for APEX ¯\_(ツ)_/¯ ??
+        $ module swap gcc gcc/10.3.0
+        $ python3 -m pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./
+        ```
+
+        </details>
+
+</details>
+
+<!--
+### Install
+
+1. Clone [`argonne-lcf/Megatron-DeepSpeed`](https://github.com/argonne-lcf/Megatron-DeepSpeed)
+
+    ```bash
+    $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+    $ cd Megatron-DeepSpeed
+    ```
+
+2. Create `conda` env:
+
+    ```bash
+    $ module load conda/2023-10-04
+    $ export MPICC="cc -shared -taret-accel=nvidia80"
+    $ export DAY=$(date "+%Y-%m-%d")
+    $ export PYTHONUSERBASE="${HOME}/.local/polaris/conda/${DAY}"
+    $ conda create --solver libmamba -c pytorch -c nvidia --name "${DAY}" "python==3.10"
+    ```
+
+    > [!NOTE]
+    > In the `conda create` command above,
+    > you can replace `--name "${DAY}"` with
+    > `--prefix /path/to/your/conda/envs`, if you prefer:
+
+3. Install dependencies:
+
+    ```bash
+    $ conda activate "${DAY}"  # e.g. 2024-03-07
+    $ conda install -c pytorch -c nvidia --solver libmamba mpi4py ninja transformers xformers triton pytorch torchvision torchaudio pytorch-cuda=11.8
+    $ conda install --solver libmamba mpi4py -c conda-forge -c pytorch -c nvidia
+    $ python3 -m pip install --upgrade pip pybind11 toolong appdirs wandb sentencepiece ipython setuptools wheel ninja
+    $ python3 -m pip install --upgrade deepspeed wandb
+    ```
+
+    - [`NVIDIA/apex`](https://github.com/NVIDIA/apex):
+
+        ```bash
+        $ git clone https://github.com/NVIDIA/apex
+        $ cd apex
+        # NOTE: need GCC < 11 for APEX ¯\_(ツ)_/¯ ??
+        $ module swap gcc gcc/10.3.0
+        $ python3 -m pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./
+        ```
+
+    - [`ezpz`](https://github.com/saforem2/ezpz):
+
+        ```bash
+        $ git clone https://github.com/saforem2/ezpz
+        $ python3 -m pip install -e "ezpz[dev]"
+        ```
+-->
+
+<!--
+### Running
+
+- The (shell) script used to launch pre-training is:
+    - [`train_aGPT_7B.sh`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/train_aGPT_7B.sh)
+
+- This shell script will set the appropriate environment variables, load the correct conda
+modules and launch
+[`pretrain_gpt_alcf.py`](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/main/pretrain_gpt_alcf.py) using `mpiexec`
+
+- Explicitly, to launch:
+
+    ```bash
+    # 1. Launch interactive job
+    $ qsub -A <your-project> -q debug -l select=2 -l walltime=01:00:00,filesystems=eagle:home -I
+    # 2. Load conda environment
+    $ module load conda/2023-10-04 ; conda activate /eagle/datascience/foremans/miniconda3/envs/cu118-pt221 ; unset PYTHONUSERBASE
+    # 3. Navigate into `Megatron-DeepSpeed` directory
+    $ cd Megatron-DeepSpeed
+    # 4. Launch:
+    $ export PBS_O_WORKDIR=$(pwd)
+    $ bash train_aGPT_7B_polaris.sh
+    ```
+    <details closed><summary><b>[Output]</b></summary>
+
+    ```bash
+    source-ing /lus/eagle/projects/datascience/foremans/tmp/Megatron-DeepSpeed/ALCF/helpers_alcf.sh
+
+    CommandNotFoundError: Your shell has not been properly configured to use 'conda deactivate'.
+    To initialize your shell, run
+
+        $ conda init <SHELL_NAME>
+
+    Currently supported shells are:
+      - bash
+      - fish
+      - tcsh
+      - xonsh
+      - zsh
+      - powershell
+
+    See 'conda init --help' for more information and options.
+
+    IMPORTANT: You may need to close and restart your shell after running 'conda init'.
+
+
+    Saving {PATH, LD_LIBRARY_PATH, htt{p,ps}_proxy, CFLAGS, PYTHONUSERBASE} to .deepspeed_env
+    Found ezpz!
+    /lus/eagle/projects/datascience/foremans/tmp/Megatron-DeepSpeed/ezpz/src/ezpz/__init__.py
+    Has ezpz installed. Nothing to do.
+    ┌──────────────────────────────────────────────────────────────────
+    │ [Hosts]:
+    │     • [host:0] - x3005c0s37b0n0.hsn.cm.polaris.alcf.anl.gov
+    │     • [host:1] - x3005c0s37b1n0.hsn.cm.polaris.alcf.anl.gov
+    └──────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [DIST INFO]:
+    │     • Loading job env from: /home/foremans/.pbsenv
+    │     • HOSTFILE: /var/spool/pbs/aux/1777928.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
+    │     • NHOSTS: 2
+    │     • NGPU_PER_HOST: 4
+    │     • NGPUS (NHOSTS x NGPU_PER_HOST): 8
+    │     • WORLD_SIZE: 8
+    │     • DIST_LAUNCH: mpiexec --verbose --envall -n 8 -ppn 4 --hostfile /var/spool/pbs/aux/1777928.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov
+    └──────────────────────────────────────────────────────────────────
+    ┌──────────────────────────────────────────────────────────────────
+    │ [Launch]:
+    │     • Use: 'launch' (=mpiexec --verbose --envall -n 8 -ppn 4 --hostfile /var/spool/pbs/aux/1777928.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov)
+    │       to launch job
+    └──────────────────────────────────────────────────────────────────
+    # [...]
+    ```
+    </details>
+
+-->
+
diff --git a/ALCF/notes/large_batch_optimizers_settings.md b/ALCF/notes/large_batch_optimizers_settings.md
new file mode 100644
index 00000000000..c6fc7c409dc
--- /dev/null
+++ b/ALCF/notes/large_batch_optimizers_settings.md
@@ -0,0 +1,200 @@
+# Megatron-DeepSpeed, optimizers, hyperparameters
+`**Important** For large batch training with infinite schedulers, It is crucial to tune the learning rate as these schedulers benefit from larger learning rate values. See below for the `lr_finder` routine implemented in MDS to do so.`
+
+Single command to test and run Megatron-DeepSpeed:
+
+```bash
+now=$(date +'%Y-%m-%d-%H%M%S') && debug_dir="${now}" && mkdir -p "${debug_dir}"&& cd "${debug_dir}"&& git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed && source <(curl -L https://bit.ly/ezpz-utils) && ezpz_setup_env && python3 -m pip install --require-virtualenv "git+https://github.com/saforem2/ezpz" "numpy<2" deepspeed tensorboard && ezpz-test && DATA_FILE_LIST=ALCF/data-lists/aurora/books.txt bash train_alcf.sh
+```
+## Optimizers
+The default optimizer is `adamw`. Go to this [list of optimizers](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/994f2a129d465cc50e6c35af075eb3292874effe/megatron/arguments.py#L1485) for a complete list of supported optimizers (note that dshampoo might throw checkpointing errors, we are working on fixing this). For example, to run with `muon`, you can do:
+```bash
+DATA_FILE_LIST=./ALCF/data-lists/aurora/books.txt TRAIN_TOKENS=$((22*10**9)) GRAD_ACC_STEPS=16 LR=0.0002 LR_WARMUP_FRACTION=0.01 OPT=muon bash train_alcf.sh
+```
+Here
+```bash
+DATA_FILE_LIST=path/to/your/tokenized/data
+TRAIN_TOKENS= number of training tokens
+GRAD_ACC_STEPS=number of grad accumulation steps
+LR=learning rate
+LR_WARMUP_FRACTION=warmup fraction
+OPT=optimizer
+```
+Your global batch size will be: `num_gpus*micro_batch_size*GRAD_ACC_STEPS`, micro batch size is 1 by default, you can change it by adding `MICRO_BATCH=new_micro_batch_size` to your options. To have the corresponding number if tokens per step, you need to multiply the global batch size by the sequence length (set with `SEQ_LEN`, default is 4096)
+
+### Adding custom optimizers
+To add a custom optimizer, you have to modify the following files:
+- `megatron/optimizer/__init__.py`: [muon example](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/994f2a129d465cc50e6c35af075eb3292874effe/megatron/optimizer/__init__.py#L434), note that you either heve to import the optimizer from a pre-installed package or add it in the `megatron/optimizer/` folder.
+- `megatron/arguments.py`: [optimizer arguments](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/994f2a129d465cc50e6c35af075eb3292874effe/megatron/arguments.py#L1070), to add the optimizer arguments
+- `megatron/arguments.py`: [list of valid optimizers](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/994f2a129d465cc50e6c35af075eb3292874effe/megatron/arguments.py#L1485), to add the new optimizer to the list of valid optimizers
+
+### Schedulers
+Note that the default scheduler is `cosine`. We also support `infinite cosine, infinite inverse square root, constant, constant with cooldown, inverse square root, linear` schedulers. For example to change the scheduler to `constant`, you can do so with the `LR_DECAY_STYLE` option:
+```bash
+DATA_FILE_LIST=./ALCF/data-lists/aurora/books.txt TRAIN_TOKENS=$((22*10**9)) GRAD_ACC_STEPS=16 LR_DECAY_STYLE=constant LR=0.0002 LR_WARMUP_FRACTION=0.01 OPT=muon bash train_alcf.sh
+```
+To add cooldown, you need to add the `--lr_constant_plus_cooldown` flag and set the cooldown fraction with `--lr_constant_plus_cooldown_frac`. The default cooldown fraction is 0.05
+```bash
+DATA_FILE_LIST=./ALCF/data-lists/aurora/books.txt TRAIN_TOKENS=$((22*10**9)) GRAD_ACC_STEPS=16 LR_DECAY_STYLE=constant LR=0.0002 LR_WARMUP_FRACTION=0.01 OPT=muon bash train_alcf.sh --lr_constant_plus_cooldown --lr_constant_plus_cooldown_frac 0.01
+```
+#### Adding custom schedulers
+To add a custom scheduler, you have to modify the following files:
+- `megatron/optimizer_param_scheduler.py`: [schedulers](megatron/optimizer_param_scheduler.py), to add the new scheduler
+- `megatron/arguments.py`: [list of LR arguments](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/994f2a129d465cc50e6c35af075eb3292874effe/megatron/arguments.py#L1671), to add the new scheduler arguments.
+- You might have to change [the function](https://github.com/argonne-lcf/Megatron-DeepSpeed/blob/994f2a129d465cc50e6c35af075eb3292874effe/megatron/training.py#L559) to incorporate your custom scheduler options.
+
+## Hyperparameter tuning
+#### Init variance
+Weight initialization is key to training LLMs,and to avoid spikes in losses. Here, we initialize the weights following this [paper](https://arxiv.org/pdf/2312.16903). The default variance value at initialization is 0.02. To add custom variances, one can use `--init-method-std, `--adjust-word-embedding-init`, and `--word-embedding-init-std`. For our runs, we do
+```bash
+DATA_FILE_LIST=./ALCF/data-lists/aurora/books.txt TRAIN_TOKENS=$((22*10**9)) GRAD_ACC_STEPS=16 LR_DECAY_STYLE=constant LR=0.0002 LR_WARMUP_FRACTION=0.01 OPT=muon bash train_alcf.sh --lr_constant_plus_cooldown --init-method-std ${sqrt(2/5d)}  --adjust-word-embedding-init --word-embedding-init-std 0.632
+```
+where `d=hidden size`. In general, the initialization should be 
+```bash
+--init-method-std sqrt{ 2 / (5 * d) }  --adjust-word-embedding-init --word-embedding-init-std sqrt{ 2 / 5 }
+```
+### Learning rate
+For the learning rate, we implemented the learning rate finder routine [here](https://sgugger.github.io/how-do-you-find-a-good-learning-rate.html) and [here](https://arxiv.org/pdf/1506.01186). This is activated with the `--lr-finder` and run for `TRAIN_ITERS` steps. For example, for a 1000 steps:
+```bash
+DATA_FILE_LIST=./ALCF/data-lists/aurora/books.txt TRAIN_ITERS=1000 GRAD_ACC_STEPS=16 LR_DECAY_STYLE=constant LR=0.0002 LR_WARMUP_FRACTION=0.01 OPT=muon bash train_alcf.sh --lr_constant_plus_cooldown --init-method-std ${sqrt(2/5d)}  --adjust-word-embedding-init --word-embedding-init-std 0.632 --lr-finder
+```
+This approach allows to find the largest LR one can train with without the model divergence. Training with large LR is crucial for infinite schedulers as well for large batch training. We increase the LR following a power law at each step and monitor the LR curve in particular the decaying phase and the blow up phase. To tune the LR, you identify the point where the LR start increasing and divide that LR value by 10. You can also pick the LR corresponding to the steepest descent phase. The learning rates are stored in the output folder (the one set in **SAVE=**).
+![lr_finder](./assets/lb_optimizers/lr_finder_example.png)
+After running the LR-finder routine, you can modify the code below to plot it and find suitable LR candidates:
+```bash
+
+# ---------- Helper: find ALL local minima vs log10(LR) ----------
+def find_all_minima_lrs(learning_rates, losses, smooth_frac=0.03, min_log_sep=0.0):
+    """
+    Return ALL learning rates where the loss switches from decreasing->increasing
+    (local minima of loss with respect to log10(LR)).
+
+    Parameters
+    ----------
+    learning_rates : array-like
+    losses         : array-like
+    smooth_frac    : fraction of length for moving-average smoothing (reduce noise).
+                     Try 0.02–0.05 if needed.
+    min_log_sep    : minimum spacing in log10(LR) between reported minima.
+                     Set 0.0 to return all raw minima (no de-dupe).
+
+    Returns
+    -------
+    list of LRs (floats), sorted ascending (left→right).
+    """
+    lr = np.asarray(learning_rates, float)
+    y  = np.asarray(losses, float)
+
+    # ensure LR is increasing
+    order = np.argsort(lr)
+    lr, y = lr[order], y[order]
+
+    # light smoothing to avoid jitter creating fake minima
+    w = max(5, int(len(y) * smooth_frac) | 1)  # odd window
+    if w >= len(y):
+        w = (len(y) - 1) | 1
+    y_s = np.convolve(y, np.ones(w) / w, mode="same")
+
+    # first derivative w.r.t. log10(LR) to match your log-x axis
+    x  = np.log10(lr)
+    dy = np.gradient(y_s, x)
+
+    # adaptive epsilon so tiny flat noise doesn't cause false flips
+    eps = 1e-12 + 0.02 * np.median(np.abs(dy))
+
+    # minima where slope crosses 0 from negative -> positive
+    neg = dy[:-1] < -eps
+    pos = dy[1:]  >  eps
+    idx = np.where(neg & pos)[0]
+
+    # sub-sample minimum position by interpolating where dy == 0
+    xmins = []
+    for i in idx:
+        x0, x1 = x[i], x[i+1]
+        y0, y1 = dy[i], dy[i+1]
+        denom = (y1 - y0)
+        xz = x0 if denom == 0 else x0 - y0 * (x1 - x0) / denom
+        if np.isfinite(xz):
+            xmins.append(xz)
+
+    # optional de-dup: enforce separation in log space (default 0.0 → keep all)
+    xmins = sorted(xmins)
+    if min_log_sep > 0.0 and len(xmins) > 1:
+        kept = [xmins[0]]
+        for xz in xmins[1:]:
+            if all(abs(xz - p) >= min_log_sep for p in kept):
+                kept.append(xz)
+        xmins = kept
+
+    return [10**px for px in xmins]
+
+# ---------- Safe savefig wrapper (uses your savefig if present) ----------
+def savefig_safe(fig, name):
+    try:
+        if 'savefig' in globals() and callable(globals()['savefig']):
+            globals()['savefig'](fig, name, None)
+        else:
+            fig.savefig(f"{name}.png", dpi=150, bbox_inches="tight")
+    except Exception:
+        fig.savefig(f"{name}.png", dpi=150, bbox_inches="tight")
+
+# Small utility to optionally place a dot at a given x if it lies inside data range
+def scatter_if_in_range(ax, x_target, x_all, y_all, color, size=45, zorder=6):
+    x_min, x_max = np.min(x_all), np.max(x_all)
+    if (x_target >= x_min) and (x_target <= x_max):
+        y_val = np.interp(np.log10(x_target), np.log10(x_all), y_all)
+        ax.scatter(x_target, y_val, color=color, s=size, zorder=zorder)
+
+# =====================================================
+# ===============  LAMB (optional)  ===================
+# =====================================================
+try:
+    fig, ax = plt.subplots(figsize=(18, 12))
+    i = 0
+    for opt in optims_lamb:
+        fname = opt + '/lr_finder_agpt_olmo/lr_finder/lr_finder_data.npz'
+        data = np.load(fname)
+        learning_rates = data['learning_rates'][:430]
+        losses = data['losses'][:430]
+
+        ax.plot(learning_rates, losses, linewidth=4, label=opt, color=f'C{i+1}')
+
+        # absolute minimum (diamond)
+        min_idx = np.argmin(losses)
+        min_lr = learning_rates[min_idx]
+        ax.scatter(min_lr, losses[min_idx], s=100, color=f'C{i+1}', marker='D', zorder=5)
+
+        # ALL minima where loss turns up
+        minima_lrs = find_all_minima_lrs(learning_rates, losses,
+                                         smooth_frac=0.03, min_log_sep=0.0)  # set >0 to de-dupe
+        suggested_lrs = [lr / 10.0 for lr in minima_lrs]
+
+        print(f"{opt} minima LRs (all):     ", [f"{lr:.3e}" for lr in minima_lrs])
+        print(f"{opt} suggested LRs (min/10):", [f"{lr:.3e}" for lr in suggested_lrs])
+
+        # draw minima (solid dashed) + suggested (dotted)
+        for lrj in minima_lrs:
+            #ax.axvline(x=lrj, color=f'C{i+1}', linestyle='--', alpha=0.6, linewidth=1.8)
+            scatter_if_in_range(ax, lrj, learning_rates, losses, color=f'C{i+1}')
+        for lrj in suggested_lrs:
+            ax.axvline(x=lrj, color=f'C{i+1}', linestyle=':', alpha=0.5, linewidth=1.6,label=f"{opt} suggested LR: {lrj:.2e}")
+            scatter_if_in_range(ax, lrj, learning_rates, losses, color=f'C{i+1}', size=35, zorder=6)
+        ax.axvline(x=0.0002, color=f'C{i+1}', linestyle='-', alpha=0.5, linewidth=1.6,label=f"{opt} current LR: 0.0002")
+        ax.set_xscale('log')
+        ax.set_xlabel('Learning Rate')
+        ax.set_ylabel('Loss')
+        ax.set_title('Learning Rate Finder Comparison (LAMB)', fontsize=32)
+        ax.legend(fontsize=14)
+        i += 1
+
+    savefig_safe(fig, 'figs_agpt/lr_finder_agpt_olmo_lamb')
+    plt.show()
+except NameError:
+    # optims_lamb not defined; skip
+    pass
+    
+
+
+```
+### Maximal Update Parametrization/Complete Parametrization
+We have MuP and CompleteP incorporated in AuroraGPT in the `lb-optimizers` branch.
diff --git a/ALCF/notes/universal_checkpoint_bug.md b/ALCF/notes/universal_checkpoint_bug.md
new file mode 100644
index 00000000000..d25afd41169
--- /dev/null
+++ b/ALCF/notes/universal_checkpoint_bug.md
@@ -0,0 +1,374 @@
+# 🐛 Universal Checkpoint Conversion Bug (with `DP=768`)
+
+## Table of Contents
+
+
+1. [📓 Summary](#-summary)
+1. [🚧 Issue](#-issue)
+   1. [🔍 Running with Debugger](#-running-with-debugger)
+   1. [🤔 Why is this Happening?](#-why-is-this-happening)
+   1. [🧰 Proposed Fix](#-proposed-fix)
+   1. [✅ Confirm Fix Works](#-confirm-fix-works)
+ 1. [👻 Bug Doesn't Appear for Smaller Checkpoints](#-bug-doesnt-appear-for-smaller-checkpoints)
+
+
+## 📓 Summary
+
+- ✅ Everything works _as is_ for checkpoints created on small scales (small DP ?)
+  - Explicitly confrm this
+    (see [👻 Bug Doesn't appear for smaller checkpoints](#-bug-doesnt-appear-for-smaller-checkpoints))
+    by:
+
+    1. Generate checkpoint from using 4 nodes of Aurora
+    2. Convert this checkpoint to universal without issue
+
+- ❌ Trying to repeat this exact same process, but using a checkpoint created
+  with `DP=768` (12 nodes of Aurora) fails with a `RuntimeError`.
+
+  We then walk through:
+  - [🚧 A Description of bug](#-issue)
+  - [🔍 Running with Debugger](#-running-with-debugger)
+  - [🤔 Why is this Happening?](#-why-is-this-happening)
+  - [🧰 Proposed fix](#-proposed-fix)
+  - [✅ Confirmation of Fix](#-confirm-fix-works)
+
+
+## 🚧 Issue
+
+Trying to convert a checkpoint[^parallel-config] created with `DP=768` (12 nodes of Aurora) to
+universal checkpoint format, I encountered the following `RuntimeError`:
+
+```python
+RuntimeError: narrow(): length must be non-negative.
+```
+
+[^parallel-config]: In the example described here,
+    we the checkpoint was created with:
+
+    ```yaml
+    data_parallel_size: 768
+    ds_sequence_parallel_size: 1
+    no_pipeline_parallel: true
+    pipeline_model_parallel_size: 1
+    pipeline_model_parallel_split_rank: null
+    sequence_parallel: false
+    tensor_model_parallel_size: 1
+    transformer_pipeline_model_parallel_size: 1
+    ```
+
+The full command and traceback are included below:
+
+```bash
+#[01:06:34 AM][x4705c5s4b0n0][/f/A/f/p/a/t/2/Megatron-DeepSpeed][🌱 docs-ucp-bug][?]
+$ cd deps/DeepSpeed && git status && cd - && ckpt_dir=checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05 ; gs=$(cat "${ckpt_dir}/latest_checkpointed_iteration.txt") && echo "global step: ${gs}" && python3 deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py --input_folder "${ckpt_dir}/global_step${gs}" --output_folder "${ckpt_dir}/global_step${gs}_universal" --keep_temp_folder
+```
+
+Output:
+
+```bash
+On branch master
+Your branch is up to date with 'origin/master'.
+
+nothing to commit, working tree clean
+/flare/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed
+global step: 95600
+[2024-12-29 01:06:45,089] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+[2024-12-29 01:06:45,434] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+args = Namespace(input_folder='checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600', output_folder='checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600_universal', num_extract_workers=4, num_merge_workers=2, keep_temp_folder=True, strict=True, inject_missing_state=False)
+Convert DeepSpeed Checkpoint to Universal Checkpoint
+Converting DeepSpeed checkpoint in checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600 to Universal checkpoint in checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600_universal
+*** 1. Extracting ZeRO fragments
+100%|████████████████████████▋| 767/768 [01:49<00:00,  7.01it/s]
+```
+
+before crashing with the following traceback:
+
+```python
+concurrent.futures.process._RemoteTraceback:
+Traceback (most recent call last):
+  File "/opt/aurora/24.180.1/frameworks/aurora_nre_models_frameworks-2024.2.1_u1/lib/python3.10/concurrent/futures/process.py", line 246, in _process_worker
+    r = call_item.fn(*call_item.args, **call_item.kwargs)
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py", line 114, in extract_zero_shards
+    sd = ds_checkpoint.get_zero_checkpoint_state(pp_index=pp_index, tp_index=tp_index, dp_index=dp_index)
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/deepspeed_checkpoint.py", line 124, in get_zero_checkpoint_state
+    return self.zero_checkpoint.get_state_for_rank(pp_index=pp_index,
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/zero_checkpoint.py", line 62, in get_state_for_rank
+    self._strip_tensor_paddings(sd)
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/zero_checkpoint.py", line 110, in _strip_tensor_paddings
+    group_state[state_name] = torch.narrow(state_value, 0, 0, raw_length).clone()
+RuntimeError: narrow(): length must be non-negative.
+```
+
+<!--
+Even more interesting, this only seems to happen for checkpoints created using
+more than 18 nodes of Aurora (which would correspond to a `data_parallel_size = 216`)
+-->
+
+### 🔍 Running with Debugger
+
+Running with:
+
+```bash
+python3 -m pudb deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py \
+  --input_folder "${ckpt_dir}/global_step${gs}" \
+  --output_folder "${ckpt_dir}/global_step${gs}_universal" \
+  --keep_temp_folder \
+  --num_extract_workers 1 \
+  --num_merge_workers 1
+```
+
+<details closed><summary>Traceback</summary>
+
+```python
+Traceback (most recent call last):
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.2.1_u1/lib/python3.10/site-packages/pudb/__init__.py", line 176, in _runscript
+    dbg._runscript(mainpyfile)
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/venvs/aurora_nre_models_frameworks-2024.2.1_u1/lib/python3.10/site-packages/pudb/debugger.py", line 529, in _runscript
+    self.run(statement)
+  File "/opt/aurora/24.180.1/frameworks/aurora_nre_models_frameworks-2024.2.1_u1/lib/python3.10/bdb.py", line 598, in run
+    exec(cmd, globals, locals)
+  File "<string>", line 1, in <module>
+  File "deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py", line 549, in <module>
+    main(args)
+  File "deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py", line 499, in main
+    _extract_zero_shard_files(args, ds_checkpoint, temp_dir)
+  File "deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py", line 370, in _extract_zero_shard_files
+    _do_parallel_work(do_work, _3d_range_list, args.num_extract_workers)
+  File "deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py", line 359, in _do_parallel_work
+    results.append(do_work(work))
+  File "deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py", line 114, in extract_zero_shards
+    sd = ds_checkpoint.get_zero_checkpoint_state(pp_index=pp_index, tp_index=tp_index, dp_index=dp_index)
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/deepspeed_checkpoint.py", line 124, in get_zero_checkpoint_state
+    return self.zero_checkpoint.get_state_for_rank(pp_index=pp_index,
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/zero_checkpoint.py", line 62, in get_state_for_rank
+    self._strip_tensor_paddings(sd)
+  File "/lus/flare/projects/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed/deps/DeepSpeed/deepspeed/checkpoint/zero_checkpoint.py", line 110, in _strip_tensor_paddings
+    group_state[state_name] = torch.narrow(state_value, 0, 0, raw_length).clone()
+RuntimeError: narrow(): length must be non-negative.
+```
+
+</details>
+
+Stepping through this command:
+
+```python
+>>> group_state[state_name] = torch.narrow(state_value, 0, 0, raw_length).clone()
+Traceback (most recent call last):
+  File "<pudb command line>", line 1, in <module>
+RuntimeError: narrow(): length must be non-negative.
+
+>>> raw_length
+-676
+>>> state_value.numel()
+348
+>>> group_paddings[key]
+1024
+>>> key
+1
+>>> state_name
+'exp_avg'
+>>> key
+1
+```
+
+### 🤔 Why is this Happening?
+
+The problematic line occurs here in [deepspeed / checkpoint / `ds_to_universal.py#L114`](https://github.com/microsoft/DeepSpeed/blob/cc03c76d57f41752d8cfb84c2e45b8e0da8083da/deepspeed/checkpoint/ds_to_universal.py#L114), shown below:
+
+```python
+sd = ds_checkpoint.get_zero_checkpoint_state(
+    pp_index=pp_index, tp_index=tp_index, dp_index=dp_index
+)
+```
+
+The `extract_zero_shards` function tries calling the `DeepSpeedCheckpoint.get_zero_checkpoint_state` method
+here [deepspeed / `checkpoint.py#L123-127`](https://github.com/microsoft/DeepSpeed/blob/cc03c76d57f41752d8cfb84c2e45b8e0da8083da/deepspeed/checkpoint/deepspeed_checkpoint.py#L123-L127), which looks like:
+
+```python
+def get_zero_checkpoint_state(self, pp_index, tp_index, dp_index) -> dict:
+        return self.zero_checkpoint.get_state_for_rank(pp_index=pp_index,
+                                                       tp_index=tp_index,
+                                                       dp_index=dp_index,
+                                                       keys_to_ignore=[PARAM_SHAPES])
+```
+
+This (^) then calls the `ZeROCheckpoint.get_state_for_rank` method from
+[deepspeed / checkpoint / `zero_checkpoint.py#L53-73`](https://github.com/microsoft/DeepSpeed/blob/cc03c76d57f41752d8cfb84c2e45b8e0da8083da/deepspeed/checkpoint/zero_checkpoint.py#L53-L73).
+
+Now, this `get_state_for_rank` function accepts an argument
+`strip_tensor_paddings` which is true by default.
+
+Calling the `strip_tensor_paddings` method (with `strip_tensor_paddings=True`), we hit:
+
+```python
+for state_file in state_file_list:
+    # ...clipped...
+    if strip_tensor_paddings:
+        self._strip_tensor_paddings(sd)  # <-- this is where the error is raised
+```
+
+and we hit the `RuntimeError` when calling this
+`self._strip_tensor_paddings(sd)` method.
+
+Stepping into the `self._strip_tensor_paddings` method, we see that it calls
+[this block](https://github.com/microsoft/DeepSpeed/blob/cc03c76d57f41752d8cfb84c2e45b8e0da8083da/deepspeed/checkpoint/zero_checkpoint.py#L108-L110)
+(shown below) which calculates the `raw_length` as:
+
+```python
+def _strip_tensor_paddings(self, sd):
+    param_group_states = self._get_param_group_states(sd)
+    if param_group_states is None:
+        return
+
+    group_paddings = self._get_optimizer_state(sd, GROUP_PADDINGS)
+    if group_paddings is None:
+        return
+
+    for key, group_state in param_group_states.items():
+        if group_paddings[key] == 0:
+            continue
+        for state_name, state_value in group_state.items():
+            if state_name != "step" and torch.is_tensor(state_value):
+                # 🐛 see debugger output below
+                raw_length = state_value.numel() - group_paddings[key]  # <-- this is negative
+                group_state[state_name] = torch.narrow(state_value, 0, 0, raw_length).clone()
+            else:
+                group_state[state_name] = state_value
+```
+
+which, when `raw_length` is negative, causes:
+
+```python
+group_state[state_name] = torch.narrow(state_value, 0, 0, raw_length).clone()
+RuntimeError: narrow(): length must be non-negative.
+```
+
+It wasn't immediately obvious what this `strip_tensor_paddings` argument represents
+(or even what the method is doing, to be honest), so I didn't have much insight 
+into why this would only be happening for checkpoints created at larger scales.
+
+
+### 🧰 Proposed Fix
+
+Naively, the first (and easiest) thing to try was to see if I could just skip this
+`strip_tensor_paddings` step by setting `strip_tensor_paddings=False` in the
+call to (1) `get_zero_checkpoint_state` in the (2) `extract_zero_shards` function.
+
+Unfortunately, since (1) `DeepSpeedCheckpoint.get_zero_checkpoint_state()`
+**DOES NOT** take in the `strip_tensor_paddings` argument,
+there is no way to pass this along to the (2) `ZeROCheckpoint.get_state_for_rank()` call.
+
+So, our proposed fix requires two modifications:
+
+1. Modify `DeepSpeedCheckpoint.get_zero_checkpoint_state` signature from [here](https://github.com/microsoft/DeepSpeed/blob/cc03c76d57f41752d8cfb84c2e45b8e0da8083da/deepspeed/checkpoint/deepspeed_checkpoint.py#L123) to accept the `strip_tensor_paddings` argument:
+
+    ```diff
+    warning: Empty last update token.
+    diff --git a/deepspeed/checkpoint/deepspeed_checkpoint.py b/deepspeed/checkpoint/deepspeed_checkpoint.py
+    index 31997177..a2ef5d0d 100644
+    --- a/deepspeed/checkpoint/deepspeed_checkpoint.py
+    +++ b/deepspeed/checkpoint/deepspeed_checkpoint.py
+    @@ -120,11 +120,12 @@ class DeepSpeedCheckpoint(object):
+             self.global_state[ITERATION_KEY] = sd.get(ITERATION_KEY, 0)
+             self.global_state[ARGS_KEY] = sd.get(ARGS_KEY, None)
+    
+    -    def get_zero_checkpoint_state(self, pp_index, tp_index, dp_index) -> dict:
+    -        return self.zero_checkpoint.get_state_for_rank(pp_index=pp_index,
+    +    def get_zero_checkpoint_state(self, pp_index, tp_index, dp_index, strip_tensor_paddings: bool = True) -> dict:
+    +        return self.zero_checkpoint.get_state_for_rank(pp_index=pp_index,  # type:ignore
+                                                            tp_index=tp_index,
+                                                            dp_index=dp_index,
+    -                                                       keys_to_ignore=[PARAM_SHAPES])
+    +                                                       keys_to_ignore=[PARAM_SHAPES],
+    +                                                       strip_tensor_paddings=strip_tensor_paddings)
+    
+         def get_zero_files(self, pp_index, tp_index, dp_index) -> list:
+             return self.zero_checkpoint.get_files_for_rank(pp_index=pp_index, tp_index=tp_index, dp_index=dp_index)
+    ```
+
+1. With this in place, we can now try setting `strip_tensor_paddings = False` in the call shown below:
+
+    ```diff
+    diff --git a/deepspeed/checkpoint/ds_to_universal.py b/deepspeed/checkpoint/ds_to_universal.py
+    index f7b75eee..cbbbef6b 100755
+    --- a/deepspeed/checkpoint/ds_to_universal.py
+    +++ b/deepspeed/checkpoint/ds_to_universal.py
+    @@ -111,7 +111,7 @@ def _save_checkpoint(file_path, chkpt_sd):
+     
+     def extract_zero_shards(dir, ds_checkpoint, indices_3D):
+         pp_index, tp_index, dp_index = indices_3D
+    -    sd = ds_checkpoint.get_zero_checkpoint_state(pp_index=pp_index, tp_index=tp_index, dp_index=dp_index)
+    +    sd = ds_checkpoint.get_zero_checkpoint_state(pp_index=pp_index, tp_index=tp_index, dp_index=dp_index, strip_tensor_paddings=False)
+    ```
+
+### ✅ Confirm Fix Works
+
+We've added the proposed changes above to the `saforem2/ucp-bug` branch.
+
+We can confirm explicitly that the proposed fix works by retrying the conversion:
+
+```bash
+$ cd deps/DeepSpeed && git status && git checkout 'saforem2/ucp-bug' && PAGER='' git diff deepspeed/checkpoint/ && cd - && ckpt_dir=checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05 ; gs=$(cat "${ckpt_dir}/latest_checkpointed_iteration.txt") && echo "global step: ${gs}" && python3 deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py --input_folder "${ckpt_dir}/global_step${gs}" --output_folder "${ckpt_dir}/global_step${gs}_universal" --keep_temp_folder
+On branch saforem2/ucp-bug
+nothing to commit, working tree clean
+Already on 'saforem2/ucp-bug'
+/flare/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed
+global step: 95600
+[2024-12-29 01:58:23,658] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+[2024-12-29 01:58:30,635] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+args = Namespace(input_folder='checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600', output_folder='checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600_universal', num_extract_workers=4, num_merge_workers=2, keep_temp_folder=True, strict=True, inject_missing_state=False)
+Convert DeepSpeed Checkpoint to Universal Checkpoint
+Converting DeepSpeed checkpoint in checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600 to Universal checkpoint in checkpoints/ws768_ds_stage1_nl32_hs4096_mb4_seq4096_gb3072_sp1_pp1_tp1_bf16_optadamw_lr0.00020_lwf0.05/global_step95600_universal
+*** 1. Extracting ZeRO fragments
+100%|██████████████████████████| 768/768 [04:15<00:00,  3.00it/s]
+*** 2. Merging slices .....
+100%|██████████████████████████| 195/195 [01:11<00:00,  2.74it/s]
+*** 3. Saving common optimizer states
+*** Done!
+took: 0h:09m:00s
+```
+
+fixed!
+
+## 👻 Bug Doesn't Appear for Smaller Checkpoints
+
+As a sanity check, we can explicitly test that everything works
+_as is_ when converting smaller checkpoints to universal format.
+
+1. Create checkpoint on 4 nodes of Aurora
+
+    ```bash
+    $ PBS_O_WORKDIR=$(pwd) DATA_FILE_LIST=ALCF/data-lists/aurora/books.txt NLAYERS=1 SAVE_INTERVAL=10 bash train_aGPT_7B.sh
+    # ...irrelevant output clipped...
+    [2024-12-29 00:41:41.185272][INFO][utils.py:368] successfully saved checkpoint at iteration 690 to checkpoints/ws48_ds_stage1_nl1_hs4096_mb1_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash
+    ```
+
+2. Convert to universal checkpoint using `DeepSpeed` master (**unchanged**), and
+   confirm that it works without issue.
+
+Using the checkpoint generated in 1., we use
+[DeepSpeed / deepspeed / checkpoints / `ds_to_universal.py`](https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/checkpoint/ds_to_universal.py)
+**as is**:
+
+```bash
+#[🐍 aurora_nre_models_frameworks-2024.2.1_u1](👻 aurora_nre_models_frameworks-2024.2.1_u1)
+#[12:46:03 AM][x4705c5s4b0n0][/f/A/f/p/a/t/2/Megatron-DeepSpeed][🌱 docs-ucp-bug][?]
+$ cd deps/DeepSpeed && git status && cd - && ckpt_dir=checkpoints/ws48_ds_stage1_nl1_hs4096_mb1_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash ; gs=$(cat "${ckpt_dir}/latest_checkpointed_iteration.txt") && echo "global step: ${gs}" && python3 deps/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py --input_folder "${ckpt_dir}/global_step${gs}" --output_folder "${ckpt_dir}/global_step${gs}_universal" --keep_temp_folder
+On branch master # on master
+Your branch is up to date with 'origin/master'.  # no local changes
+nothing to commit, working tree clean
+/flare/Aurora_deployment/foremans/projects/argonne-lcf/tmp/2024-12-28-154515/Megatron-DeepSpeed
+global step: 690  # <-- ckpt from 1.
+[2024-12-29 00:46:14,466] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+[2024-12-29 00:46:14,832] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to xpu (auto detect)
+args = Namespace(input_folder='checkpoints/ws48_ds_stage1_nl1_hs4096_mb1_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash/global_step690', output_folder='checkpoints/ws48_ds_stage1_nl1_hs4096_mb1_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash/global_step690_universal', num_extract_workers=4, num_merge_workers=2, keep_temp_folder=True, strict=True, inject_missing_state=False)
+Convert DeepSpeed Checkpoint to Universal Checkpoint
+Converting DeepSpeed checkpoint in checkpoints/ws48_ds_stage1_nl1_hs4096_mb1_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash/global_step690 to Universal checkpoint in checkpoints/ws48_ds_stage1_nl1_hs4096_mb1_seq4096_gb768_sp1_pp1_tp1_bf16_optadamw_lr_lwf_flash/global_step690_universal
+*** 1. Extracting ZeRO fragments
+100%|██████████████████████████████████| 48/48 [00:19<00:00,  2.44it/s]
+*** 2. Merging slices .....
+100%|██████████████████████████████████| 9/9 [00:05<00:00,  1.68it/s]
+*** 3. Saving common optimizer states
+*** Done!
+took: 0h:01m:40s
+```
diff --git a/ALCF/requirements/requirements.txt b/ALCF/requirements/requirements.txt
new file mode 100644
index 00000000000..03541ba514a
--- /dev/null
+++ b/ALCF/requirements/requirements.txt
@@ -0,0 +1,18 @@
+hjson
+ninja
+psutil
+py-cpuinfo
+pydantic
+tqdm
+transformers
+bitsandbytes
+sentencepiece
+einops
+xgboost
+fixedint
+pybind11
+six
+numpy<2
+schedulefree
+packaging>=20.0
+wandb
diff --git a/ALCF/sunspot-env-2024-04-15-002.sh b/ALCF/sunspot-env-2024-04-15-002.sh
new file mode 100644
index 00000000000..3b7155675df
--- /dev/null
+++ b/ALCF/sunspot-env-2024-04-15-002.sh
@@ -0,0 +1,4 @@
+#!/bin/bash --login
+
+module use /soft/preview-modulefiles/24.086.0
+module load frameworks/2024.04.15.002.lua
diff --git a/ALCF/sunspot-env.sh b/ALCF/sunspot-env.sh
new file mode 100644
index 00000000000..8b02542b20e
--- /dev/null
+++ b/ALCF/sunspot-env.sh
@@ -0,0 +1,8 @@
+#!/bin/bash --login
+#
+module use /home/ftartagl/graphics-compute-runtime/modulefiles
+module load graphics-compute-runtime/agama-ci-devel-803.29
+module load spack-pe-gcc/0.6.1-23.275.2
+module load gcc/12.2.0
+module use /soft/preview-modulefiles/24.086.0
+module load oneapi/release/2024.04.15.001
diff --git a/ALCF/test_alcf.sh b/ALCF/test_alcf.sh
new file mode 100644
index 00000000000..853addc59d1
--- /dev/null
+++ b/ALCF/test_alcf.sh
@@ -0,0 +1,166 @@
+#!/bin/bash --login
+#
+# Run complete test of
+# https://github.com/argonne-lcf/Megatron-DeepSpeed
+# on {Polaris, Sunspot, Sirius} @ ALCF
+# to launch (inside an interactive `qsub -I` job) on Polaris:
+#
+# ```bash`
+# $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+# $ cd Megatron-DeepSpeed/ALCF
+# $ bash test_alcf.sh
+# ````
+
+# EXIT ON ERROR(s)
+set -euxo pipefail
+
+NOW="$(date "+%Y-%m-%d-%H%M%S")"
+
+setup_conda_sunspot() {
+    if [[ -z "${CONDA_PREFIX-}" && -z "${VIRTUAL_ENV-}" ]]; then
+        shell_name=$(echo "${SHELL}" | tr "\/" "\t" | awk '{print $NF}')
+        eval "$(~/miniconda3/bin/conda shell hook -s posix)"
+        conda activate q4-drop
+    else
+        echo "Found existing python at: $(which python3)"
+    fi
+}
+
+setup_conda_sirius() {
+    if [[ -z "${CONDA_PREFIX-}" && -z "${VIRTUAL_ENV-}" ]]; then
+        export MAMBA_ROOT_PREFIX=/lus/tegu/projects/PolarisAT/foremans/micromamba
+        shell_name=$(echo "${SHELL}" | tr "\/" "\t" | awk '{print $NF}')
+        eval "$("${MAMBA_ROOT_PREFIX}/bin/micromamba" shell hook --shell ${shell_name})"
+        micromamba activate 2024-04-23
+    else
+        echo "Found existing python at: $(which python3)"
+    fi
+}
+
+setup_conda_polaris() {
+    if [[ -z "${CONDA_PREFIX-}" && -z "${VIRTUAL_ENV-}" ]]; then
+        # export CUDA_HOME=/soft/compilers/cudatoolkit/cuda-12.2.2
+        # && export MAMBA_ROOT_PREFIX=/eagle/argonne_tpc/micromamba && eval "$("${MAMBA_ROOT_PREFIX}/bin/micromamba" shell hook -s posix)" ; mm activate 2024-04-25
+        export MAMBA_ROOT_PREFIX=/eagle/argonne_tpc/micromamba
+        shell_name=$(echo "${SHELL}" | tr "\/" "\t" | awk '{print $NF}')
+        eval "$("${MAMBA_ROOT_PREFIX}/bin/micromamba" shell hook -s posix)"
+        micromamba activate 2024-04-25
+    else
+        echo "Found existing python at: $(which python3)"
+    fi
+}
+
+
+function setEnv() {
+    local virtual_env="${VIRTUAL_ENV-}"
+    local conda_prefix="${CONDA_PREFIX-}"
+    if [[ -n "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "Using conda from: ${conda_prefix}"
+    elif [[ -n "${virtual_env}" && -z "${conda_prefix}" ]]; then
+        echo "Using virtual_env from: ${virtual_env}"
+    elif [[ -n "${virtual_env}" && -n "${conda_prefix}" ]]; then
+        echo "Using virtual_env: ${virtual_env} on top of CONDA: ${conda_prefix}"
+    elif [[ -z "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "No conda_prefix or virtual_env found in environment..."
+        echo "Setting up conda"
+        # setup_conda
+        # ---- [SunSpot] ------- || ---- [Aurora] --------------
+        if [[ $(hostname) == x1* || $(hostname) == x4* ]]; then
+            source "${WORKING_DIR}/ALCF/sunspot-env.sh" || exit
+            # ----- [Aurora] -----------------------------------
+            if [[ -z "${conda_prefix}" && -z "${virtual_env}" ]]; then
+                if [[ $(hostname) == x4* ]]; then
+                    eval "$(conda shell.zsh hook)" && conda activate anl_release_q4v2
+                # ----- [SunSpot] ----------------------------------
+                elif [[ $(hostname) == x1* ]]; then
+                    echo "Running on SunSpot !!"
+                    setup_conda_sunspot
+                    # eval "$(/home/foremans/miniconda3/bin/conda shell.zsh hook)" && conda activate q4-drop
+                fi
+            fi
+        # ----- [Polaris] ---------------------------------------
+        elif [[ $(hostname) == x3* ]]; then
+            if [[ "${PBS_O_HOST}" == sirius* ]]; then
+                echo "Running on Sirius !!"
+                setup_conda_sirius
+            else
+                echo "Running on Polaris !!"
+                # ---- [load conda] ---------------------
+                setup_conda_polaris
+                # if [[ -d "${PBS_O_WORKDIR}/venvs/polaris/cu118-pt221" ]]; then
+                #     source "${PBS_O_WORKDIR}/venvs/polaris/cu118-pt221/bin/activate"
+                # fi
+            fi
+        elif [[ $(hostname) == login* || $(hostname) == nid* ]]; then
+            echo "Running on Perlmutter !!"
+            module load pytorch
+            source "${SLURM_SUBMIT_DIR}/venvs/perlmutter/pytorch-2.1.0-cu12/bin/activate"
+        else # ------------------------------------- [Unknown] -------------------
+            echo "Unknown hostname $(hostname)"
+            exit 1
+        fi
+    else
+        echo "Unable to setup python environment. Exiting"
+        exit 1
+    fi
+    echo "[python] Using: $(which python3)"
+}
+
+
+
+########################################
+# Make sure ./tmp/Megatron-DeepSpeed
+# does not already exist
+########################################
+setup_megatron_deepspeed() {
+    OUTDIR="OUTPUTS/test-polaris-${NOW}" && mkdir -p "${OUTDIR}" && cd "${OUTDIR}"
+    echo "Running test in: ${OUTDIR}"
+    echo "WORKING DIRECTORY: $(realpath $(pwd .))"
+    if [[ -d "Megatron-DeepSpeed" ]]; then
+        echo "Found existing Megatron-DeepSpeed in ${OUTDIR}"
+        echo "Remove Megatron-DeepSpeed from ${OUTDIR} to run test."
+        exit
+    fi
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed
+    if [[ -n "${GIT_BRANCH-}" ]]; then
+        git checkout "${GIT_BRANCH}"
+    fi
+}
+
+
+main() {
+    local virtual_env="${VIRTUAL_ENV-}"
+    local conda_prefix="${CONDA_PREFIX-}"
+    if [[ -n "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "Using conda from: ${conda_prefix}"
+    elif [[ -n "${virtual_env}" && -z "${conda_prefix}" ]]; then
+        echo "Using virtual_env from: ${virtual_env}"
+    elif [[ -n "${virtual_env}" && -n "${conda_prefix}" ]]; then
+        echo "Using virtual_env: ${virtual_env} on top of CONDA: ${conda_prefix}"
+    elif [[ -z "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "No conda_prefix or virtual_env found in environment..."
+        echo "Setting up conda"
+        setup_conda
+    else
+        echo "Unable to setup python. Exiting"
+        exit 1
+    fi
+    setup_megatron_deepspeed
+    export DEBUG=1
+    export PBS_O_WORKDIR="$(pwd)"
+    SUBMITTED_FROM=$(echo $PBS_O_HOST | tr '-' ' ' | awk '{print $1}')
+    export DATA_FILE_LIST="${PBS_O_WORKDIR}/ALCF/data-lists/${SUBMITTED_FROM}/books.txt"
+    if [[ ! -f "${DATA_FILE_LIST}" ]]; then
+        echo "Unable to find / use ${DATA_FILE_LIST}. Exiting."
+        exit 1
+    fi
+    # export ZERO_STAGE=1
+    # export NUM_LAYERS=10
+    # export MICRO_BATCH=8
+    export TRAIN_ITER=20
+    export TIMING_LOG_LEVEL=1
+    bash train_llama_alcf.sh |& tee "test-${SUBMITTED_FROM}-${NOW}".log
+}
+
+main
+
diff --git a/ALCF/test_blend_full.sh b/ALCF/test_blend_full.sh
index 4245304456f..459652a2ee8 100755
--- a/ALCF/test_blend_full.sh
+++ b/ALCF/test_blend_full.sh
@@ -6,16 +6,16 @@
 #PBS -l filesystems=eagle:grand:home
 cd ${PBS_O_WORKDIR}
 export PPN=4
-export MD=/home/hzheng/ALCF-Megatron-DeepSpeed
-module load conda/2023-10-04
-#conda activate /soft/datascience/megatron-deepspeed/2023-10-04
-conda activate $HOME/PolarisAT/pyenvs/megatron/2023-10-04
+export MD=/eagle/argonne_tpc/soft/Megatron-DeepSpeed
+source /eagle/argonne_tpc/soft/conda.sh
+export TRITON_CACHE_DIR=/tmp/.cache/
+
 export TP=1
 export PP=1
 export SP=128
 export MBS=1
 export BS=$((MBS*SP))
-export export DATE_TAG=$(date +"%Y-%m-%d-%H-%M-%S")
+export DATE_TAG=$(date +"%Y-%m-%d-%H-%M-%S")
 export DATA_FILE_LIST="/eagle/datasets//dolma/data_file_list_reweighted.txt"
 
 HIDDEN_SIZE=4096
@@ -25,8 +25,9 @@ EMBEDDINGS=2048
 TRAIN_ITERS=80797
 ZERO_STAGE=2
 MODEL=LLAMA_7B
+export PBS_JOBSIZE=$(cat $PBS_NODEFILE | uniq | wc -l)
 OUTPUT_PREFIX=${MODEL}_z${ZERO_STAGE}_seqlen_mp${MP}_pp${PP}_sp${SP}_nl${NUM_LAYERS}_hs${HIDDEN_SIZE}_gb${BS}_mb${MBS}
-python3 ALCF_utils/test_blendable_dataset.py \
+APRUN_PMI=pmix aprun -n $((PBS_JOBSIZE*PPN)) -N $PPN --cc depth -d 16 ${MD}/local_rank.sh python3 ALCF/test_blendable_dataset.py \
 	   --tensor-model-parallel-size ${TP} \
 	   --pipeline-model-parallel-size ${PP} \
 	   --num-layers ${NUM_LAYERS} \
@@ -51,7 +52,6 @@ python3 ALCF_utils/test_blendable_dataset.py \
 	   --lr-warmup-iters 2 \
 	   --optimizer adam \
 	   --adam-beta1 0.9 \
-	   --mmap_warmup False \
 	   --adam-beta2 0.95 \
 	   --log-interval 1 \
 	   --cpu-optimizer \
@@ -70,4 +70,4 @@ python3 ALCF_utils/test_blendable_dataset.py \
 	   --data-path ${DATA_PATH} \
 	   --data-cache-path /tmp/hzheng-megatron-deepspeed-cache/ \
 	   --vocab-file ${MD}/dataset/gpt2-vocab.json --merge-file ${MD}/dataset/gpt2-merges.txt \
-	   --zero-stage=${ZERO_STAGE} --deepspeed_config=${MD}/ds_config-gpt.json --deepspeed
+	   --zero-stage=${ZERO_STAGE} --deepspeed_config=${MD}/ds_config-gpt.json --deepspeed 
diff --git a/ALCF/test_blendable_dataset.py b/ALCF/test_blendable_dataset.py
index a0cccbb6cb3..c1198621421 100644
--- a/ALCF/test_blendable_dataset.py
+++ b/ALCF/test_blendable_dataset.py
@@ -1,4 +1,9 @@
 #!/usr/bin/env python
+import time
+import json
+start_time = time.time()
+from mpi4py import MPI
+import os
 from megatron.data.gpt_dataset import build_train_valid_test_datasets
 import numpy as np
 from megatron.global_vars import set_args, set_global_variables, get_args
@@ -6,21 +11,50 @@
 from megatron.initialize import initialize_megatron
 from megatron.data.data_samplers import build_pretraining_data_loader
 
+import torch
+from megatron.core import mpu
+
+
+comm = MPI.COMM_WORLD
+from megatron.utils import PerfTrace, Profile
+
+
+import datetime
+def print_rank_0(msg):
+    if comm.rank==0:
+        print(f" [INFO][{datetime.datetime.now()}] {msg}", flush=True)
+end_time = time.time()        
+print_rank_0(f"Loaded python modules in {end_time - start_time} seconds")
 initialize_megatron(allow_no_cuda=True)
+comm.Barrier()
+print_rank_0(f"Barrier synchonization time:  {time.time() - end_time} seconds")
 args = get_args()
+if os.getenv('DLIO_PROFILER_DATASET_DIR') is not None:
+    extra_trace_path = os.environ['DLIO_PROFILER_DATASET_DIR']
+else:
+    extra_trace_path=''
+PerfTrace.initialize_log(f"{args.trace_dir}/trace-{comm.rank}-of-{comm.size}.pfw",  f"{args.data_cache_path}:{extra_trace_path}:{args.data_path}:{args.save}:{args.load}", process_id=comm.rank)
+dlp = Profile("TEST_BLENDABLEDATASET")
+
+os.makedirs(args.trace_dir, exist_ok=True)
 
+corpus_all = []
 data_file_list = args.data_file_list
-print(f"Reading data from {args.data_file_list}")
+print_rank_0(f"Reading data from {args.data_file_list}")
 files = []
 weights = []
 flist = []
 with open(data_file_list, 'r') as fin:
     for f in fin.readlines():
-        w, fname = f.split()
+        w, fname, c = f.split()
         weights.append(float(w))
         flist.append(fname)
         files.append(float(w))
         files.append(fname)
+        files.append(c)
+        if c not in corpus_all:
+            corpus_all.append(c)
+            
 splits_string="100,0,0"
 
 weights = np.array(weights)
@@ -28,10 +62,9 @@
 
 num_samples = args.global_batch_size*args.train_iters
 num_datasets = len(weights)
-
-print(f"Number of datasets: {num_datasets}")
-print(f"Global batch size: {args.global_batch_size}")
-print(f"Training iterations: {args.train_iters}")
+print_rank_0(f"Number of datasets: {num_datasets}")
+print_rank_0(f"Global batch size: {args.global_batch_size}")
+print_rank_0(f"Training iterations: {args.train_iters}")
 train_valid_test_num_samples = [num_samples, 0, 0]
 seed=args.seed
 data_impl = args.data_impl
@@ -40,34 +73,80 @@
 splits_string = "1,0,0"
 
 # Build datasets
+start_build_dataset = time.time()
+
+print_rank_0(f"Starting to build the blendable dataset")
 train_ds, valid_ds, test_ds = build_train_valid_test_datasets(files, data_impl, splits_string,
                             train_valid_test_num_samples,
                             seq_length, seed, skip_warmup, data_cache_path=args.data_cache_path)
 
-dataset_idx = [train_ds.dataset_index[i] for i in range(num_samples)]
-ratio_select=np.zeros(num_datasets)
-#for i in range(num_datasets):
-#    ratio_select[i] = np.sum([i==d for d in dataset_idx])/num_samples
-
-print(f"Total number of samples: {len(train_ds)}")
-print(f"Weights set: {weights[:min(8, num_datasets)]}")
-#print(f"Weights across training: {ratio_select[:min(8, num_datasets)]}")
 
-for e in range(min(100, args.train_iters)):
-    ratio_select=np.zeros(num_datasets)
-    for i in range(num_datasets):
-        ratio_select[i] = np.sum([i==d for d in dataset_idx[e*args.global_batch_size:(e+1)*args.global_batch_size]])/args.global_batch_size
-    print(f"iter-{e}: {ratio_select[:min(8, num_datasets)]}")
+end_build_dataset = time.time()
+print_rank_0(f"Finished building the blendable dataset in {end_build_dataset - start_build_dataset} second")
+print_rank_0(f"Total number of samples: {len(train_ds)}")
+print_rank_0(f"Weights set: {weights[:min(8, num_datasets)]}")
 
 
-print("First 10 samples")
-for i in range(10):
-    print(f"Sample: {i} \t dataset_idx: {train_ds.dataset_index[i]}, sample_idx: {train_ds.dataset_sample_index[i]}")
+def get_sample_info(blendable_dataset, idx):
+    # corpus dataset
+    cd = blendable_dataset.dataset_index[idx]
+    # index within the corpus dataset
+    cds = blendable_dataset.dataset_sample_index[idx]
+    # dataset index within each corpus
+    fcd = blendable_dataset.datasets[cd].dataset_index[cds]
+    # sample index within the dataset
+    fcds = blendable_dataset.datasets[cd].dataset_sample_index[cds]
+    # corresponding data file
+    prefix = blendable_dataset.datasets[cd].dataset_builders[fcd].prefix
+    corpus = blendable_dataset.datasets[cd].dataset_builders[fcd].corpus
+    #v = blendable_dataset[idx]['text']
+    #norm = np.linalg.norm(v)
+    return prefix, corpus, fcds
 
-
-#### Build data loaders
+num_batches =  args.train_iters
+print(f"global_batch_size: {args.global_batch_size}")
+print(f"number of batches: {num_batches}")
+    
+fout = open("samples_list.jsonl", "w")
+if comm.rank == 0:
+    for i in range(num_batches):
+        ns_corpus = {}
+        for c in corpus_all:
+            ns_corpus[c] = 0
+        for j in range(args.global_batch_size):
+            prefix, corpus, idx = get_sample_info(train_ds, i*args.global_batch_size+j)
+            ns_corpus[corpus] +=1
+            fout.write(f"\u007b 'batch': {i}, 'sample': {j}, 'corpus': '{corpus}', 'prefix': '{prefix}', 'dataset_sample_index': {idx} \u007d\n")
+        fout.write(f"\u007b 'batch': {i}, 'histogram': {ns_corpus} \u007d \n")
+comm.Barrier()        
+exit()
+start_build_dataloader = time.time()
+print_rank_0(f"Starting to build the data loader")
+rank_in_parallel_group = mpu.get_sequence_parallel_rank()
 train_dataloader = build_pretraining_data_loader(
-        train_ds, args.consumed_train_samples)
+    train_ds, args.consumed_train_samples)
 valid_dataloader = build_pretraining_data_loader(
         valid_ds, args.consumed_valid_samples)
 test_dataloader = build_pretraining_data_loader(test_ds, 0)
+end_build_dataloader = time.time()
+print_rank_0(f"Finished building the data loader in {end_build_dataloader - start_build_dataloader} second")
+
+print_rank_0(f"Starting loading the data")
+start_loading_time = time.time()
+NUM_ITEMS=1
+SLEEP_TIME=10.0
+@dlp.log
+def compute(ct):
+    time.sleep(ct)
+n=0
+start_time = time.time()
+for i in dlp.iter(train_dataloader):
+    print(f"[{comm.rank}] DATA {i}")
+    n+=1
+    if (n%NUM_ITEMS==0):
+        print_rank_0(f"Proccessed {n}th-batch in {time.time() - start_time}")
+    if n>=1000:
+        break
+    start_time = time.time()
+end_loading_time = time.time()
+print_rank_0(f"Finished loading the data ({n} batches) in {end_loading_time - start_loading_time}")
diff --git a/ALCF/test_polaris.sh b/ALCF/test_polaris.sh
new file mode 100644
index 00000000000..a18c87fad74
--- /dev/null
+++ b/ALCF/test_polaris.sh
@@ -0,0 +1,88 @@
+#!/bin/bash --login
+#
+# Run complete test of
+# https://github.com/argonne-lcf/Megatron-DeepSpeed
+# on Polaris @ ALCF
+# to launch (inside an interactive `qsub -I` job) on Polaris:
+#
+# ```bash`
+# $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+# $ cd Megatron-DeepSpeed/ALCF
+# $ bash test_polaris.sh
+# ````
+
+# EXIT ON ERROR(s)
+set -euxo pipefail
+
+NOW="$(date "+%Y-%m-%d-%H%M%S")"
+
+########################################################
+# Setup / activate conda environment,
+# mine is called q4-drop
+########################################################
+setup_conda() {
+    if [[ -z "${CONDA_PREFIX-}" && -z "${VIRTUAL_ENV-}" ]]; then
+        export MAMBA_ROOT_PREFIX=/eagle/argonne_tpc/micromamba
+        shell_name=$(echo "${SHELL}" | tr "\/" "\t" | awk '{print $NF}')
+        eval "$("${MAMBA_ROOT_PREFIX}/bin/micromamba" shell hook -s posix)"
+        micromamba activate 2024-04-25
+    else
+        echo "Found existing python at: $(which python3)"
+    fi
+}
+
+
+########################################
+# Make sure ./tmp/Megatron-DeepSpeed
+# does not already exist
+########################################
+setup_megatron_deepspeed() {
+    OUTDIR="OUTPUTS/test-polaris-${NOW}" && mkdir -p "${OUTDIR}" && cd "${OUTDIR}"
+    echo "Running test in: ${OUTDIR}"
+    echo "WORKING DIRECTORY: $(realpath $(pwd .))"
+    if [[ -d "Megatron-DeepSpeed" ]]; then
+        echo "Found existing Megatron-DeepSpeed in ${OUTDIR}"
+        echo "Remove Megatron-DeepSpeed from ${OUTDIR} to run test."
+        exit
+    fi
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed
+    if [[ -n "${GIT_BRANCH-}" ]]; then
+        git checkout "${GIT_BRANCH}"
+    fi
+}
+
+
+main() {
+    local virtual_env="${VIRTUAL_ENV-}"
+    local conda_prefix="${CONDA_PREFIX-}"
+    if [[ -n "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "Using conda from: ${conda_prefix}"
+    elif [[ -n "${virtual_env}" && -z "${conda_prefix}" ]]; then
+        echo "Using virtual_env from: ${virtual_env}"
+    elif [[ -n "${virtual_env}" && -n "${conda_prefix}" ]]; then
+        echo "Using virtual_env: ${virtual_env} on top of CONDA: ${conda_prefix}"
+    elif [[ -z "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "No conda_prefix or virtual_env found in environment..."
+        echo "Setting up conda"
+        setup_conda
+    else
+        echo "Unable to setup python. Exiting"
+        exit 1
+    fi
+    setup_megatron_deepspeed
+    export DEBUG=1
+    export PBS_O_WORKDIR="$(pwd)"
+    export DATA_FILE_LIST="${PBS_O_WORKDIR}/ALCF/data-lists/polaris/books.txt"
+    if [[ ! -f "${DATA_FILE_LIST}" ]]; then
+        echo "Unable to find / use ${DATA_FILE_LIST}. Exiting."
+        exit 1
+    fi
+    export ZERO_STAGE=1
+    export NUM_LAYERS=10
+    export MICRO_BATCH=8
+    export TRAIN_ITER=20
+    export TIMING_LOG_LEVEL=1
+    bash train_llama_alcf.sh |& tee "test-polaris-${NOW}".log
+}
+
+main
diff --git a/ALCF/test_sirius.sh b/ALCF/test_sirius.sh
new file mode 100755
index 00000000000..0a528a95198
--- /dev/null
+++ b/ALCF/test_sirius.sh
@@ -0,0 +1,88 @@
+#!/bin/bash --login
+#
+# Run complete test of
+# https://github.com/argonne-lcf/Megatron-DeepSpeed
+# on Sirius @ ALCF
+# to launch (inside an interactive `qsub -I` job) on Sirius:
+#
+# ```bash`
+# $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+# $ cd Megatron-DeepSpeed/ALCF
+# $ bash test_sirius.sh
+# ````
+
+# EXIT ON ERROR(s)
+set -euxo pipefail
+
+NOW="$(date "+%Y-%m-%d-%H%M%S")"
+
+########################################################
+# Setup / activate conda environment,
+# mine is called q4-drop
+########################################################
+setup_conda() {
+    if [[ -z "${CONDA_PREFIX}" && -z "${VIRTUAL_ENV}" ]]; then
+        export MAMBA_ROOT_PREFIX=/lus/tegu/projects/PolarisAT/foremans/micromamba
+        shell_name=$(echo "${SHELL}" | tr "\/" "\t" | awk '{print $NF}')
+        eval "$("${MAMBA_ROOT_PREFIX}/bin/micromamba" shell hook --shell ${shell_name})"
+        micromamba activate 2024-04-23
+    else
+        echo "Found existing python at: $(which python3)"
+    fi
+}
+
+
+########################################
+# Make sure ./tmp/Megatron-DeepSpeed
+# does not already exist
+########################################
+setup_megatron_deepspeed() {
+    OUTDIR="OUTPUTS/test-sirius-${NOW}" && mkdir -p "${OUTDIR}" && cd "${OUTDIR}"
+    echo "Running test in: ${OUTDIR}"
+    echo "WORKING DIRECTORY: $(realpath $(pwd .))"
+    if [[ -d "Megatron-DeepSpeed" ]]; then
+        echo "Found existing Megatron-DeepSpeed in ${OUTDIR}"
+        echo "Remove Megatron-DeepSpeed from ${OUTDIR} to run test."
+        exit
+    fi
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed
+    if [[ -n "${GIT_BRANCH-}" ]]; then
+        git checkout "${GIT_BRANCH}"
+    fi
+}
+
+
+main() {
+    local virtual_env="${VIRTUAL_ENV-}"
+    local conda_prefix="${CONDA_PREFIX-}"
+    if [[ -n "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "Using conda from: ${conda_prefix}"
+    elif [[ -n "${virtual_env}" && -z "${conda_prefix}" ]]; then
+        echo "Using virtual_env from: ${virtual_env}"
+    elif [[ -n "${virtual_env}" && -n "${conda_prefix}" ]]; then
+        echo "Using virtual_env: ${virtual_env} on top of CONDA: ${conda_prefix}"
+    elif [[ -z "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "No conda_prefix or virtual_env found in environment..."
+        echo "Setting up conda"
+        setup_conda
+    else
+        echo "Unable to setup python. Exiting"
+        exit 1
+    fi
+    setup_megatron_deepspeed
+    export DEBUG=1
+    export PBS_O_WORKDIR="$(pwd)"
+    export DATA_FILE_LIST="${PBS_O_WORKDIR}/ALCF/data-lists/sirius/books.txt"
+    if [[ ! -f "${DATA_FILE_LIST}" ]]; then
+        echo "Unable to find / use ${DATA_FILE_LIST}. Exiting."
+        exit 1
+    fi
+    export ZERO_STAGE=1
+    export NUM_LAYERS=10
+    export MICRO_BATCH=8
+    export TRAIN_ITER=20
+    export TIMING_LOG_LEVEL=1
+    bash train_llama_alcf.sh |& tee "test-sirius-${NOW}".log
+}
+
+main
diff --git a/ALCF/test_sunspot.sh b/ALCF/test_sunspot.sh
new file mode 100755
index 00000000000..b3b22c78b41
--- /dev/null
+++ b/ALCF/test_sunspot.sh
@@ -0,0 +1,87 @@
+#!/bin/bash --login
+#
+# Run complete test of
+# https://github.com/argonne-lcf/Megatron-DeepSpeed
+# on Sunspot @ ALCF
+# to launch (inside an interactive `qsub -I` job) on Sirius:
+#
+# ```bash
+# $ git clone https://github.com/argonne-lcf/Megatron-DeepSpeed
+# $ cd Megatron-DeepSpeed/ALCF
+# $ bash test_sunspot.sh
+# ````
+
+# EXIT ON ERROR(s)
+set -euxo pipefail
+
+NOW="$(date "+%Y-%m-%d-%H%M%S")"
+
+########################################################
+# Setup / activate conda environment,
+# mine is called q4-drop
+########################################################
+setup_conda() {
+    if [[ -z "${CONDA_PREFIX}" && -z "${VIRTUAL_ENV}" ]]; then
+        shell_name=$(echo "${SHELL}" | tr "\/" "\t" | awk '{print $NF}')
+        eval "$(~/miniconda3/bin/conda shell hook -s posix)"
+        conda activate q4-drop
+    else
+        echo "Found existing python at: $(which python3)"
+    fi
+}
+
+
+########################################
+# Make sure ./tmp/Megatron-DeepSpeed
+# does not already exist
+########################################
+setup_megatron_deepspeed() {
+    OUTDIR="OUTPUTS/test-sunspot-${NOW}" && mkdir -p "${OUTDIR}" && cd "${OUTDIR}"
+    echo "Running test in: ${OUTDIR}"
+    echo "WORKING DIRECTORY: $(realpath $(pwd .))"
+    if [[ -d "Megatron-DeepSpeed" ]]; then
+        echo "Found existing Megatron-DeepSpeed in ${OUTDIR}"
+        echo "Remove Megatron-DeepSpeed from ${OUTDIR} to run test."
+        exit
+    fi
+    git clone https://github.com/argonne-lcf/Megatron-DeepSpeed && cd Megatron-DeepSpeed
+    if [[ -n "${GIT_BRANCH-}" ]]; then
+        git checkout "${GIT_BRANCH}"
+    fi
+}
+
+
+main() {
+    local virtual_env="${VIRTUAL_ENV-}"
+    local conda_prefix="${CONDA_PREFIX-}"
+    if [[ -n "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "Using conda from: ${conda_prefix}"
+    elif [[ -n "${virtual_env}" && -z "${conda_prefix}" ]]; then
+        echo "Using virtual_env from: ${virtual_env}"
+    elif [[ -n "${virtual_env}" && -n "${conda_prefix}" ]]; then
+        echo "Using virtual_env: ${virtual_env} on top of CONDA: ${conda_prefix}"
+    elif [[ -z "${conda_prefix}" && -z "${virtual_env}" ]]; then
+        echo "No conda_prefix or virtual_env found in environment..."
+        echo "Setting up conda"
+        setup_conda
+    else
+        echo "Unable to setup python. Exiting"
+        exit 1
+    fi
+    setup_megatron_deepspeed
+    export DEBUG=1
+    export PBS_O_WORKDIR="$(pwd)"
+    export DATA_FILE_LIST="${PBS_O_WORKDIR}/ALCF/data-lists/sunspot/books.txt"
+    if [[ ! -f "${DATA_FILE_LIST}" ]]; then
+        echo "Unable to find / use ${DATA_FILE_LIST}. Exiting."
+        exit 1
+    fi
+    export ZERO_STAGE=1
+    export NUM_LAYERS=10
+    export MICRO_BATCH=8
+    export TRAIN_ITER=20
+    export TIMING_LOG_LEVEL=1
+    bash train_llama_alcf.sh |& tee "test-sunspot-${NOW}.log"
+}
+
+main
diff --git a/examples_deepspeed/finetune_hf_llama/ds_config.json b/examples_deepspeed/finetune_hf_llama/ds_config.json
index 9c0b332473e..85f439ce472 100755
--- a/examples_deepspeed/finetune_hf_llama/ds_config.json
+++ b/examples_deepspeed/finetune_hf_llama/ds_config.json
@@ -1,11 +1,5 @@
 {
   "train_batch_size" : 256,
   "train_micro_batch_size_per_gpu": 16,
-  "steps_per_print": 100,
-  "zero_optimization": {
-    "stage": 0
-  },
-  "bf16": {
-    "enabled": true
-  }
+  "steps_per_print": 1
 }
diff --git a/examples_deepspeed/finetune_hf_llama/finetune_llama.sh b/examples_deepspeed/finetune_hf_llama/finetune_llama.sh
index c48ea11b93d..ab8bfdf419b 100644
--- a/examples_deepspeed/finetune_hf_llama/finetune_llama.sh
+++ b/examples_deepspeed/finetune_hf_llama/finetune_llama.sh
@@ -1,8 +1,8 @@
 DS_CONFIG=./examples_deepspeed/finetune_hf_llama/ds_config.json
-DATASET_PATH=./alpaca_data.json
+DATASET_PATH=./examples_deepspeed/finetune_hf_llama/alpaca_data.json
 # dataset link: https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json
 
-HF_LLAMA_PATH=/data/llama-7b/
+HF_LLAMA_PATH=/data/llama-2-7b-hf/
 # weights link: https://huggingface.co/huggyllama/llama-7b
 
 MICRO_BATCH_SIZE=16
@@ -44,11 +44,20 @@ cat <<EOT > $DS_CONFIG
 EOT
 
 
-covert_args="deepspeed tools/hf2megads_weight_converter.py \
+covert_hf2mds_args="deepspeed tools/hf2megads_weight_converter.py \
 --hf-ckpt-num-shards 2 \
---origin-hf-ckpt-dir $HF_LLAMA_PATH \
+--hf-ckpt-dir $HF_LLAMA_PATH \
+--load-mode auto \
 --save $MEGA_DS_LLAMA_PATH"
 
+covert_mds2hf_args="deepspeed tools/hf2megads_weight_converter.py \
+--hf-ckpt-num-shards 2 \
+--hf-ckpt-dir $HF_LLAMA_PATH \
+--load-mode auto \
+--to-hf-ckpt \
+--load $MEGA_DS_LLAMA_PATH \
+--save $HF_LLAMA_PATH'-hf-out' "
+
 finetune_args="deepspeed finetune_llama.py \
 --load $MEGA_DS_LLAMA_PATH"
 
@@ -98,8 +107,10 @@ comm_args="--tensor-model-parallel-size $TP \
 --no-gradient-accumulation-fusion \
 --repeated-dataloader"
 
-if [ "$1" = "convert" ]; then
-    task_args="$covert_args"
+if [ "$1" = "convert_hf2mds" ]; then
+    task_args="$covert_hf2mds_args"
+elif [ "$1" = "convert_mds2hf" ]; then
+    task_args="$covert_mds2hf_args"
 else
     task_args="$finetune_args"
 fi
diff --git a/examples_deepspeed/pretrain_llama2_distributed.sh b/examples_deepspeed/pretrain_llama2_distributed.sh
index f275ea636a5..4c790e8c191 100755
--- a/examples_deepspeed/pretrain_llama2_distributed.sh
+++ b/examples_deepspeed/pretrain_llama2_distributed.sh
@@ -41,6 +41,17 @@ GRAD_CLIP=1
 # activation_checkpoint="true"
 activation_checkpoint="false"
 
+LOG_TO_WANDB=0
+WANDB_ARGS=
+if [ $LOG_TO_WANDB -eq 1 ]
+then
+WANDB_ARGS="\
+       --wandb-project pretrain-llama2 \
+       --wandb-exp-name exp0 \
+       --wandb-save-dir ${BASE_PATH}/wandb \
+       "
+fi
+
 # Below configuration required for llama model as per llama paper
 # --no-query-key-layer-scaling \
 # --attention-dropout 0 \
@@ -53,7 +64,6 @@ activation_checkpoint="false"
 ######################################
 
 
-
 cat <<EOT > $DS_CONFIG
 {
   "train_batch_size" : $GLOBAL_BATCH_SIZE,
@@ -132,4 +142,5 @@ torchrun $DISTRIBUTED_ARGS \
        --normalization rmsnorm \
        --disable-bias-linear \
        --num-key-value-heads $NUM_KV_HEADS \
+       $WANDB_ARGS \
        $ds_args
diff --git a/examples_deepspeed/sequence_parallel/ds_pretrain_gpt_1.3B_seq_parallel_32k.sh b/examples_deepspeed/sequence_parallel/ds_pretrain_gpt_1.3B_seq_parallel_32k.sh
index da028dc7314..24bfa544d61 100644
--- a/examples_deepspeed/sequence_parallel/ds_pretrain_gpt_1.3B_seq_parallel_32k.sh
+++ b/examples_deepspeed/sequence_parallel/ds_pretrain_gpt_1.3B_seq_parallel_32k.sh
@@ -187,14 +187,6 @@ host="${HOSTNAME}"
 seed=1234
 num_workers=0
 
-data_path="BookCorpusDataset_text_document"
-if [ ! -f "BookCorpusDataset_text_document.bin" ]; then
-    wget https://the-eye.eu/public/AI/pile_neox/data/BookCorpusDataset_text_document.bin
-fi
-if [ ! -f "BookCorpusDataset_text_document.idx" ]; then
-    wget https://the-eye.eu/public/AI/pile_neox/data/BookCorpusDataset_text_document.idx
-fi
-
 vocab_path="gpt2-vocab.json"
 if [ ! -f "$vocab_path" ]; then
     wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
@@ -204,6 +196,24 @@ if [ ! -f "$merge_path" ]; then
     wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
 fi
 
+
+data_path="BookCorpusDataset_text_document"
+if [ ! -f "BookCorpusDataset_text_document.bin" ]; then
+    # Download the Bookcorpus dataset and convert to json
+    python preprocess_bookcorpus.py
+
+    # Process the dataset
+    python ${dir}/../../tools/preprocess_data.py \
+        --input ${data_path}.json \
+        --output-prefix "BookCorpusDataset" \
+        --vocab-file $vocab_path \
+        --merge-file $merge_path \
+        --dataset-impl mmap \
+        --tokenizer-type GPT2BPETokenizer \
+        --workers 32 \
+        --append-eod
+fi
+
 prescale_grad="true"
 jobname="gpt_${model_size}B_tok${train_tokens_in_billion}B"
 jobname="${jobname}_lr${lr}_min${min_lr}_w${lr_warmup_tokens_in_million}M_d${lr_decay_tokens_in_billion}B_${lr_decay_style}"
diff --git a/examples_deepspeed/sequence_parallel/preprocess_bookcorpus.py b/examples_deepspeed/sequence_parallel/preprocess_bookcorpus.py
new file mode 100644
index 00000000000..c35a13ea68f
--- /dev/null
+++ b/examples_deepspeed/sequence_parallel/preprocess_bookcorpus.py
@@ -0,0 +1,4 @@
+from datasets import load_dataset
+
+train_data = load_dataset('bookcorpus/bookcorpus', split='train')
+train_data.to_json("BookCorpusDataset_text_document.json", lines=True)
diff --git a/examples_deepspeed/universal_checkpointing/README.md b/examples_deepspeed/universal_checkpointing/README.md
index 341b0d113f5..281d320e996 100644
--- a/examples_deepspeed/universal_checkpointing/README.md
+++ b/examples_deepspeed/universal_checkpointing/README.md
@@ -10,12 +10,12 @@ This folder contains example scripts that demonstrate how to use Universal Check
 For ZeRO stage 1, we provide bash scripts for bf16 and fp16 training examples corresponding to the steps 1 and 3 above. The step 1 scripts launch a training run of TP=PP=DP=2 of 200 iterations that creates a checkpoint every 100 iterations. The step 3 scripts load a universal checkpoint of iteration 100 and resume training with TP=PP=2 and DP=1 for an additional 100 iterations. Users can modify these scripts to try out other save and resume 3D combinations (e.g., save TP=PP=DP=1 and resume TP=PP=DP=2). Tensorboard logs are created by both step 1 and 3 scripts to enable visual inspection of how well the loss curves of the initial and resumed training runs match, especially at iteration 101.  
 
 1.  bf16:
-    * run_bf16.sh: step 1
-    * run_universal_bf16.sh: step 3
+    * megatron_gpt/run_bf16.sh: step 1
+    * megatron_gpt/run_universal_bf16.sh: step 3
 
 2. fp16:
-    * run_fp16.sh: step 1 
-    * run_universal_fp16.sh: step 3
+    * megatron_gpt/run_fp16.sh: step 1
+    * megatron_gpt/run_universal_fp16.sh: step 3
 
 Please note that these scripts should be run from the root folder of the repo (i.e., two levels above this README). For illustration, here are the commands for running the bf16 example. 
 
@@ -41,22 +41,22 @@ NOTE: Make sure to update your `BASE_DATA_PATH` path in the `run_[bf16/fp16].sh`
 
 ### Step 1: Create ZeRO checkpoint
 ```bash 
-  bash examples_deepspeed/universal_checkpointing/run_bf16.sh 
+  bash examples_deepspeed/universal_checkpointing/megatron_gpt/run_bf16.sh
 ```
-By default the script will create the checkpoints in folder `z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_toy`
+By default the script will create the checkpoints in folder `z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_sp1_toy`
 
 ### Step 2: Convert ZeRO checkpoint of iteration 100 to Universal format
 Assuming the DeepSpeed source code is cloned into the home folder, the following command will generate universal checkpoint for iteration 100. 
 
 ```bash
 python ${HOME}/DeepSpeed/deepspeed/checkpoint/ds_to_universal.py \
-    --input_folder z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_toy/global_step100 \
-    --output_folder z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_toy/global_step100_universal
+    --input_folder z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_sp1_toy/global_step100 \
+    --output_folder z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_sp1_toy/global_step100_universal
 ```
 Note that we chose to create the universal checkpoint in the same checkpoint folder as the ZeRO checkpoint. This maintains the normal checkpoint folder structure expected by the Megatron-DeepSpeed code, which makes it easy to load universal checkpoints with little/no script or code changes. For clarity, we show below the contents of the checkpoint folder after creation of the universal checkpoint. Note that the conversion script creates `global_step100_universal` folder and `latest_universal` file.   
 
 ```bash
-ls -l z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_toy/
+ls -l z1_uni_ckpt/checkpoints/gpt2/z1/bf16/tp2_pp2_dp2_sp1_toy/
 total 48
 drwxr-xr-x 2 user group  4096 Oct 21 08:51 global_step100
 drwxr-xr-x 3 user group  4096 Oct 21 09:28 global_step100_universal
@@ -69,7 +69,7 @@ drwxr-xr-x 2 user group  4096 Oct 21 09:01 global_step200
 
 ### Step 3: Resume training with Universal checkpoint of iteration 100
 ```bash 
-bash examples_deepspeed/universal_checkpointing/run_universal_bf16.sh
+bash examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_bf16.sh
 ```
 This resumption script effects the loading of universal checkpoint rather than the ZeRO checkpoint in the folder by passing `--universal-checkpoint` command line flag to the main training script (i.e., `pretrain_gpt.py`). 
 
@@ -77,13 +77,15 @@ Please see the corresponding [pull request](https://github.com/microsoft/Megatro
 
 Combining sequence parallelism with data parallelism is another good use case for universal checkpointing, see [sp pull request](https://github.com/microsoft/DeepSpeed/pull/4752) for example and visualization of matching loss values.
 
+Notes: The model weights using the ```--no-pipeline-parallel``` parameter and the model weights not using the ```--no-pipeline-parallel``` parameter are currently not supported for mutual conversion.
+
 ### TensorBoard Log Analysis
 
 The Universal Checkpointing example includes a TensorBoard analysis script that will generate `csv` files and `png` plots across the unviersal checkpointing training steps for comparison of training and validation loss curves.
 
 After Step 3 is completed, the script may be executed as follows:
 ```bash
-bash examples_deepspeed/universal_checkpointing/run_tb_analysis.sh z1_uni_ckpt
+bash examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt.sh z1_uni_ckpt
 ```
 
 The script will output the following `csv` files:
@@ -116,4 +118,25 @@ Repeat steps in ZeRO stage 1 training above with the following modifications to
 * Set ZERO_STAGE=2 
 * Add `--no-pipeline-parallel` flag to deepspeed options  
 
-## ZeRO stage 3 training (**Coming soon**)
+## ZeRO stage 3 training
+Repeat steps in ZeRO stage 1 training above with the following modifications to your job batch scripts:
+* Set ZERO_STAGE=3
+* Add `--no-pipeline-parallel` flag to deepspeed options
+
+> **Note:** that the stage 3 universal checkpoint currently supports Data parallelism.
+
+Below is the visualization of the `png` files generated from ZeRO stage 3.
+
+<div align="center">
+  <img src="assets/image/uc_stage3_char_training_loss.png" alt="" width="600"/>
+
+  *Figure 1: Training LM loss curve for first 200 training steps of Step 1 (TP=1, PP=1, DP=4) and training steps 101 to 200 of Step 3 (TP=1, PP=1, DP=2), which was loaded using the Universal Checkpoint.*
+</div>
+
+<div align="center">
+  <img src="assets/image/uc_stage3_char_validation_loss.png" alt="" width="600"/>
+
+  *Figure 2: Validation LM loss curve for first 200 training steps of Step 1 (TP=1, PP=1, DP=4) and training steps 101 to 200 of Step 3 (TP=1, PP=1, DP=2), which was loaded using the Universal Checkpoint.*
+</div>
+
+
diff --git a/examples_deepspeed/universal_checkpointing/assets/image/uc_stage3_char_training_loss.png b/examples_deepspeed/universal_checkpointing/assets/image/uc_stage3_char_training_loss.png
new file mode 100644
index 00000000000..4c6758e9911
Binary files /dev/null and b/examples_deepspeed/universal_checkpointing/assets/image/uc_stage3_char_training_loss.png differ
diff --git a/examples_deepspeed/universal_checkpointing/assets/image/uc_stage3_char_validation_loss.png b/examples_deepspeed/universal_checkpointing/assets/image/uc_stage3_char_validation_loss.png
new file mode 100644
index 00000000000..30d6f72eb87
Binary files /dev/null and b/examples_deepspeed/universal_checkpointing/assets/image/uc_stage3_char_validation_loss.png differ
diff --git a/examples_deepspeed/universal_checkpointing/llama/run_llama_bf16.sh b/examples_deepspeed/universal_checkpointing/llama/run_llama_bf16.sh
new file mode 100644
index 00000000000..72e79d4f1f9
--- /dev/null
+++ b/examples_deepspeed/universal_checkpointing/llama/run_llama_bf16.sh
@@ -0,0 +1,175 @@
+#!/bin/bash
+set -ex
+
+DIR=`pwd`
+######################################
+# Change the below configurations here
+BASE_PATH=dataset
+DS_CONFIG=${BASE_PATH}/deepspeed.json
+DATASET=${BASE_PATH}/my-gpt2_text_document
+TOKENIZER_PATH=${BASE_PATH}/llama-7b/tokenizer.model # offical llama tokenizer.model
+
+GPUS_PER_NODE=8
+MASTER_ADDR=localhost
+MASTER_PORT=6000
+NNODES=1
+NODE_RANK=0
+
+HIDDEN_SIZE=2048 # e.g. llama-13b: 5120
+FFN_HIDDEN_SIZE=5504 # e.g. llama-13b: 13824
+NUM_LAYERS=24 # e.g. llama-13b: 40
+NUM_HEADS=16 # e.g. llama-13b: 40
+SEQ=2048
+
+LR_WARMUP_STEPS=2000
+WEIGHT_DECAY=0.1
+GRAD_CLIP=1
+
+## Activation checkpointing saves GPU memory, but reduces training speed
+# activation_checkpoint="true"
+activation_checkpoint="false"
+
+ZERO_STAGE=1
+DTYPE="bf16"
+
+# 3D parallelism of training
+TP=2
+PP=2
+DP=2
+SP=1
+WORLD_SIZE=$((TP*PP*DP*SP))
+GLOBAL_BATCH=32
+MICRO_BATCH=$((GLOBAL_BATCH/WORLD_SIZE))
+TRAIN_ITERS=250000
+LR=3e-4
+MIN_LR=3e-5
+
+# Debug
+DEBUG_MODE=1
+if [[ $DEBUG_MODE == 1 ]]; then
+        EXIT_INTERVAL=200
+        SIZE_TAG="toy"
+else
+        EXIT_INTERVAL=$TRAIN_ITERS
+        SIZE_TAG="big"
+fi
+
+# 3D parallelism of checkpoint to load
+LOAD_TP=$TP
+LOAD_PP=$PP
+LOAD_DP=$DP
+LOAD_SP=$SP
+RUN_TAG="save"
+
+
+EXP_DIR="z${ZERO_STAGE}_uni_ckpt" 
+CHECKPOINT_PATH=${EXP_DIR}/checkpoints/llama/z${ZERO_STAGE}/$DTYPE/tp${TP}_pp${PP}_dp${DP}_sp${SP}_${SIZE_TAG}
+LOAD_CHECKPOINT_PATH=${EXP_DIR}/checkpoints/llama/z${ZERO_STAGE}/$DTYPE/tp${LOAD_TP}_pp${LOAD_PP}_dp${LOAD_DP}_sp${LOAD_SP}_${SIZE_TAG}
+LOG_DIR="${EXP_DIR}/tensorboard/llama/$DTYPE/tp${TP}_pp${PP}_dp${DP}_sp${SP}_hd${HIDDEN}_nl${LAYERS}_gbsz${GLOBAL_BATCH}_mbsz${MICRO_BATCH}_z${ZERO_STAGE}_LR_${LR}_${MIN_LR}_${DTYPE}_${SIZE_TAG}_${RUN_TAG}"
+mkdir -p $LOG_DIR
+
+# Below configuration required for llama model as per llama paper
+# --no-query-key-layer-scaling \
+# --attention-dropout 0 \
+# --hidden-dropout 0 \
+# --use-rotary-position-embeddings \
+# --untie-embeddings-and-output-weights \
+# --swiglu \
+# --normalization rmsnorm \
+# --disable-bias-linear \
+######################################
+
+cat <<EOT > $DS_CONFIG
+{
+  "train_batch_size" : $GLOBAL_BATCH,
+  "train_micro_batch_size_per_gpu": $MICRO_BATCH,
+  "steps_per_print": 1,
+
+  "zero_optimization": {
+    "stage": $ZERO_STAGE
+  },
+
+  "bf16": {
+    "enabled": true
+  },
+
+  "wall_clock_breakdown" : false
+}
+EOT
+
+ds_args=""
+ds_args=" --deepspeed ${ds_args}"
+ds_args=" --deepspeed_config=$DS_CONFIG ${ds_args}"
+ds_args=" --zero-stage=$ZERO_STAGE ${ds_args}"
+
+if [ "${activation_checkpoint}" = "true" ]; then
+  ds_args="--deepspeed-activation-checkpointing ${ds_args}"
+
+  ## old argument for recomputing the transformer layer
+  # ds_args="--checkpoint-activations ${ds_args}"
+
+  ## new argument for recomputing the transformer layer
+  ds_args="--recompute-granularity full --recompute-method uniform ${ds_args}"
+  ## new argument for recomputing only the attention layer
+  # ds_args="--recompute-granularity selective ${ds_args}"
+fi
+
+if [[ ${ZERO_STAGE} -gt 1 ]]; then
+ds_args="${ds_args} \
+    --no-pipeline-parallel"
+fi
+
+options="\
+       --tensor-model-parallel-size $TP \
+       --pipeline-model-parallel-size $PP \
+       --ds-sequence-parallel-size $SP \
+       --num-layers $NUM_LAYERS \
+       --hidden-size $HIDDEN_SIZE \
+       --ffn-hidden-size $FFN_HIDDEN_SIZE \
+       --num-attention-heads $NUM_HEADS \
+       --micro-batch-size $MICRO_BATCH \
+       --global-batch-size $GLOBAL_BATCH \
+       --seq-length $SEQ \
+       --max-position-embeddings $SEQ \
+       --train-iters $TRAIN_ITERS \
+       --save ${CHECKPOINT_PATH} \
+       --load ${LOAD_CHECKPOINT_PATH} \
+       --data-path $DATASET \
+       --data-impl mmap \
+       --tokenizer-type GPTSentencePieceTokenizer \
+       --tokenizer-model $TOKENIZER_PATH \
+       --split 949,50,1 \
+       --distributed-backend nccl \
+       --lr $LR \
+       --lr-decay-style cosine \
+       --min-lr $MIN_LR \
+       --weight-decay $WEIGHT_DECAY \
+       --clip-grad $GRAD_CLIP \
+       --lr-warmup-iters $LR_WARMUP_STEPS \
+       --optimizer adam \
+       --adam-beta1 0.9 \
+       --adam-beta2 0.95 \
+       --log-interval 1 \
+       --save-interval 100 \
+       --eval-interval 10 \
+       --eval-iters 40 \
+	   --exit-interval ${EXIT_INTERVAL} \
+       --${DTYPE} \
+       --no-query-key-layer-scaling \
+       --attention-dropout 0 \
+       --hidden-dropout 0 \
+       --use-rotary-position-embeddings \
+       --untie-embeddings-and-output-weights \
+       --swiglu \
+       --normalization rmsnorm \
+       --disable-bias-linear \
+       --tensorboard-dir $LOG_DIR \
+       $ds_args
+"
+
+WORKER_STR="--num_nodes 1 --num_gpus $WORLD_SIZE"
+run_cmd="deepspeed --master_port 29700 $WORKER_STR ${DIR}/pretrain_gpt.py $@ ${options}"
+
+echo ${options}
+echo ${run_cmd}
+eval ${run_cmd}
diff --git a/examples_deepspeed/universal_checkpointing/llama/run_tb_analysis_llama.sh b/examples_deepspeed/universal_checkpointing/llama/run_tb_analysis_llama.sh
new file mode 100755
index 00000000000..b807fb97a75
--- /dev/null
+++ b/examples_deepspeed/universal_checkpointing/llama/run_tb_analysis_llama.sh
@@ -0,0 +1,27 @@
+#!/bin/bash
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+OUTPUT_PATH=$1
+
+if [ "$OUTPUT_PATH" == "" ]; then
+    OUTPUT_PATH="z1_uni_ckpt"
+fi
+
+# Training Loss
+python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py \
+    --tb_dir $OUTPUT_PATH \
+    --tb_event_key "lm-loss-training/lm loss" \
+    --plot_name "uc_char_training_loss.png" \
+    --plot_title "Llama 7B Universal Checkpointing - Training Loss" \
+
+# Validation Loss
+python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py \
+    --tb_dir $OUTPUT_PATH \
+    --tb_event_key "lm-loss-validation/lm loss validation" \
+    --csv_name "val_" \
+    --plot_name "uc_char_validation_loss.png" \
+    --plot_title "Llama 7B Universal Checkpointing - Validation Loss" \
+    --plot_y_label "Validation LM Loss" \
diff --git a/examples_deepspeed/universal_checkpointing/llama/run_universal_llama_bf16.sh b/examples_deepspeed/universal_checkpointing/llama/run_universal_llama_bf16.sh
new file mode 100644
index 00000000000..334fa3eaf6e
--- /dev/null
+++ b/examples_deepspeed/universal_checkpointing/llama/run_universal_llama_bf16.sh
@@ -0,0 +1,176 @@
+#!/bin/bash
+set -ex
+
+DIR=`pwd`
+######################################
+# Change the below configurations here
+BASE_PATH=dataset
+DS_CONFIG=${BASE_PATH}/deepspeed.json
+DATASET=${BASE_PATH}/my-gpt2_text_document
+TOKENIZER_PATH=${BASE_PATH}/llama-7b/tokenizer.model # offical llama tokenizer.model
+
+GPUS_PER_NODE=8
+MASTER_ADDR=localhost
+MASTER_PORT=6000
+NNODES=1
+NODE_RANK=0
+
+HIDDEN_SIZE=2048 # e.g. llama-13b: 5120
+FFN_HIDDEN_SIZE=5504 # e.g. llama-13b: 13824
+NUM_LAYERS=24 # e.g. llama-13b: 40
+NUM_HEADS=16 # e.g. llama-13b: 40
+SEQ=2048
+
+LR_WARMUP_STEPS=2000
+WEIGHT_DECAY=0.1
+GRAD_CLIP=1
+
+## Activation checkpointing saves GPU memory, but reduces training speed
+# activation_checkpoint="true"
+activation_checkpoint="false"
+
+ZERO_STAGE=1
+DTYPE="bf16"
+
+# 3D parallelism of training
+TP=2
+PP=2
+DP=1
+SP=1
+WORLD_SIZE=$((TP*PP*DP*SP))
+GLOBAL_BATCH=32
+MICRO_BATCH=$((GLOBAL_BATCH/WORLD_SIZE))
+TRAIN_ITERS=250000
+LR=3e-4
+MIN_LR=3e-5
+
+# Debug
+DEBUG_MODE=1
+if [[ $DEBUG_MODE == 1 ]]; then
+        EXIT_INTERVAL=200
+        SIZE_TAG="toy"
+else
+        EXIT_INTERVAL=$TRAIN_ITERS
+        SIZE_TAG="big"
+fi
+
+# 3D parallelism of checkpoint to load
+LOAD_TP=2
+LOAD_PP=2
+LOAD_DP=2
+LOAD_SP=1
+RUN_TAG="uni_load${LOAD_TP}_${LOAD_PP}_${LOAD_DP}_${LOAD_SP}"
+
+
+EXP_DIR="z${ZERO_STAGE}_uni_ckpt"
+CHECKPOINT_PATH=${EXP_DIR}/checkpoints/llama/z${ZERO_STAGE}/$DTYPE/tp${TP}_pp${PP}_dp${DP}_sp${SP}_${SIZE_TAG}
+LOAD_CHECKPOINT_PATH=${EXP_DIR}/checkpoints/llama/z${ZERO_STAGE}/$DTYPE/tp${LOAD_TP}_pp${LOAD_PP}_dp${LOAD_DP}_sp${LOAD_SP}_${SIZE_TAG}
+LOG_DIR="${EXP_DIR}/tensorboard/llama/$DTYPE/tp${TP}_pp${PP}_dp${DP}_sp${SP}_hd${HIDDEN}_nl${LAYERS}_gbsz${GLOBAL_BATCH}_mbsz${MICRO_BATCH}_z${ZERO_STAGE}_LR_${LR}_${MIN_LR}_${DTYPE}_${SIZE_TAG}_${RUN_TAG}"
+mkdir -p $LOG_DIR
+
+# Below configuration required for llama model as per llama paper
+# --no-query-key-layer-scaling \
+# --attention-dropout 0 \
+# --hidden-dropout 0 \
+# --use-rotary-position-embeddings \
+# --untie-embeddings-and-output-weights \
+# --swiglu \
+# --normalization rmsnorm \
+# --disable-bias-linear \
+######################################
+
+cat <<EOT > $DS_CONFIG
+{
+  "train_batch_size" : $GLOBAL_BATCH,
+  "train_micro_batch_size_per_gpu": $MICRO_BATCH,
+  "steps_per_print": 1,
+
+  "zero_optimization": {
+    "stage": $ZERO_STAGE
+  },
+
+  "bf16": {
+    "enabled": true
+  },
+
+  "wall_clock_breakdown" : false
+}
+EOT
+
+ds_args=""
+ds_args=" --deepspeed ${ds_args}"
+ds_args=" --deepspeed_config=$DS_CONFIG ${ds_args}"
+ds_args=" --zero-stage=$ZERO_STAGE ${ds_args}"
+
+if [ "${activation_checkpoint}" = "true" ]; then
+  ds_args="--deepspeed-activation-checkpointing ${ds_args}"
+
+  ## old argument for recomputing the transformer layer
+  # ds_args="--checkpoint-activations ${ds_args}"
+
+  ## new argument for recomputing the transformer layer
+  ds_args="--recompute-granularity full --recompute-method uniform ${ds_args}"
+  ## new argument for recomputing only the attention layer
+  # ds_args="--recompute-granularity selective ${ds_args}"
+fi
+
+if [[ ${ZERO_STAGE} -gt 1 ]]; then
+ds_args="${ds_args} \
+    --no-pipeline-parallel"
+fi
+
+options="\
+       --tensor-model-parallel-size $TP \
+       --pipeline-model-parallel-size $PP \
+       --ds-sequence-parallel-size $SP \
+       --num-layers $NUM_LAYERS \
+       --hidden-size $HIDDEN_SIZE \
+       --ffn-hidden-size $FFN_HIDDEN_SIZE \
+       --num-attention-heads $NUM_HEADS \
+       --micro-batch-size $MICRO_BATCH \
+       --global-batch-size $GLOBAL_BATCH \
+       --seq-length $SEQ \
+       --max-position-embeddings $SEQ \
+       --train-iters $TRAIN_ITERS \
+       --save ${CHECKPOINT_PATH} \
+       --load ${LOAD_CHECKPOINT_PATH} \
+       --data-path $DATASET \
+       --data-impl mmap \
+       --tokenizer-type GPTSentencePieceTokenizer \
+       --tokenizer-model $TOKENIZER_PATH \
+       --split 949,50,1 \
+       --distributed-backend nccl \
+       --lr $LR \
+       --lr-decay-style cosine \
+       --min-lr $MIN_LR \
+       --weight-decay $WEIGHT_DECAY \
+       --clip-grad $GRAD_CLIP \
+       --lr-warmup-iters $LR_WARMUP_STEPS \
+       --optimizer adam \
+       --adam-beta1 0.9 \
+       --adam-beta2 0.95 \
+       --log-interval 1 \
+       --save-interval 100 \
+       --eval-interval 10 \
+       --eval-iters 40 \
+	   --exit-interval ${EXIT_INTERVAL} \
+       --${DTYPE} \
+       --no-query-key-layer-scaling \
+       --attention-dropout 0 \
+       --hidden-dropout 0 \
+       --use-rotary-position-embeddings \
+       --untie-embeddings-and-output-weights \
+       --swiglu \
+       --normalization rmsnorm \
+       --disable-bias-linear \
+       --tensorboard-dir $LOG_DIR \
+       --universal-checkpoint \
+       $ds_args
+"
+
+WORKER_STR="--num_nodes 1 --num_gpus $WORLD_SIZE"
+run_cmd="deepspeed --master_port 29700 $WORKER_STR ${DIR}/pretrain_gpt.py $@ ${options}"
+
+echo ${options}
+echo ${run_cmd}
+eval ${run_cmd}
diff --git a/examples_deepspeed/universal_checkpointing/run_bf16.sh b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_bf16.sh
similarity index 99%
rename from examples_deepspeed/universal_checkpointing/run_bf16.sh
rename to examples_deepspeed/universal_checkpointing/megatron_gpt/run_bf16.sh
index 09539542226..07cbc30e725 100755
--- a/examples_deepspeed/universal_checkpointing/run_bf16.sh
+++ b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_bf16.sh
@@ -3,7 +3,7 @@
 
 DIR=`pwd`
 DATETIME=`date +'date_%y-%m-%d_time_%H-%M-%S'`
-BASE_DATA_PATH=datasets
+BASE_DATA_PATH=dataset
 DATASET=${BASE_DATA_PATH}/my-gpt2_text_document
 VOCAB_PATH=${BASE_DATA_PATH}/gpt2-vocab.json
 MERGE_PATH=${BASE_DATA_PATH}/gpt2-merges.txt
diff --git a/examples_deepspeed/universal_checkpointing/run_fp16.sh b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_fp16.sh
similarity index 99%
rename from examples_deepspeed/universal_checkpointing/run_fp16.sh
rename to examples_deepspeed/universal_checkpointing/megatron_gpt/run_fp16.sh
index 691fa8a8e6e..2f1b9940794 100755
--- a/examples_deepspeed/universal_checkpointing/run_fp16.sh
+++ b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_fp16.sh
@@ -3,7 +3,7 @@
 
 DIR=`pwd`
 DATETIME=`date +'date_%y-%m-%d_time_%H-%M-%S'`
-BASE_DATA_PATH=datasets
+BASE_DATA_PATH=dataset
 DATASET=${BASE_DATA_PATH}/my-gpt2_text_document
 VOCAB_PATH=${BASE_DATA_PATH}/gpt2-vocab.json
 MERGE_PATH=${BASE_DATA_PATH}/gpt2-merges.txt
diff --git a/examples_deepspeed/universal_checkpointing/run_tb_analysis.sh b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt.sh
similarity index 96%
rename from examples_deepspeed/universal_checkpointing/run_tb_analysis.sh
rename to examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt.sh
index 7aa988a0a03..3a17d667507 100755
--- a/examples_deepspeed/universal_checkpointing/run_tb_analysis.sh
+++ b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt.sh
@@ -16,7 +16,6 @@ python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_scrip
     --tb_event_key "lm-loss-training/lm loss" \
     --plot_name "uc_char_training_loss.png" \
     --plot_title "Megatron-GPT Universal Checkpointing - Training Loss" \
-    --use_sns
 
 # Validation Loss
 python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py \
@@ -26,4 +25,3 @@ python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_scrip
     --plot_name "uc_char_validation_loss.png" \
     --plot_title "Megatron-GPT Universal Checkpointing - Validation Loss" \
     --plot_y_label "Validation LM Loss" \
-    --use_sns
diff --git a/examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt_plot_only.sh b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt_plot_only.sh
new file mode 100755
index 00000000000..0c3ea5399c6
--- /dev/null
+++ b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_tb_analysis_gpt_plot_only.sh
@@ -0,0 +1,31 @@
+#!/bin/bash
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+OUTPUT_PATH=$1
+
+if [ "$OUTPUT_PATH" == "" ]; then
+    OUTPUT_PATH="z1_uni_ckpt"
+fi
+
+# Training Loss
+python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py \
+    --tb_dir $OUTPUT_PATH \
+    --tb_event_key "lm-loss-training/lm loss" \
+    --plot_name "uc_char_training_loss.png" \
+    --plot_title "Megatron-GPT Universal Checkpointing - Training Loss" \
+    --plot_only \
+    --csv_dir "/workspace/uc/megatron/loss_csv" \
+
+# Validation Loss
+python3 examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py \
+    --tb_dir $OUTPUT_PATH \
+    --tb_event_key "lm-loss-validation/lm loss validation" \
+    --csv_name "val_" \
+    --plot_name "uc_char_validation_loss.png" \
+    --plot_title "Megatron-GPT Universal Checkpointing - Validation Loss" \
+    --plot_y_label "Validation LM Loss" \
+    --plot_only \
+    --csv_dir "/workspace/uc/megatron/val_csv" \
diff --git a/examples_deepspeed/universal_checkpointing/run_universal_bf16.sh b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_bf16.sh
similarity index 99%
rename from examples_deepspeed/universal_checkpointing/run_universal_bf16.sh
rename to examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_bf16.sh
index ef0e134cfc9..4134b9df482 100755
--- a/examples_deepspeed/universal_checkpointing/run_universal_bf16.sh
+++ b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_bf16.sh
@@ -3,7 +3,7 @@
 
 DIR=`pwd`
 DATETIME=`date +'date_%y-%m-%d_time_%H-%M-%S'`
-BASE_DATA_PATH=datasets
+BASE_DATA_PATH=dataset
 DATASET=${BASE_DATA_PATH}/my-gpt2_text_document
 VOCAB_PATH=${BASE_DATA_PATH}/gpt2-vocab.json
 MERGE_PATH=${BASE_DATA_PATH}/gpt2-merges.txt
diff --git a/examples_deepspeed/universal_checkpointing/run_universal_fp16.sh b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_fp16.sh
similarity index 99%
rename from examples_deepspeed/universal_checkpointing/run_universal_fp16.sh
rename to examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_fp16.sh
index 1e207e422ba..bb3a538951b 100755
--- a/examples_deepspeed/universal_checkpointing/run_universal_fp16.sh
+++ b/examples_deepspeed/universal_checkpointing/megatron_gpt/run_universal_fp16.sh
@@ -3,7 +3,7 @@
 
 DIR=`pwd`
 DATETIME=`date +'date_%y-%m-%d_time_%H-%M-%S'`
-BASE_DATA_PATH=datasets
+BASE_DATA_PATH=dataset
 DATASET=${BASE_DATA_PATH}/my-gpt2_text_document
 VOCAB_PATH=${BASE_DATA_PATH}/gpt2-vocab.json
 MERGE_PATH=${BASE_DATA_PATH}/gpt2-merges.txt
diff --git a/examples_deepspeed/universal_checkpointing/tb_analysis/arguments.py b/examples_deepspeed/universal_checkpointing/tb_analysis/arguments.py
index 3dacb45d4ee..ca80872ca02 100644
--- a/examples_deepspeed/universal_checkpointing/tb_analysis/arguments.py
+++ b/examples_deepspeed/universal_checkpointing/tb_analysis/arguments.py
@@ -17,3 +17,5 @@
 parser.add_argument("--skip_csv", action='store_true', help="Skip generation of csv files")
 parser.add_argument("--use_sns", action='store_true', help="Use the SNS library to format plot")
 parser.add_argument("--csv_name", required=False, default="", type=str, help="Unique name for CSV files")
+parser.add_argument("--plot_only", action='store_true', help="Plot only using csv files")
+parser.add_argument("--csv_dir", required=False, type=str, help="Directory for csv files")
diff --git a/examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py b/examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py
index 337f6540ab5..fbf9b6dd284 100644
--- a/examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py
+++ b/examples_deepspeed/universal_checkpointing/tb_analysis/tb_analysis_script.py
@@ -6,9 +6,10 @@
 import os
 import re
 import pandas as pd
+import csv
 import matplotlib.pyplot as plt
 from tensorboard.backend.event_processing.event_accumulator import EventAccumulator
-from utils import get_analyzer, find_files
+from utils import get_analyzer, find_files_prefix, find_files_suffix
 from arguments import parser
 
 args = parser.parse_args()
@@ -18,8 +19,8 @@
     sns.set()
 
 def main():
-    target_affix = 'events.out.tfevents'
-    tb_log_paths = find_files(args.tb_dir, target_affix)
+    target_prefix = 'events.out.tfevents'
+    tb_log_paths = find_files_prefix(args.tb_dir, target_prefix)
 
     analyzer = get_analyzer(args.analyzer)
 
@@ -41,6 +42,8 @@ def main():
             df = pd.DataFrame({"step": x, "value": y})
             df.to_csv(f"{args.csv_name}{analyzer.get_csv_filename()}.csv")
 
+    plt.grid(True)
+
     if not args.skip_plot:
         plt.legend()
         plt.title(args.plot_title)
@@ -48,5 +51,35 @@ def main():
         plt.ylabel(args.plot_y_label)
         plt.savefig(args.plot_name)
 
+def plot_csv():
+    target_suffix = 'csv'
+    csv_log_files = find_files_suffix(args.csv_dir, target_suffix)
+
+    analyzer = get_analyzer(args.analyzer)
+
+    for csv_file in csv_log_files:
+        analyzer.set_names(csv_file)
+
+        x, y = [], []
+        with open(csv_file, 'r') as file:
+            reader = csv.reader(file)
+            for row in reader:
+                if row[1] == 'step':
+                    continue
+                x.append(int(row[1]))  # Assuming the first column contains x values
+                y.append(float(row[2]))  # Assuming the second column contains y values
+
+        plt.plot(x, y, label=f'{analyzer.get_label_name()}')
+
+    plt.grid(True)
+    plt.legend()
+    plt.title(args.plot_title)
+    plt.xlabel(args.plot_x_label)
+    plt.ylabel(args.plot_y_label)
+    plt.savefig(args.plot_name)
+
 if __name__ == "__main__":
-    main()
+    if args.plot_only:
+        plot_csv()
+    else:
+        main()
diff --git a/examples_deepspeed/universal_checkpointing/tb_analysis/uc_analysis.py b/examples_deepspeed/universal_checkpointing/tb_analysis/uc_analysis.py
index f5809c3dc1d..20d46ff6a89 100644
--- a/examples_deepspeed/universal_checkpointing/tb_analysis/uc_analysis.py
+++ b/examples_deepspeed/universal_checkpointing/tb_analysis/uc_analysis.py
@@ -19,7 +19,7 @@ def set_names(self, path_name):
         tp, pp, dp, sp = match.groups()
 
         self._label_name = f"Training Run: TP: {tp}, PP: {pp}, DP: {dp}"
-        self._csv_name = f"uc_out_tp_{tp}_pp_{pp}_dp_{dp}_sp_{sp}"
+        self._csv_name = f"uc_out_tp{tp}_pp{pp}_dp{dp}_sp{sp}"
 
     def get_label_name(self):
         return self._label_name
diff --git a/examples_deepspeed/universal_checkpointing/tb_analysis/utils.py b/examples_deepspeed/universal_checkpointing/tb_analysis/utils.py
index 4bbbb3f2f04..db6624bbc45 100644
--- a/examples_deepspeed/universal_checkpointing/tb_analysis/utils.py
+++ b/examples_deepspeed/universal_checkpointing/tb_analysis/utils.py
@@ -7,13 +7,13 @@
 from uc_analysis import UniversalCheckpointingAnalysis
 
 
-def find_files(directory, file_affix):
+def find_files_prefix(directory, file_prefix):
     """
-    Searches for files with a specific affix in a directory using os.walk().
+    Searches for files with a specific prefix in a directory using os.walk().
 
     Args:
         directory (str): The path to the directory to search.
-        file_affix (str): The desired file affix.
+        file_prefix (str): The desired file prefix.
 
     Returns:
         list: A list of paths to matching files.
@@ -21,10 +21,28 @@ def find_files(directory, file_affix):
     matching_paths = []
     for root, _, files in os.walk(directory):
         for filename in files:
-            if root not in matching_paths and filename.lower().startswith(file_affix.lower()):
+            if root not in matching_paths and filename.lower().startswith(file_prefix.lower()):
                 matching_paths.append(os.path.join(root))
     return matching_paths
 
+def find_files_suffix(directory, file_suffix):
+    """
+    Searches for files with a specific suffix in a directory using os.walk().
+
+    Args:
+        directory (str): The path to the directory to search.
+        file_suffix (str): The desired file suffix.
+
+    Returns:
+        list: A list of paths to matching files.
+    """
+    matching_paths = []
+    for root, _, files in os.walk(directory):
+        for filename in files:
+            if root not in matching_paths and filename.lower().endswith(file_suffix.lower()):
+                matching_paths.append(os.path.join(filename))
+    return matching_paths
+
 def get_analyzer(analyzer_name):
     if analyzer_name == 'universal_checkpointing':
         return UniversalCheckpointingAnalysis()
diff --git a/examples_deepspeed/zero_bubble_pp/README.md b/examples_deepspeed/zero_bubble_pp/README.md
new file mode 100644
index 00000000000..2290860783e
--- /dev/null
+++ b/examples_deepspeed/zero_bubble_pp/README.md
@@ -0,0 +1,51 @@
+# Zero Bubble Pipeline Parallelism Tutorials
+
+This folder contains examples and tutorials to enable Zero Bubble Pipeline Parallelism ([Paper Link](https://arxiv.org/abs/2401.10241)). The key idea is to breaking a backward pass into a $B$ pass and $W$ pass. $B$ on one stage will only depend on the $B$ on its next stage, compared to depending on both $B$ and $W$ of in 1F1B.
+
+![BW Split](./bw_split.png)
+
+Currently supported zero bubble schedules:
+* ZB-H1
+
+## ZB-H1
+
+![alt text](zbh1.png)
+
+As shown in the above image, the ZB-H1 schedule cuts pipeline buble of 1F1B to 1/3.
+
+### ZB-H1 and Its Variation
+There're two versions of ZB-H1 implemented in Megatron-Deepspeed: an official version (the 2nd schedule in the  above image) which does a uniform B-W split, and another variation (the 3rd schedule in image) that does B-W split only when necessary. We provide the variation version as the default implementation. 
+
+In practice the variation version is more friendly to a synchonized communication implementation and combined usage with tensor parallelism. However it changes the ordering of applying weight update of different microbatches (E.g. for Device 4 in the image above, the ordering of applying weight update is 4->5->6->7->1->2->3->8), hence might result in slightly different loss curve.
+
+
+### How to use
+
+Simply add the following flag to the options to enable ZB-H1:
+
+```
+--enable-zbh1-pipeline
+```
+The default implementation is the variation version of ZB-H1 mentioned in [Previous Section](#zb-h1).
+
+If you want the bit-to-bit exact semantics when compared to 1F1B, you can use the following flag. It might be a bit slower than the default implementation.
+
+```
+--enable-zbh1-exact-semantics
+```
+
+### ZB-H1 Toy Example
+
+Here is a toy example for using **ZB-H1** inside DeepSpeed repo. 
+
+Firstly you'll need to prepare some sample training data and change the `data_path` in `zbh1_pretrain_gpt_1.3b.sh`. Then under this folder, Run 
+
+```
+bash zbh1_pretrain_gpt_1.3b.sh
+```
+
+## Benchmarks
+
+The implementation has been checked and verified on various setups such as ZeRO Stage 1, activation recomputation, flash attention, tensor parallel, data parallel and bf16. By approximate measure, ~10% acceleration was observed when microbatch count is twice the number of pipeline stages:
+
+![alt text](benchmark.png)
\ No newline at end of file
diff --git a/examples_deepspeed/zero_bubble_pp/benchmark.png b/examples_deepspeed/zero_bubble_pp/benchmark.png
new file mode 100644
index 00000000000..be46817d75d
Binary files /dev/null and b/examples_deepspeed/zero_bubble_pp/benchmark.png differ
diff --git a/examples_deepspeed/zero_bubble_pp/bw_split.png b/examples_deepspeed/zero_bubble_pp/bw_split.png
new file mode 100644
index 00000000000..1ced957b443
Binary files /dev/null and b/examples_deepspeed/zero_bubble_pp/bw_split.png differ
diff --git a/examples_deepspeed/zero_bubble_pp/zbh1.png b/examples_deepspeed/zero_bubble_pp/zbh1.png
new file mode 100644
index 00000000000..364ef368a37
Binary files /dev/null and b/examples_deepspeed/zero_bubble_pp/zbh1.png differ
diff --git a/examples_deepspeed/zero_bubble_pp/zbh1_pretrain_gpt_1.3b.sh b/examples_deepspeed/zero_bubble_pp/zbh1_pretrain_gpt_1.3b.sh
new file mode 100644
index 00000000000..cf5705d9736
--- /dev/null
+++ b/examples_deepspeed/zero_bubble_pp/zbh1_pretrain_gpt_1.3b.sh
@@ -0,0 +1,367 @@
+#!/bin/bash
+dir=`pwd`
+###############################################################################
+### Main configs
+## GPT-3 models use 2K sequence length/context window
+seq_len=2048
+
+
+## The "GPT-3 XXX" below are configs from GPT-3 paper
+## https://arxiv.org/abs/2005.14165, choose based on
+## your desired model size or build your own configs
+
+
+## init_std is standard deviation for weight initialization. Usually larger
+## model needs lower std. We used a heuristic equation of sqrt(1/3/hidden_size)
+## from the MT-NLG 530B work (https://arxiv.org/pdf/2201.11990.pdf)
+
+
+## We changed min_lr to a lower number (1.0e-6), which we found is able to
+## provide better zero-shot eval results.
+
+
+## GPT-3 Small 125M
+# model_size=0.125
+# num_layers=12
+# hidden_size=768
+# num_attn_heads=12
+# global_batch_size=256
+# lr=6.0e-4
+# min_lr=1.0e-6
+# init_std=0.02
+
+
+## GPT-3 Medium 350M
+# model_size=0.35
+# num_layers=24
+# hidden_size=1024
+# num_attn_heads=16
+# global_batch_size=256
+# lr=3.0e-4
+# min_lr=1.0e-6
+# init_std=0.018
+
+
+## GPT-3 Large 760M
+# model_size=0.76
+# num_layers=24
+# hidden_size=1536
+# num_attn_heads=16
+# global_batch_size=256
+# lr=2.5e-4
+# min_lr=1.0e-6
+# init_std=0.015
+
+
+## GPT-3 XL 1.3B
+model_size=1.3
+num_layers=24
+hidden_size=2048
+num_attn_heads=16
+global_batch_size=16
+lr=2.0e-4
+min_lr=1.0e-6
+init_std=0.013
+
+
+## GPT-3 2.7B
+# model_size=2.7
+# num_layers=32
+# hidden_size=2560
+# num_attn_heads=32
+# global_batch_size=512
+# lr=1.6e-4
+# min_lr=1.0e-6
+# init_std=0.011
+
+
+## GPT-3 6.7B
+# model_size=6.7
+# num_layers=32
+# hidden_size=4096
+# num_attn_heads=32
+# global_batch_size=1024
+# lr=1.2e-4
+# min_lr=1.0e-6
+# init_std=0.009
+
+
+## GPT-3 13B
+# model_size=13
+# num_layers=40
+# hidden_size=5120
+# num_attn_heads=40
+# global_batch_size=1024
+# lr=1.0e-4
+# min_lr=1.0e-6
+# init_std=0.008
+
+
+## GPT-3 175B
+# model_size=175
+# num_layers=96
+# hidden_size=12288
+# num_attn_heads=96
+# global_batch_size=1536
+# lr=0.6e-4
+# min_lr=1.0e-6
+# init_std=0.005
+###############################################################################
+### Training duration configs
+## The main termination condition, original GPT-3 paper trains for 300B tokens.
+train_tokens_in_billion=300
+train_tokens=$((${train_tokens_in_billion} * 1000000000))
+
+
+## train_samples is another termination condition and also affect the number of
+## data samples to be indexed. Since we want to reach the train_tokens
+## above, and data efficiency techniques may change num tokens in some samples,
+## so we just set this config large enough to make sure we have enough
+## processed data and don't terminate by train_samples.
+train_samples=$(( 300 * 1000000000 * 2 / ${seq_len} ))
+
+
+## Another wall-clock time termination condition in minutes. Set it large
+## enough to avoid undesired early termination.
+exit_duration=30000000
+###############################################################################
+### lr configs
+## lr warmup and decay duration.
+## Original GPT-3 paper uses 375M warmup tokens and 260B cosine decay tokens.
+## Here we increase the warmup tokens to 3B since when batch size warmup is not
+## used, there are more tokens per step. Thus we need to increase warmup tokens
+## to make sure there are enough warmup steps, which is important for training
+## stability.
+lr_warmup_tokens_in_million=3000
+lr_warmup_tokens=$((${lr_warmup_tokens_in_million} * 1000000))
+## Here we changed the LR decay tokens to align with total train tokens, since
+## related works (e.g., https://arxiv.org/abs/2203.15556) find that setting the
+## learning rate schedule to match the number of training tokens results in the
+## best final model quality
+lr_decay_tokens_in_billion=${train_tokens_in_billion}
+lr_decay_tokens=$((${lr_decay_tokens_in_billion} * 1000000000))
+lr_decay_style="cosine"
+###############################################################################
+### Parallelism configs
+## Model parallelism, 1 is no MP
+mp_size=1
+
+
+## Pipeline parallelism. To disable PP, set pp_size to 1 and no_pp to true.
+## Note that currently both curriculum learning and random-LTD are NOT
+## compatible with pipeline parallelism.
+pp_size=8
+no_pp="false"
+
+
+## ZeRO-based data parallelism, stage=0 will disable ZeRO
+zero_stage=0
+
+
+## Total number of GPUs. ds_ssh is from DeepSpeed library.
+num_gpus=$(($(ds_ssh nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)-2))
+num_gpus_pernode=$(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)
+num_node=$(( ${num_gpus} / ${num_gpus_pernode} ))
+
+
+## Data parallel size.
+dp_size=$(( ${num_gpus} / ${pp_size} / ${mp_size} ))
+
+
+## Micro batch size per GPU
+## Make sure that batch_size <= global_batch_size*pp_size*mp_size/num_gpus
+## Reduce it manually if GPU OOM
+# batch_size=$(( ${global_batch_size} / ${dp_size} ))
+batch_size=1
+###############################################################################
+### Misc configs
+log_interval=1
+eval_iters=10100
+eval_interval=10100
+# num_save controls how frequent to save checkpoint. num_save=20 means that a
+# checkpoint will be saved every 5% of training. For longer training you would
+# want larger num_save to save more frequently, and vice versa.
+num_save=1
+# estimated_train_iter=$((${train_tokens} / ${seq_len} / ${global_batch_size}))
+# save_interval=$((${estimated_train_iter} / ${num_save}))
+save_interval=10100
+
+
+## Activation checkpointing saves GPU memory, but reduces training speed
+activation_checkpoint="false"
+# activation_checkpoint="false"
+
+
+## Whether or not log optimizer states (norms, max abs values) to tensorboard.
+## This is not required for training and might save GPU memory when turned off.
+log_optimizer_state="true"
+###############################################################################
+### Output and data configs
+current_time=$(date "+%Y.%m.%d_%H.%M.%S")
+host="${HOSTNAME}"
+seed=1234
+num_workers=0
+
+
+## Public the Pile dataset, can be downloaded at
+## https://mystic.the-eye.eu/public/AI/pile_neox/ or
+## https://the-eye.eu/public/AI/pile_neox/ Change data_home to where you
+## store the pile_text_document.bin and pile_text_document.idx.
+data_home="/code"
+data_path="${data_home}/gpt_data/my-gpt2_text_document"
+
+
+vocab_path="gpt2-vocab.json"
+if [ ! -f "$vocab_path" ]; then
+   wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
+fi
+merge_path="gpt2-merges.txt"
+if [ ! -f "$merge_path" ]; then
+   wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
+fi
+
+
+prescale_grad="true"
+jobname="gpt_${model_size}B_tok${train_tokens_in_billion}B"
+jobname="${jobname}_lr${lr}_min${min_lr}_w${lr_warmup_tokens_in_million}M_d${lr_decay_tokens_in_billion}B_${lr_decay_style}"
+jobname="${jobname}_gbs${global_batch_size}_mbs${batch_size}_g${num_gpus}"
+if [[ $zero_stage -gt 0 ]]; then
+   jobname="${jobname}_z${zero_stage}"
+   prescale_grad="false"
+fi
+if [[ $mp_size -gt 1 ]]; then
+   jobname="${jobname}_mp${mp_size}"
+fi
+if [ "${no_pp}" = "false" ]; then
+   jobname="${jobname}_pp${pp_size}"
+fi
+jobname="${jobname}_seed${seed}_rebase"
+
+
+username=$(whoami)
+output_home="/blob/users/${username}/project/data_efficient_gpt"
+log_path="${output_home}/log/"
+checkpoint_path="${output_home}/checkpoint/${jobname}"
+## Microsoft internal constraint: because tensorboard is logged by last rank,
+## it's better to put the path in NFS instead of Blob.
+tensorboard_dir="/vc_data/users/${username}/project/data_efficient_gpt/tensorboard/"
+tensorboard_path="${tensorboard_dir}${jobname}_${host}_${current_time}"
+mkdir -p ${log_path}
+mkdir -p ${checkpoint_path}
+mkdir -p ${tensorboard_path}
+###############################################################################
+data_options=" \
+   --vocab-file ${vocab_path} \
+   --merge-file ${merge_path} \
+   --data-path ${data_path} \
+   --data-impl mmap"
+
+
+## If CL is used, make sure to set "--split" the same as what you used during
+## offline data analysis&indexing.
+megatron_options=" \
+   --override-opt_param-scheduler \
+   --adam-beta1 0.9 \
+   --adam-beta2 0.95 \
+   --tensor-model-parallel-size ${mp_size} \
+   --init-method-std ${init_std} \
+   --lr-decay-tokens ${lr_decay_tokens} \
+   --lr-warmup-tokens ${lr_warmup_tokens} \
+   --micro-batch-size ${batch_size} \
+   --exit-duration-in-mins ${exit_duration} \
+   --global-batch-size ${global_batch_size} \
+   --num-layers ${num_layers} \
+   --hidden-size ${hidden_size} \
+   --num-attention-heads ${num_attn_heads} \
+   --seq-length ${seq_len} \
+   --max-position-embeddings ${seq_len} \
+   --train-tokens ${train_tokens} \
+   --train-samples ${train_samples} \
+   --lr ${lr} \
+   --min-lr ${min_lr} \
+   --lr-decay-style ${lr_decay_style} \
+   --split 949,50,1 \
+   --log-interval ${log_interval} \
+   --eval-interval ${eval_interval} \
+   --eval-iters ${eval_iters} \
+   --save-interval ${save_interval} \
+   --weight-decay 0.1 \
+   --clip-grad 1.0 \
+   --hysteresis 2 \
+   --num-workers ${num_workers} \
+   --fp16 \
+   --seed ${seed} \
+   --load ${checkpoint_path} \
+   --save ${checkpoint_path} \
+   --no-async-tensor-model-parallel-allreduce \
+   --tensorboard-queue-size 1 \
+   --log-timers-to-tensorboard \
+   --log-batch-size-to-tensorboard \
+   --log-validation-ppl-to-tensorboard \
+   --tensorboard-dir ${tensorboard_path}"
+
+
+if [ "${activation_checkpoint}" = "true" ]; then
+megatron_options="${megatron_options} \
+   --checkpoint-activations"
+fi
+
+
+if [ "${log_optimizer_state}" = "true" ]; then
+megatron_options="${megatron_options} \
+   --log-optimizer-states-to-tensorboard"
+fi
+
+
+config_json="ds_config_gbs${global_batch_size}_mbs${batch_size}_log${log_interval}_zero${zero_stage}.json"
+template_json="../rebase/ds_config_gpt_TEMPLATE.json"
+sed "s/GBSIZE/${global_batch_size}/" ${template_json} \
+   | sed "s/MBSIZE/${batch_size}/" \
+   | sed "s/LOG_INTERVAL/${log_interval}/" \
+   | sed "s/ZERO_STAGE/${zero_stage}/" \
+   | sed "s/PRESCALE_GRAD/${prescale_grad}/" \
+     > ${config_json}
+
+
+deepspeed_options=" \
+   --deepspeed \
+   --deepspeed_config ${config_json} \
+   --zero-stage ${zero_stage} \
+   --enable-zbh1-pipeline \
+   --enable-zbh1-exact-semantics \
+   --pipeline-model-parallel-size ${pp_size}"
+
+
+if [[ "${no_pp}" = "true" ]]; then
+deepspeed_options="${deepspeed_options} \
+   --no-pipeline-parallel"
+fi
+
+
+if [ "${activation_checkpoint}" = "true" ]; then
+deepspeed_options="${deepspeed_options} \
+   --deepspeed-activation-checkpointing"
+fi
+
+
+## When saving checkpoint to a storage with cache, their could be consistency
+## issue of the pointer to latest checkpoint. Here we find the correct pointer
+## and broadcast it to all nodes.
+iteration_file="$checkpoint_path/latest_checkpointed_iteration.txt"
+iteration_file_2="$checkpoint_path/latest"
+iteration=0
+for (( node = 0; node <= num_node-1; node++ ))
+do
+   if $(ssh -q worker-"$node" "test -f \"$iteration_file\""); then
+       local_iteration=$(ssh -q worker-"$node" cat $iteration_file)
+       iteration=$(( ${local_iteration} > ${iteration} ? ${local_iteration} :  ${iteration} ))
+   fi
+done
+if [[ $iteration -gt 0 ]]; then
+   iteration_2="global_step${iteration}"
+   ds_ssh "echo $iteration > $iteration_file"
+   ds_ssh "echo $iteration_2 > $iteration_file_2"
+fi
+
+
+deepspeed ${dir}/../../pretrain_gpt.py ${megatron_options} ${data_options} ${deepspeed_options} 2>&1 | tee log_zbh1_exact.txt
\ No newline at end of file
diff --git a/finetune_llama.py b/finetune_llama.py
index fa302a4f839..16f77b17d8e 100644
--- a/finetune_llama.py
+++ b/finetune_llama.py
@@ -2,11 +2,11 @@
 
 """Finetune LLAMA, Modified from pretrain_gpt.py"""
 
+import ezpz
 import torch
 import math
 from functools import partial
 from megatron import get_args
-from megatron import print_rank_0
 from megatron import get_timers
 from megatron import get_tokenizer
 from megatron.core import mpu, tensor_parallel
@@ -29,14 +29,38 @@
 import torch.nn.functional as F
 from transformers import AutoTokenizer
 
+try:
+    RANK = ezpz.setup_torch('deepspeed')
+except Exception:
+    RANK = 0
+
+try:
+    import wandb
+except (ImportError, ModuleNotFoundError):
+    wandb = None
+
+logger = ezpz.get_logger(__name__)
+
+# ---- [SETUP WANDB FROM RANK 0] --------------
+WANDB_MODE = os.environ.get("WANDB_MODE", None)
+DISABLE_WANDB = WANDB_MODE is not None and str(WANDB_MODE).lower() == "disabled"
+if RANK == 0 and not DISABLE_WANDB:
+    project_name = os.environ.get(
+        "WB_PROJECT",  # look for WB_PROJECT in env
+        os.environ.get("WANDB_PROJECT", "AuroraGPT"),  # look for WANDB_PROJECT in env
+    )
+    logger.info(f"Setting up W&B from: {RANK} with {project_name}")
+    _ = ezpz.setup_wandb(project_name=project_name)
+
 
 def model_provider(pre_process=True, post_process=True):
     """Build the model."""
 
-    print_rank_0('building GPT model ...')
-    see_memory_usage(f"Before Building Model", force=True)
+    logger.info('building GPT model ...')
+    see_memory_usage("Before Building Model", force=True)
 
     args = get_args()
+    assert args is not None
     config = core_transformer_config_from_args(args)
     with deepspeed.zero.Init(sequence_data_parallel_group=mpu.get_sequence_data_parallel_group(),
                              remote_device=None if args.remote_device == 'none' else args.remote_device,
@@ -82,7 +106,29 @@ def model_provider(pre_process=True, post_process=True):
                 pre_process=pre_process,
                 post_process=post_process
             )
-    see_memory_usage(f"After Building Model", force=True)
+    see_memory_usage("After Building Model", force=True)
+    if wandb is not None and getattr(wandb, "run", None) is not None:
+        assert wandb.run is not None
+        tbdir = args.tensorboard_dir
+        # tbdir = args.getattr('tensorboard_dir', None)
+        if tbdir is not None:
+            try:
+                logger.info(f"Patching tensorboard from {tbdir}")
+                wandb.tensorboard.patch(root_logdir=tbdir)  # type:ignore
+            except ValueError as exc:
+                logger.exception(exc)
+                logger.warning("Continuing without patching tensorboard!")
+        num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+        wandb.run.config.update({"num_params": num_params})
+        if "args" not in wandb.run.config:
+            logger.info(
+                f"Updating WandB run.config: [{wandb.run.name}]({wandb.run.get_url()})"
+            )
+            try:
+                wandb.run.config.update({"args": dict(sorted(vars(args).items()))})
+            except Exception:
+                logger.error('Unable to `wandb.run.config.update({"args": vars(args)})`')
+
     return model
 
 
@@ -220,7 +266,7 @@ def loss_func(loss_mask, moe_loss, mos_loss, output_tensor):
             return loss, {'total loss': loss, 'lm loss': averaged_loss[0], 'moe loss': moe_loss, 'mos loss': mos_loss}
         elif args.kd:
             return loss, {'total loss': loss, 'lm loss': averaged_loss[0], 'moe loss': moe_loss, 'kd loss': mos_loss}
-        print_rank_0('>>> total loss: {}, lm loss {}, kd loss {}'.format(loss, averaged_loss[0], mos_loss))
+        logger.info('>>> total loss: {}, lm loss {}, kd loss {}'.format(loss, averaged_loss[0], mos_loss))
     else:
         if max(args.num_experts) <= 1:
             return loss, {'lm loss': averaged_loss[0]}
@@ -305,7 +351,7 @@ def prompt_train_valid_test_datasets_provider(train_val_test_num_samples):
     """Build train, valid, and test datasets."""
     args = get_args()
 
-    print_rank_0('> building finetune prompt datasets '
+    logger.info('> building finetune prompt datasets '
                  'for llama ...')
 
     tokenizer = get_tokenizer()
diff --git a/generate_config.sh b/generate_config.sh
deleted file mode 100644
index 6bea420a2a1..00000000000
--- a/generate_config.sh
+++ /dev/null
@@ -1,144 +0,0 @@
-#!/bin/bash --login
-
-for v in "$GLOBAL_BATCH" "$MICRO_BATCH" "$GRAD_ACC_STEPS" "$ZERO_STAGE" \
-         "$PP" "$DTYPE"
-do
-  if [ -z $v ]; then
-    echo "Please export required envs before execute $0"
-    exit 1
-  fi
-done
-
-if [ $# -ne 1 ]; then
-  echo "Usage: $0 config_file"
-  exit 1
-fi
-
-extra=""
-common="\
-    \"train_batch_size\": $GLOBAL_BATCH,
-    \"train_micro_batch_size_per_gpu\": $MICRO_BATCH,
-    \"steps_per_print\": 1,
-    \"gradient_accumulation_steps\": $GRAD_ACC_STEPS,
-    \"optimizer\": {
-      \"type\": \"AdamW\",
-      \"params\": {
-        \"lr\": ${LR},
-        \"beta1\": 0.9,
-        \"beta2\": 0.95,
-        \"eps\": 1e-5,
-        \"weight_decay\": 1e-1
-      }
-    },
-    \"scheduler\": {
-      \"type\": \"WarmupLR\",
-      \"params\": {
-          \"warmup_min_lr\": 0.00003,
-          \"warmup_max_lr\": 0.0003,
-          \"warmup_num_steps\": 5000
-      }
-    },
-    \"zero_allow_untested_optimizer\": true,
-    \"gradient_clipping\": 1.0,
-    \"activation_checkpointing\": {
-      \"partition_activations\": true,
-      \"contiguous_memory_optimization\": false
-    },
-    \"wall_clock_breakdown\": false,"
-
-flops_profiler="\
-    \"flops_profiler\": {
-      \"enabled\": false,
-      \"profile_step\": 45,
-      \"module_depth\": -1,
-      \"top_modules\": 1,
-      \"detailed\": true,
-      \"output_file\": null
-    }"
-
-if [[ $DTYPE == "bf16" ]]; then
-dtype="\
-    \"communication_data_type\": \"bfp16\",
-    \"fp16\": {
-      \"enabled\": false,
-      \"loss_scale\": 0,
-      \"loss_scale_window\": 1000,
-      \"hysteresis\": 2,
-      \"min_loss_scale\": 1
-    },
-    \"bfloat16\": {
-      \"enabled\": true,
-      \"loss_scale\": 1.0
-    },"
-else
-dtype="\
-    \"communication_data_type\": \"fp16\",
-    \"fp16\": {
-      \"enabled\": true,
-      \"loss_scale\": 0,
-      \"loss_scale_window\": 1000,
-      \"hysteresis\": 2,
-      \"min_loss_scale\": 1
-    },
-    \"bfloat16\": {
-      \"enabled\": false,
-      \"loss_scale\": 1.0
-    },"
-fi
-
-if [ $ZERO_STAGE == 3 ]; then
-zero="\
-    \"zero_optimization\": {
-      \"stage\": 3,
-      \"reduce_scatter\": false,
-      \"stage3_max_live_parameters\": 3e9,
-      \"stage3_max_reuse_distance\": 3e9,
-      \"stage3_param_persistence_threshold\": 1e5,
-      \"stage3_prefetch_bucket_size\": 5e7,
-      \"contiguous_gradients\": true,
-      \"overlap_comm\": true,
-      \"reduce_bucket_size\": 90000000,
-      \"sub_group_size\": 1e9,
-      \"offload_optimizer\": {
-        \"device\": \"none\",
-        \"buffer_count\": 4,
-        \"pipeline_read\": false,
-        \"pipeline_write\": false,
-        \"pin_memory\": true
-      }
-    },"
-elif [ $ZERO_STAGE == 2 ] || [ $ZERO_STAGE == 1 ]; then
-zero="\
-    \"zero_optimization\": {
-      \"stage\": $ZERO_STAGE
-    },"
-  if [ $ZERO_STAGE == 1 ]; then
-    if [ $PP > 1 ]; then
-    extra="\
-        \"data_types\": {
-          \"grad_accum_dtype\": \"fp32\"
-        },
-        \"comms_logger\": {
-          \"enabled\": true,
-          \"verbose\": false,
-          \"prof_all\": true,
-          \"debug\": false
-        },"
-    else
-      echo 'please add the config for zero_stage 1 without pipeline-parallelism'
-    fi
-  fi
-else
-  echo 'Please add the correct config set!!!'
-fi
-
-# flops_profiler must at the end because no ',' is allowed at the end
-cat <<EOT > $1
-{
-$common
-$zero
-$dtype
-$extra
-$flops_profiler
-}
-EOT
diff --git a/generate_config_cpu_optimizer.sh b/generate_config_cpu_optimizer.sh
deleted file mode 100644
index 99dec979581..00000000000
--- a/generate_config_cpu_optimizer.sh
+++ /dev/null
@@ -1,151 +0,0 @@
-#!/bin/bash --login
-
-for v in "$GLOBAL_BATCH" "$MICRO_BATCH" "$GRAD_ACC_STEPS" "$ZERO_STAGE" \
-         "$PP" "$DTYPE"
-do
-  if [ -z $v ]; then
-    echo "Please export required envs before execute $0"
-    exit 1
-  fi
-done
-
-if [ $# -ne 1 ]; then
-  echo "Usage: $0 config_file"
-  exit 1
-fi
-
-extra=""
-common="\
-    \"train_batch_size\": $GLOBAL_BATCH,
-    \"train_micro_batch_size_per_gpu\": $MICRO_BATCH,
-    \"steps_per_print\": 1,
-    \"gradient_accumulation_steps\": $GRAD_ACC_STEPS,
-    \"optimizer\": {
-      \"type\": \"AdamW\",
-      \"params\": {
-        \"lr\": ${LR},
-        \"beta1\": 0.9,
-        \"beta2\": 0.95,
-        \"eps\": 1e-5,
-        \"weight_decay\": 1e-1
-      }
-    },
-    \"scheduler\": {
-      \"type\": \"WarmupLR\",
-      \"params\": {
-          \"warmup_min_lr\": 0.00003,
-          \"warmup_max_lr\": 0.0003,
-          \"warmup_num_steps\": 5000
-      }
-    },
-    \"zero_allow_untested_optimizer\": true,
-    \"gradient_clipping\": 1.0,
-    \"activation_checkpointing\": {
-      \"partition_activations\": true,
-      \"contiguous_memory_optimization\": false
-    },
-    \"wall_clock_breakdown\": false,"
-
-flops_profiler="\
-    \"flops_profiler\": {
-      \"enabled\": false,
-      \"profile_step\": 45,
-      \"module_depth\": -1,
-      \"top_modules\": 1,
-      \"detailed\": true,
-      \"output_file\": null
-    }"
-
-if [[ $DTYPE == "bf16" ]]; then
-dtype="\
-    \"communication_data_type\": \"bfp16\",
-    \"fp16\": {
-      \"enabled\": false,
-      \"loss_scale\": 0,
-      \"loss_scale_window\": 1000,
-      \"hysteresis\": 2,
-      \"min_loss_scale\": 1
-    },
-    \"bfloat16\": {
-      \"enabled\": true,
-      \"loss_scale\": 1.0
-    },"
-else
-dtype="\
-    \"communication_data_type\": \"fp16\",
-    \"fp16\": {
-      \"enabled\": true,
-      \"loss_scale\": 0,
-      \"loss_scale_window\": 1000,
-      \"hysteresis\": 2,
-      \"min_loss_scale\": 1
-    },
-    \"bfloat16\": {
-      \"enabled\": false,
-      \"loss_scale\": 1.0
-    },"
-fi
-
-if [ $ZERO_STAGE == 3 ]; then
-zero="\
-    \"zero_optimization\": {
-      \"stage\": 3,
-      \"reduce_scatter\": false,
-      \"stage3_max_live_parameters\": 3e9,
-      \"stage3_max_reuse_distance\": 3e9,
-      \"stage3_param_persistence_threshold\": 1e5,
-      \"stage3_prefetch_bucket_size\": 5e7,
-      \"contiguous_gradients\": true,
-      \"overlap_comm\": true,
-      \"reduce_bucket_size\": 90000000,
-      \"sub_group_size\": 1e9,
-      \"offload_optimizer\": {
-        \"device\": \"none\",
-        \"buffer_count\": 4,
-        \"pipeline_read\": false,
-        \"pipeline_write\": false,
-        \"pin_memory\": true
-      }
-    },"
-elif [ $ZERO_STAGE == 2 ] || [ $ZERO_STAGE == 1 ]; then
-zero="\
-    \"zero_optimization\": {
-      \"stage\": $ZERO_STAGE,
-      \"offload_optimizer\": {
-        \"device\": \"cpu\",
-        \"buffer_count\": 4,
-        \"pipeline_read\": false,
-        \"pipeline_write\": false,
-        \"pin_memory\": true
-      }
-    },"
-  if [ $ZERO_STAGE == 1 ]; then
-    if [ $PP > 1 ]; then
-    extra="\
-        \"data_types\": {
-          \"grad_accum_dtype\": \"fp32\"
-        },
-        \"comms_logger\": {
-          \"enabled\": true,
-          \"verbose\": false,
-          \"prof_all\": true,
-          \"debug\": false
-        },"
-    else
-      echo 'please add the config for zero_stage 1 without pipeline-parallelism'
-    fi
-  fi
-else
-  echo 'Please add the correct config set!!!'
-fi
-
-# flops_profiler must at the end because no ',' is allowed at the end
-cat <<EOT > $1
-{
-$common
-$zero
-$dtype
-$extra
-$flops_profiler
-}
-EOT
diff --git a/mds_to_hf.py b/mds_to_hf.py
new file mode 100644
index 00000000000..3c0b12668a7
--- /dev/null
+++ b/mds_to_hf.py
@@ -0,0 +1,106 @@
+# Usage : python mds_to_hf.py --mds_checkpoint <path/to/checkpoint/dir/mp_rank_*.pt> --output_dir <path/to/dir/to/store/hf/checkpoints> --cache-dir /flare/Aurora_deployment/vsastry
+# Tips : Do not run on login node. 
+# This script currently only takes care of tp=1. Takes a AuroraGPT Llama model trained with Megatron-DeepSpeed and converts to LLamaCausalForLM architecture from HuggingFace. 
+
+import argparse
+import torch
+import os
+from transformers import LlamaConfig, LlamaForCausalLM, LlamaTokenizer
+
+def repeat_kv_wt(x,np):
+    return torch.repeat_interleave(x, dim=0, repeats=np)
+
+def Update_llama_config(Llama_config, mds_args):
+    if mds_args['swiglu']:
+        Llama_config.hidden_act = "silu"
+    Llama_config.hidden_size = mds_args['hidden_size']
+    Llama_config.intermediate_size = mds_args['ffn_hidden_size']
+    Llama_config.max_position_embeddings = mds_args['max_position_embeddings']
+    Llama_config.num_attention_heads = mds_args['num_attention_heads']
+    Llama_config.num_hidden_layers = mds_args['num_layers']
+    Llama_config.num_key_value_heads = mds_args['num_key_value_heads']
+    Llama_config.rms_norm_eps = mds_args['layernorm_epsilon']
+    Llama_config.rope_theta = mds_args['rope_theta']
+    Llama_config.vocab_size = mds_args['padded_vocab_size']
+    if mds_args['fp16'] == True:
+        Llama_config.torch_dtype = 'float16'
+    elif mds_args['bf16'] == True:
+        Llama_config.torch_dtype = 'bfloat16'
+    return Llama_config
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--mds_checkpoint', required=True)   
+    parser.add_argument('--output_dir', required=True)   
+    parser.add_argument('--cache_dir', required=True)   
+    args = parser.parse_args()
+
+    # make output_dir if it does not exits.
+    if not os.path.exists(args.output_dir):
+        os.makedirs(args.output_dir)
+
+    filename = str(args.mds_checkpoint) 
+    if not filename.split("/")[-1].startswith('mp_rank') and not filename.split("/")[-1].endswith('.pt'):
+        assert ("Provide the right file path, The file should be of format mp_rank_*.pt")
+    print(f"loading mds checkpoint {filename}")
+ 
+    mds_model = torch.load(args.mds_checkpoint,map_location=torch.device('cpu'), weights_only=False)
+    Llama_model = LlamaForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf",cache_dir=args.cache_dir)
+    
+    Llama_config = Llama_model.config 
+    Updated_Llama_config = Update_llama_config(Llama_config, mds_model['args'].__dict__)
+    # save the updated config.json file 
+    Updated_Llama_config.to_json_file(os.path.join(args.output_dir,'config.json'))
+
+    state_dict = {}
+    dim = mds_model['args'].__dict__['kv_channels']
+    inv_freq = 1.0 / (mds_model['args'].__dict__['rope_theta'] ** (torch.arange(0,dim, 2).float() / dim))
+    hidden_size = mds_model['args'].__dict__['hidden_size']
+    kv_dim = mds_model['args'].__dict__['kv_channels'] * mds_model['args'].__dict__['num_key_value_heads']
+    kv_groups = mds_model['args'].__dict__['num_attention_heads'] // mds_model['args'].__dict__['num_key_value_heads']
+    nkvheads = mds_model['args'].__dict__['num_key_value_heads'] 
+    for layer_i in range(Updated_Llama_config.__dict__['num_hidden_layers']):
+        # SELF ATTENTION layers.
+        # get the q, k, v weights separately. Keeping k and v at the GQA head dim, since the transformers/models/llama/modelling_utils will take care of it. 
+        fused_qkv = mds_model['module']['language_model']['encoder'][f"layers.{layer_i}.self_attention.query_key_value.weight"]
+        fused_reshape = fused_qkv.view(nkvheads,(kv_groups+2)*dim,hidden_size)
+        ex_q = fused_reshape[:,:kv_groups*dim,:]
+        con_q = ex_q.contiguous().view(-1, fused_reshape.size(2))
+
+        ex_k = fused_reshape[:,kv_groups*dim:(kv_groups+1)*dim,:]
+        con_k = ex_k.contiguous().view(-1, fused_reshape.size(2))
+
+        ex_v = fused_reshape[:,(kv_groups+1)*dim:(kv_groups+2)*dim,:]
+        con_v = ex_v.contiguous().view(-1, fused_reshape.size(2))
+        
+        state_dict[f"model.layers.{layer_i}.self_attn.q_proj.weight"] = con_q
+        state_dict[f"model.layers.{layer_i}.self_attn.k_proj.weight"] = con_k 
+        #state_dict[f"model.layers.{layer_i}.self_attn.k_proj.weight"] = repeat_kv_wt(fused_qkv[hidden_size:hidden_size+kv_dim], kv_groups)
+        state_dict[f"model.layers.{layer_i}.self_attn.v_proj.weight"] = con_v 
+        #state_dict[f"model.layers.{layer_i}.self_attn.v_proj.weight"] = repeat_kv_wt(fused_qkv[hidden_size+kv_dim:hidden_size+2*kv_dim],kv_groups)
+        state_dict[f"model.layers.{layer_i}.self_attn.o_proj.weight"] = mds_model['module']['language_model']['encoder'][f"layers.{layer_i}.self_attention.dense.weight"]
+        
+        # MLP Layers 
+        fused_mlp = mds_model['module']['language_model']['encoder'][f"layers.{layer_i}.mlp.dense_h_to_4h.weight"]
+        chunked_mlp = torch.chunk(fused_mlp,2,dim=0)
+        state_dict[f"model.layers.{layer_i}.mlp.gate_proj.weight"] = chunked_mlp[0]
+        state_dict[f"model.layers.{layer_i}.mlp.up_proj.weight"] = chunked_mlp[1]
+        state_dict[f"model.layers.{layer_i}.mlp.down_proj.weight"] = mds_model['module']['language_model']['encoder'][f"layers.{layer_i}.mlp.dense_4h_to_h.weight"]
+        
+        #LayerNorm weights and RoPe 
+        state_dict[f"model.layers.{layer_i}.input_layernorm.weight"] = mds_model['module']['language_model']['encoder'][f"layers.{layer_i}.input_layernorm.weight"]
+        state_dict[f"model.layers.{layer_i}.post_attention_layernorm.weight"] = mds_model['module']['language_model']['encoder'][f"layers.{layer_i}.post_attention_layernorm.weight"] 
+
+        state_dict[f"model.layers.{layer_i}.self_attn.rotary_emb.inv_freq"] = inv_freq
+
+    # Get the non-encoder layer weights. 
+    state_dict["model.embed_tokens.weight"] = mds_model['module']['language_model']['embedding']['word_embeddings']['weight']
+    state_dict["model.norm.weight"] = mds_model['module']['language_model']['encoder']['final_layernorm.weight']
+    state_dict["lm_head.weight"] = mds_model['module']['language_model']['output_layer']['weight']
+    
+    # Save the model in the hf output path. 
+    torch.save(state_dict, os.path.join(args.output_dir,"pytorch_model.bin"))    
+
+
+
diff --git a/megatron/__init__.py b/megatron/__init__.py
index d92a279ec67..8dd5f2d8b14 100644
--- a/megatron/__init__.py
+++ b/megatron/__init__.py
@@ -9,12 +9,9 @@
 from .global_vars import update_num_microbatches
 from .global_vars import get_tokenizer
 from .global_vars import get_tensorboard_writer
+from .global_vars import get_wandb_writer
 from .global_vars import get_adlr_autoresume
 from .global_vars import get_timers
-from .initialize  import initialize_megatron
+from .initialize import initialize_megatron
 
-from .utils import (print_rank_0,
-                    is_last_rank,
-                    print_rank_last,
-                    is_rank_0,
-                    is_aml)
+from .utils import (print_rank_0, is_last_rank, print_rank_last, is_rank_0, is_aml)
diff --git a/megatron/arguments.py b/megatron/arguments.py
index d83fe99856a..3ca98641ff0 100644
--- a/megatron/arguments.py
+++ b/megatron/arguments.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 """Megatron arguments."""
@@ -17,10 +18,12 @@
 
 from megatron.core.transformer import TransformerConfig
 
+
 def parse_args(extra_args_provider=None, ignore_unknown_args=False):
     """Parse all arguments."""
-    parser = argparse.ArgumentParser(description='Megatron-LM Arguments',
-                                     allow_abbrev=False)
+    parser = argparse.ArgumentParser(
+        description="Megatron-LM Arguments", allow_abbrev=False
+    )
 
     # Standard arguments.
     parser = _add_network_size_args(parser)
@@ -44,6 +47,7 @@ def parse_args(extra_args_provider=None, ignore_unknown_args=False):
     parser = _add_inference_args(parser)
     parser = _add_transformer_engine_args(parser)
     parser = _add_retro_args(parser)
+    parser = _add_profiler_args(parser)
 
     # Custom arguments.
     if extra_args_provider is not None:
@@ -61,68 +65,108 @@ def parse_args(extra_args_provider=None, ignore_unknown_args=False):
     args.ds_pipeline_enabled = not args.no_pipeline_parallel
 
     # Args from environment
-    args.rank = int(os.getenv('RANK', '0'))
-    args.world_size = int(os.getenv("WORLD_SIZE", '1'))
+    args.rank = int(os.getenv("RANK", "0"))
+    args.world_size = int(os.getenv("WORLD_SIZE", "1"))
 
     return args
 
+
 def validate_args(args, defaults={}):
     # Tensor model parallel size.
     args.tensor_model_parallel_size = min(
-        args.tensor_model_parallel_size, args.world_size)
-    assert args.world_size % args.tensor_model_parallel_size == 0, 'world size'\
-        ' ({}) is not divisible by tensor model parallel size ({})'.format(
-            args.world_size, args.tensor_model_parallel_size)
+        args.tensor_model_parallel_size, args.world_size
+    )
+    assert (
+        args.world_size % args.tensor_model_parallel_size == 0
+    ), "world size ({}) is not divisible by tensor model parallel size ({})".format(
+        args.world_size, args.tensor_model_parallel_size
+    )
+    # Zero bubble pipeline is defined on deepspeed's scheduler
+    if args.enable_zbh1_pipeline:
+        assert args.deepspeed, "Use DeepSpeed to use zero-bubble H1 pipeline"
+        assert (
+            args.sequence_parallel == False
+        ), "Sequence Parallel not tested, proceed at own will by removing this line"
+    if args.enable_zbh1_exact_semantics:
+        assert (
+            args.enable_zbh1_pipeline
+        ), "Exact semantics require ZBH1 pipeline enabled"
     # Pipeline model parallel size.
     args.pipeline_model_parallel_size = min(
         args.pipeline_model_parallel_size,
-        (args.world_size // args.tensor_model_parallel_size))
+        (args.world_size // args.tensor_model_parallel_size),
+    )
     args.transformer_pipeline_model_parallel_size = (
         args.pipeline_model_parallel_size - 1
-        if args.standalone_embedding_stage else
-        args.pipeline_model_parallel_size
+        if args.standalone_embedding_stage
+        else args.pipeline_model_parallel_size
     )
     # Checks.
     if args.no_pipeline_parallel:
-        assert args.pipeline_model_parallel_size == 1, \
-            "pipeline_model_parallel_size must be 1 if pipeline parallel is disabled"
-        
+        assert (
+            args.pipeline_model_parallel_size == 1
+        ), "pipeline_model_parallel_size must be 1 if pipeline parallel is disabled"
+
     if args.ds_sequence_parallel_size > 1:
-        assert version.parse(deepspeed.__version__) >= version.parse("0.10.2"), "sequence parallelism requires DeepSpeed version 0.10.2+"
-
-    model_parallel_size = args.pipeline_model_parallel_size * \
-                          args.tensor_model_parallel_size * \
-                          args.ds_sequence_parallel_size
-    assert args.world_size % model_parallel_size == 0, 'world size ({}) is not'\
-        ' divisible by tensor parallel size ({}) times pipeline parallel ' \
-        'size ({})'.format(args.world_size, args.tensor_model_parallel_size,
-                           args.pipeline_model_parallel_size)
+        assert version.parse(deepspeed.__version__) >= version.parse(
+            "0.10.2"
+        ), "sequence parallelism requires DeepSpeed version 0.10.2+"
+
+    model_parallel_size = (
+        args.pipeline_model_parallel_size
+        * args.tensor_model_parallel_size
+        * args.ds_sequence_parallel_size
+    )
+    assert args.world_size % model_parallel_size == 0, (
+        "world size ({}) is not"
+        " divisible by tensor parallel size ({}) times pipeline parallel "
+        "size ({}) times seqence parallel size ({})".format(
+            args.world_size,
+            args.tensor_model_parallel_size,
+            args.pipeline_model_parallel_size,
+            args.ds_sequence_parallel_size,
+        )
+    )
     args.data_parallel_size = args.world_size // model_parallel_size
     if args.rank == 0:
-        print('using world size: {}, data-parallel-size: {}, '
-              'sequence-parallel size: {}, '
-              'tensor-model-parallel size: {}, '
-              'pipeline-model-parallel size: {} '.format(
-                  args.world_size, args.data_parallel_size,
-                  args.ds_sequence_parallel_size,
-                  args.tensor_model_parallel_size,
-                  args.pipeline_model_parallel_size), flush=True)
+        print(
+            "using world size: {}, data-parallel-size: {}, "
+            "sequence-parallel size: {}, "
+            "tensor-model-parallel size: {}, "
+            "pipeline-model-parallel size: {} ".format(
+                args.world_size,
+                args.data_parallel_size,
+                args.ds_sequence_parallel_size,
+                args.tensor_model_parallel_size,
+                args.pipeline_model_parallel_size,
+            ),
+            flush=True,
+        )
     if args.pipeline_model_parallel_size > 1:
         if args.pipeline_model_parallel_split_rank is not None:
-            assert args.pipeline_model_parallel_split_rank < \
-                    args.pipeline_model_parallel_size, 'split rank needs'\
-                    ' to be less than pipeline model parallel size ({})'.format(
-                            args.pipeline_model_parallel_size)
+            assert (
+                args.pipeline_model_parallel_split_rank
+                < args.pipeline_model_parallel_size
+            ), (
+                "split rank needs"
+                " to be less than pipeline model parallel size ({})".format(
+                    args.pipeline_model_parallel_size
+                )
+            )
 
     # Deprecated arguments
-    assert args.batch_size is None, '--batch-size argument is no longer ' \
-        'valid, use --micro-batch-size instead'
+    assert (
+        args.batch_size is None
+    ), "--batch-size argument is no longer valid, use --micro-batch-size instead"
     del args.batch_size
-    assert args.warmup is None, '--warmup argument is no longer valid, use ' \
-        '--lr-warmup-fraction instead'
+    assert (
+        args.warmup is None
+    ), "--warmup argument is no longer valid, use --lr-warmup-fraction instead"
     del args.warmup
-    assert args.model_parallel_size is None, '--model-parallel-size is no ' \
-        'longer valid, use --tensor-model-parallel-size instead'
+    assert args.model_parallel_size is None, (
+        "--model-parallel-size is no "
+        "longer valid, use --tensor-model-parallel-size instead"
+    )
     del args.model_parallel_size
 
     # HACK: below is commented because DeepSpeed still relies on the old
@@ -135,7 +179,7 @@ def validate_args(args, defaults={}):
     # del args.checkpoint_activations
 
     if args.recompute_activations:
-        args.recompute_granularity = 'selective'
+        args.recompute_granularity = "selective"
     del args.recompute_activations
 
     # Set input defaults.
@@ -145,10 +189,13 @@ def validate_args(args, defaults={}):
         # ensuring the arg is set to None.
         if getattr(args, key) is not None:
             if args.rank == 0:
-                print('WARNING: overriding default arguments for {key}:{v} \
-                       with {key}:{v2}'.format(key=key, v=defaults[key],
-                                               v2=getattr(args, key)),
-                                               flush=True)
+                print(
+                    "WARNING: overriding default arguments for {key}:{v} \
+                       with {key}:{v2}".format(
+                        key=key, v=defaults[key], v2=getattr(args, key)
+                    ),
+                    flush=True,
+                )
         else:
             setattr(args, key, defaults[key])
 
@@ -158,19 +205,23 @@ def validate_args(args, defaults={}):
     if args.global_batch_size is None:
         args.global_batch_size = args.micro_batch_size * args.data_parallel_size
         if args.rank == 0:
-            print('setting global batch size to {}'.format(
-                args.global_batch_size), flush=True)
+            print(
+                "setting global batch size to {}".format(args.global_batch_size),
+                flush=True,
+            )
     assert args.global_batch_size > 0
     if args.num_layers_per_virtual_pipeline_stage is not None:
-        assert args.pipeline_model_parallel_size > 2, \
-            'pipeline-model-parallel size should be greater than 2 with ' \
-            'interleaved schedule'
-        assert args.num_layers % args.num_layers_per_virtual_pipeline_stage == 0, \
-            'number of layers is not divisible by number of layers per virtual ' \
-            'pipeline stage'
-        args.virtual_pipeline_model_parallel_size = \
-            (args.num_layers // args.transformer_pipeline_model_parallel_size) // \
-            args.num_layers_per_virtual_pipeline_stage
+        assert args.pipeline_model_parallel_size > 2, (
+            "pipeline-model-parallel size should be greater than 2 with "
+            "interleaved schedule"
+        )
+        assert args.num_layers % args.num_layers_per_virtual_pipeline_stage == 0, (
+            "number of layers is not divisible by number of layers per virtual "
+            "pipeline stage"
+        )
+        args.virtual_pipeline_model_parallel_size = (
+            args.num_layers // args.transformer_pipeline_model_parallel_size
+        ) // args.num_layers_per_virtual_pipeline_stage
     else:
         args.virtual_pipeline_model_parallel_size = None
 
@@ -187,32 +238,34 @@ def validate_args(args, defaults={}):
         if not args.accumulate_allreduce_grads_in_fp32:
             args.accumulate_allreduce_grads_in_fp32 = True
             if args.rank == 0:
-                print('accumulate and all-reduce gradients in fp32 for '
-                      'bfloat16 data type.', flush=True)
+                print(
+                    "accumulate and all-reduce gradients in fp32 for "
+                    "bfloat16 data type.",
+                    flush=True,
+                )
 
     if args.rank == 0:
-        print('using {} for parameters ...'.format(args.params_dtype),
-              flush=True)
+        print("using {} for parameters ...".format(args.params_dtype), flush=True)
 
     # If we do accumulation and all-reduces in fp32, we need to have local DDP
     # and we should make sure use-contiguous-buffers-in-local-ddp is not off.
     if args.accumulate_allreduce_grads_in_fp32:
-        assert args.DDP_impl == 'local'
+        assert args.DDP_impl == "local"
         assert args.use_contiguous_buffers_in_local_ddp
 
     # If we use the distributed optimizer, we need to have local DDP
     # and we should make sure use-contiguous-buffers-in-local-ddp is on.
     if args.use_distributed_optimizer:
-        assert args.DDP_impl == 'local'
+        assert args.DDP_impl == "local"
         assert args.use_contiguous_buffers_in_local_ddp
 
     # For torch DDP, we do not use contiguous buffer
     # if args.DDP_impl == 'torch':
-    if args.DDP_impl != 'local':
+    if args.DDP_impl != "local":
         args.use_contiguous_buffers_in_local_ddp = False
 
     if args.dataloader_type is None:
-        args.dataloader_type = 'single'
+        args.dataloader_type = "single"
 
     # Consumed tokens.
     args.consumed_train_samples = 0
@@ -230,47 +283,53 @@ def validate_args(args, defaults={}):
     if args.train_iters:
         # If we use iteration-based training, make sure the
         # sample-based options are off.
-        assert args.train_samples is None, \
-            'expected iteration-based training'
-        assert args.lr_decay_samples is None, \
-            'expected iteration-based learning rate decay'
-        assert args.lr_warmup_samples == 0, \
-            'expected iteration-based learning rate warmup'
-        assert args.rampup_batch_size is None, \
-            'expected no batch-size rampup for iteration-based training'
+        assert args.train_samples is None, "expected iteration-based training"
+        assert (
+            args.lr_decay_samples is None
+        ), "expected iteration-based learning rate decay"
+        assert (
+            args.lr_warmup_samples == 0
+        ), "expected iteration-based learning rate warmup"
+        assert (
+            args.rampup_batch_size is None
+        ), "expected no batch-size rampup for iteration-based training"
         if args.lr_warmup_fraction is not None:
-            assert args.lr_warmup_iters == 0, \
-                'can only specify one of lr-warmup-fraction and lr-warmup-iters'
+            assert (
+                args.lr_warmup_iters == 0
+            ), "can only specify one of lr-warmup-fraction and lr-warmup-iters"
 
     # Sample-based training.
     if args.train_samples:
         # If we use sample-based training, make sure the
         # iteration-based options are off.
-        assert args.train_iters is None, \
-            'expected sample-based training'
-        assert args.lr_decay_iters is None, \
-            'expected sample-based learning rate decay'
-        assert args.lr_warmup_iters == 0, \
-            'expected sample-based learnig rate warmup'
+        assert args.train_iters is None, "expected sample-based training"
+        assert args.lr_decay_iters is None, "expected sample-based learning rate decay"
+        assert args.lr_warmup_iters == 0, "expected sample-based learnig rate warmup"
         if args.lr_warmup_fraction is not None:
-            assert args.lr_warmup_samples == 0, \
-                'can only specify one of lr-warmup-fraction ' \
-                'and lr-warmup-samples'
+            assert (
+                args.lr_warmup_samples == 0
+            ), "can only specify one of lr-warmup-fraction and lr-warmup-samples"
 
     if args.num_layers is not None:
-        assert args.encoder_num_layers is None, \
-            'cannot have both num-layers and encoder-num-layers specified'
+        assert (
+            args.encoder_num_layers is None
+        ), "cannot have both num-layers and encoder-num-layers specified"
         args.encoder_num_layers = args.num_layers
     else:
         if not args.use_dataset_only:
-            assert args.encoder_num_layers is not None, \
-                'either num-layers or encoder-num-layers should be specified'
+            assert (
+                args.encoder_num_layers is not None
+            ), "either num-layers or encoder-num-layers should be specified"
             args.num_layers = args.encoder_num_layers
 
     # Check required arguments.
     if not args.use_dataset_only:
-        required_args = ['num_layers', 'hidden_size', 'num_attention_heads',
-                         'max_position_embeddings']
+        required_args = [
+            "num_layers",
+            "hidden_size",
+            "num_attention_heads",
+            "max_position_embeddings",
+        ]
         for req_arg in required_args:
             _check_arg_is_not_none(args, req_arg)
 
@@ -313,13 +372,14 @@ def validate_args(args, defaults={}):
         assert args.save_interval is not None
     # Mixed precision checks.
     if args.fp16_lm_cross_entropy:
-        assert args.fp16, 'lm cross entropy in fp16 only support in fp16 mode.'
+        assert args.fp16, "lm cross entropy in fp16 only support in fp16 mode."
     if args.fp32_residual_connection:
-        assert args.fp16 or args.bf16, \
-            'residual connection in fp32 only supported when using fp16 or bf16.'
+        assert (
+            args.fp16 or args.bf16
+        ), "residual connection in fp32 only supported when using fp16 or bf16."
 
     if not args.use_dataset_only:
-        if args.weight_decay_incr_style == 'constant':
+        if args.weight_decay_incr_style == "constant":
             assert args.start_weight_decay is None
             assert args.end_weight_decay is None
             args.start_weight_decay = args.weight_decay
@@ -328,50 +388,61 @@ def validate_args(args, defaults={}):
             assert args.start_weight_decay is not None
             assert args.end_weight_decay is not None
 
-    TORCH_MAJOR = int(torch.__version__.split('.')[0])
-    TORCH_MINOR = int(torch.__version__.split('.')[1])
+    TORCH_MAJOR = int(torch.__version__.split(".")[0])
+    TORCH_MINOR = int(torch.__version__.split(".")[1])
     # Persistent fused layer norm.
     if TORCH_MAJOR < 1 or (TORCH_MAJOR == 1 and TORCH_MINOR < 11):
         args.no_persist_layer_norm = True
         if args.rank == 0:
-            print('Persistent fused layer norm kernel is supported from '
-                  'pytorch v1.11 (nvidia pytorch container paired with v1.11). '
-                  'Defaulting to no_persist_layer_norm=True')
+            print(
+                "Persistent fused layer norm kernel is supported from "
+                "pytorch v1.11 (nvidia pytorch container paired with v1.11). "
+                "Defaulting to no_persist_layer_norm=True"
+            )
 
     # Activation checkpointing.
     if args.distribute_checkpointed_activations:
-        assert args.checkpoint_activations, \
-            'for distribute-checkpointed-activations to work you '\
-            'need to enable checkpoint-activations'
+        assert args.checkpoint_activations, (
+            "for distribute-checkpointed-activations to work you "
+            "need to enable checkpoint-activations"
+        )
 
     # Activation recomputing.
     if args.distribute_saved_activations:
-        assert args.tensor_model_parallel_size > 1, 'can distribute ' \
-            'recomputed activations only across tensor model ' \
-            'parallel groups'
-        assert args.recompute_granularity == 'full', \
-            'distributed recompute activations is only '\
-            'application to full recompute granularity'
-        assert args.recompute_method is not None, \
-            'for distributed recompute activations to work you '\
-            'need to use a recompute method '
-        assert TORCH_MAJOR >= 1 and TORCH_MINOR >= 10, \
-            'distributed recompute activations are supported for pytorch ' \
-            'v1.10 and above (Nvidia Pytorch container >= 21.07). Current ' \
-            'pytorch version is v%s.%s.' % (TORCH_MAJOR, TORCH_MINOR)
+        assert args.tensor_model_parallel_size > 1, (
+            "can distribute "
+            "recomputed activations only across tensor model "
+            "parallel groups"
+        )
+        assert args.recompute_granularity == "full", (
+            "distributed recompute activations is only "
+            "application to full recompute granularity"
+        )
+        assert args.recompute_method is not None, (
+            "for distributed recompute activations to work you "
+            "need to use a recompute method "
+        )
+        assert TORCH_MAJOR >= 1 and TORCH_MINOR >= 10, (
+            "distributed recompute activations are supported for pytorch "
+            "v1.10 and above (Nvidia Pytorch container >= 21.07). Current "
+            "pytorch version is v%s.%s." % (TORCH_MAJOR, TORCH_MINOR)
+        )
 
     # Tranformer-Engine/FP8 related checking
     if args.fp8_e4m3 or args.fp8_hybrid:
-        assert args.transformer_impl == 'transformer_engine', \
-            'transformer-engine required for fp8 training and inference'
+        assert (
+            args.transformer_impl == "transformer_engine"
+        ), "transformer-engine required for fp8 training and inference"
 
-    assert not (args.fp8_e4m3 and args.fp8_hybrid), \
-        'cannot train with both fp8 e4m3 and hybrid formatting'
+    assert not (
+        args.fp8_e4m3 and args.fp8_hybrid
+    ), "cannot train with both fp8 e4m3 and hybrid formatting"
 
-    if args.recompute_granularity == 'selective':
-        assert args.recompute_method is None, \
-            'recompute method is not yet supported for ' \
-            'selective recomputing granularity'
+    if args.recompute_granularity == "selective":
+        assert args.recompute_method is None, (
+            "recompute method is not yet supported for "
+            "selective recomputing granularity"
+        )
 
     # disable sequence parallelism when tp=1
     # to avoid change in numerics when
@@ -391,15 +462,20 @@ def validate_args(args, defaults={}):
         args.async_tensor_model_parallel_allreduce = False
 
     if not args.use_dataset_only:
-        if os.environ.get('CUDA_DEVICE_MAX_CONNECTIONS') != "1":
+        if (
+            deepspeed.accelerator.get_accelerator().device_name() == "cuda"
+            and os.environ.get("CUDA_DEVICE_MAX_CONNECTIONS") != "1"
+        ):
             if args.sequence_parallel:
                 raise RuntimeError(
                     "Using sequence parallelism requires setting the environment variable "
-                    "CUDA_DEVICE_MAX_CONNECTIONS to 1")
+                    "CUDA_DEVICE_MAX_CONNECTIONS to 1"
+                )
             if args.async_tensor_model_parallel_allreduce:
                 raise RuntimeError(
                     "Using async gradient all reduce requires setting the environment "
-                    "variable CUDA_DEVICE_MAX_CONNECTIONS to 1")
+                    "variable CUDA_DEVICE_MAX_CONNECTIONS to 1"
+                )
 
     # Disable bias gelu fusion if we are disabling bias altogether
     if not args.add_bias_linear:
@@ -412,16 +488,21 @@ def validate_args(args, defaults={}):
             with open(retro_args_path) as f:
                 retro_args = types.SimpleNamespace(**json.load(f))
                 retro_args.retro_return_doc_ids = args.retro_return_doc_ids
-                retro_args.retro_gpt_retrieved_length = \
-                    args.retro_num_retrieved_chunks * \
-                    retro_args.retro_gpt_chunk_length
+                retro_args.retro_gpt_retrieved_length = (
+                    args.retro_num_retrieved_chunks * retro_args.retro_gpt_chunk_length
+                )
                 set_retro_args(retro_args)
 
     args.curriculum_learning_legacy = False
     args.compression_training = False
 
     # FlashAttention
-    args.use_flash_attn = args.use_flash_attn_v1 or args.use_flash_attn_triton or args.use_flash_attn_v2
+    args.use_flash_attn = (
+        args.use_flash_attn_v1
+        or args.use_flash_attn_triton
+        or args.use_flash_attn_v2
+        or args.use_flash_attn_builder
+    )
 
     # AML
     if args.aml_data_download_path is not None:
@@ -434,19 +515,26 @@ def validate_args(args, defaults={}):
     if not args.use_dataset_only:
         if args.num_key_value_heads is None:
             args.num_key_value_heads = args.num_attention_heads
-        assert args.num_attention_heads % args.num_key_value_heads == 0, \
-            f"num_attention_heads must be divisible by num_key_value_heads (got `num_attention_heads`: {args.num_attention_heads} " \
+        assert args.num_attention_heads % args.num_key_value_heads == 0, (
+            f"num_attention_heads must be divisible by num_key_value_heads (got `num_attention_heads`: {args.num_attention_heads} "
             f"and `num_key_value_heads`: {args.num_key_value_heads})."
+        )
         if args.num_key_value_heads != args.num_attention_heads:
             # if GQA
-            assert not args.mos, 'GQA currently does not support args.mos'
-            assert not args.kd, 'GQA currently does not support args.kd'
+            assert not args.mos, "GQA currently does not support args.mos"
+            assert not args.kd, "GQA currently does not support args.kd"
 
     # Print arguments.
     _print_args("arguments", args)
     retro_args = get_retro_args()
     if retro_args and args != retro_args:
-        _print_args("retro arguments", types.SimpleNamespace(**{k:v for k,v in vars(retro_args).items() if k.startswith("retro")}, rank=args.rank))
+        _print_args(
+            "retro arguments",
+            types.SimpleNamespace(
+                **{k: v for k, v in vars(retro_args).items() if k.startswith("retro")},
+                rank=args.rank,
+            ),
+        )
 
     return args
 
@@ -454,931 +542,1999 @@ def validate_args(args, defaults={}):
 def _print_args(title, args):
     """Print arguments."""
     if args.rank == 0:
-        print(f'------------------------ {title} ------------------------',
-              flush=True)
+        print(f"------------------------ {title} ------------------------", flush=True)
         str_list = []
         for arg in vars(args):
-            dots = '.' * (48 - len(arg))
-            str_list.append('  {} {} {}'.format(arg, dots, getattr(args, arg)))
+            dots = "." * (48 - len(arg))
+            str_list.append("  {} {} {}".format(arg, dots, getattr(args, arg)))
         for arg in sorted(str_list, key=lambda x: x.lower()):
             print(arg, flush=True)
-        print(f'-------------------- end of {title} ---------------------',
-              flush=True)
+        print(f"-------------------- end of {title} ---------------------", flush=True)
 
 
 def _check_arg_is_not_none(args, arg):
-    assert getattr(args, arg) is not None, '{} argument is None'.format(arg)
+    assert getattr(args, arg) is not None, "{} argument is None".format(arg)
 
-def core_transformer_config_from_args(args):
 
+def core_transformer_config_from_args(args):
     # Translate args to core transformer configuration
     kw_args = {}
     for f in dataclasses.fields(TransformerConfig):
         if hasattr(args, f.name):
             kw_args[f.name] = getattr(args, f.name)
-    kw_args['persist_layer_norm'] = not args.no_persist_layer_norm
-    kw_args['layernorm_zero_centered_gamma'] = args.apply_layernorm_1p
-    kw_args['deallocate_pipeline_outputs'] = True
-    kw_args['pipeline_dtype'] = args.params_dtype
-    kw_args['batch_p2p_comm'] = not args.overlap_p2p_comm
+    kw_args["persist_layer_norm"] = not args.no_persist_layer_norm
+    kw_args["layernorm_zero_centered_gamma"] = args.apply_layernorm_1p
+    kw_args["deallocate_pipeline_outputs"] = True
+    kw_args["pipeline_dtype"] = args.params_dtype
+    kw_args["batch_p2p_comm"] = not args.overlap_p2p_comm
     if args.swiglu:
-        kw_args['activation_func'] = F.silu
-        kw_args['gated_linear_unit'] = True
-        kw_args['bias_gelu_fusion'] = False
+        kw_args["activation_func"] = F.silu
+        kw_args["gated_linear_unit"] = True
+        kw_args["bias_gelu_fusion"] = False
     if args.init_method_xavier_uniform:
-        kw_args['init_method'] = torch.nn.init.xavier_uniform_
-        kw_args['scaled_init_method'] = torch.nn.init.xavier_uniform_
+        kw_args["init_method"] = torch.nn.init.xavier_uniform_
+        kw_args["scaled_init_method"] = torch.nn.init.xavier_uniform_
 
     return TransformerConfig(**kw_args)
 
+
 def _add_transformer_engine_args(parser):
-    group = parser.add_argument_group(title='Transformer-Engine')
-
-    group.add_argument('--fp8-e4m3', action='store_true',
-                        help='E4M3 TransformerLayer', dest='fp8_e4m3')
-    group.add_argument('--fp8-hybrid', action='store_true',
-                        help='Hybrid FP8 TransformerLayer', dest='fp8_hybrid')
-    group.add_argument('--no-fp8-wgrad', action='store_false',
-                        help='Execute wgrad in higher precision even for FP8 runs', dest='fp8_wgrad')
-    group.add_argument('--fp8-margin', type=int, default=0,
-                        help='Scaling margin for fp8', dest='fp8_margin')
-    group.add_argument('--fp8-interval', type=int, default=1,
-                        help='Scaling update interval for fp8', dest='fp8_interval')
-    group.add_argument('--transformer-impl', default='local',
-                       choices=['local', 'transformer_engine'],
-                       help='Which Transformer implementation to use.',
-                       dest='transformer_impl')
-    group.add_argument('--fp8-amax-history-len', type=int, default=1,
-                        help='Number of steps for which amax history is recorded per tensor',
-                        dest='fp8_amax_history_len')
-    group.add_argument('--fp8-amax-compute-algo', default='most_recent',
-                       choices=['most_recent', 'max'],
-                       help='Algorithm for computing amax from history',
-                       dest='fp8_amax_compute_algo')
+    group = parser.add_argument_group(title="Transformer-Engine")
+
+    group.add_argument(
+        "--fp8-e4m3", action="store_true", help="E4M3 TransformerLayer", dest="fp8_e4m3"
+    )
+    group.add_argument(
+        "--fp8-hybrid",
+        action="store_true",
+        help="Hybrid FP8 TransformerLayer",
+        dest="fp8_hybrid",
+    )
+    group.add_argument(
+        "--no-fp8-wgrad",
+        action="store_false",
+        help="Execute wgrad in higher precision even for FP8 runs",
+        dest="fp8_wgrad",
+    )
+    group.add_argument(
+        "--fp8-margin",
+        type=int,
+        default=0,
+        help="Scaling margin for fp8",
+        dest="fp8_margin",
+    )
+    group.add_argument(
+        "--fp8-interval",
+        type=int,
+        default=1,
+        help="Scaling update interval for fp8",
+        dest="fp8_interval",
+    )
+    group.add_argument(
+        "--transformer-impl",
+        default="local",
+        choices=["local", "transformer_engine"],
+        help="Which Transformer implementation to use.",
+        dest="transformer_impl",
+    )
+    group.add_argument(
+        "--fp8-amax-history-len",
+        type=int,
+        default=1,
+        help="Number of steps for which amax history is recorded per tensor",
+        dest="fp8_amax_history_len",
+    )
+    group.add_argument(
+        "--fp8-amax-compute-algo",
+        default="most_recent",
+        choices=["most_recent", "max"],
+        help="Algorithm for computing amax from history",
+        dest="fp8_amax_compute_algo",
+    )
 
     return parser
 
+
 def _add_inference_args(parser):
-    group = parser.add_argument_group(title='inference')
-
-    group.add_argument('--inference-batch-times-seqlen-threshold',
-                       type=int, default=512,
-                       help='During inference, if batch-size times '
-                       'sequence-length is smaller than this threshold '
-                       'then we will not use pipelining, otherwise we will.')
-    group.add_argument('--max-tokens-to-oom',
-                       type=int, default=12000,
-                       help='Maximum number of tokens during inference'
-                       'tokens here is # in prompt + # to generate'
-                       'Allows us to throw an error before OOM crashes server')
-    group.add_argument('--output-bert-embeddings', action='store_true',
-                       help='Output Bert embeddings (via mean pooling) from '
-                       'model, rather than its binary head output or entire '
-                       'hidden batch.')
-    group.add_argument('--bert-embedder-type', default="megatron",
-                       choices=["megatron", "huggingface"],
-                       help='Select either Megatron or Huggingface as the '
-                       'Bert embedder.')
+    group = parser.add_argument_group(title="inference")
+
+    group.add_argument(
+        "--inference-batch-times-seqlen-threshold",
+        type=int,
+        default=512,
+        help="During inference, if batch-size times "
+        "sequence-length is smaller than this threshold "
+        "then we will not use pipelining, otherwise we will.",
+    )
+    group.add_argument(
+        "--max-tokens-to-oom",
+        type=int,
+        default=12000,
+        help="Maximum number of tokens during inference"
+        "tokens here is # in prompt + # to generate"
+        "Allows us to throw an error before OOM crashes server",
+    )
+    group.add_argument(
+        "--output-bert-embeddings",
+        action="store_true",
+        help="Output Bert embeddings (via mean pooling) from "
+        "model, rather than its binary head output or entire "
+        "hidden batch.",
+    )
+    group.add_argument(
+        "--bert-embedder-type",
+        default="megatron",
+        choices=["megatron", "huggingface"],
+        help="Select either Megatron or Huggingface as the Bert embedder.",
+    )
 
     return parser
 
 
 def _add_retro_args(parser):
-    group = parser.add_argument_group(title='retro')
-
-    group.add_argument('--retro-workdir', default=None,
-                       help='Retro working directory, which contains the '
-                       'preprocessed data for for pretraining. This directory '
-                       'is built during preprocessing (see '
-                       'tools/retro/README.md), and contains subdirectories '
-                       'for the chunk database and pretraining neighbors.')
-    group.add_argument('--retro-add-retriever',
-                       action='store_true', default=False,
-                       help='Add a retriever to the transformer, for use in '
-                       'pretraining a Retro model.')
-    group.add_argument('--retro-cyclic-train-iters', type=int, default=None,
-                       help='Set number of training iterations for cyclic '
-                       'Retro training.')
-    group.add_argument('--retro-encoder-layers', type=int, default=2,
-                       help='Number of layers to use for the retrieval '
-                       'encoder.')
-    group.add_argument('--retro-encoder-hidden-dropout',
-                       type=float, default=0.1, help='Hidden dropout for '
-                       'retrieval encoder.')
-    group.add_argument('--retro-encoder-attention-dropout',
-                       type=float, default=0.1, help='Attention dropout for '
-                       'retrieval encoder.')
-    group.add_argument("--retro-num-neighbors", type=int, default=2,
-                       help='Number of neighbors to retrieve during '
-                       'pretraining.')
-    group.add_argument("--retro-num-retrieved-chunks", type=int, default=2,
-                       help='Number of chunks to retrieve from the retrieval '
-                       'database.')
-    group.add_argument("--retro-return-doc-ids", action="store_true",
-                       help="Turn this on when preprocessing retro data.")
+    group = parser.add_argument_group(title="retro")
+
+    group.add_argument(
+        "--retro-workdir",
+        default=None,
+        help="Retro working directory, which contains the "
+        "preprocessed data for for pretraining. This directory "
+        "is built during preprocessing (see "
+        "tools/retro/README.md), and contains subdirectories "
+        "for the chunk database and pretraining neighbors.",
+    )
+    group.add_argument(
+        "--retro-add-retriever",
+        action="store_true",
+        default=False,
+        help="Add a retriever to the transformer, for use in "
+        "pretraining a Retro model.",
+    )
+    group.add_argument(
+        "--retro-cyclic-train-iters",
+        type=int,
+        default=None,
+        help="Set number of training iterations for cyclic Retro training.",
+    )
+    group.add_argument(
+        "--retro-encoder-layers",
+        type=int,
+        default=2,
+        help="Number of layers to use for the retrieval encoder.",
+    )
+    group.add_argument(
+        "--retro-encoder-hidden-dropout",
+        type=float,
+        default=0.1,
+        help="Hidden dropout for retrieval encoder.",
+    )
+    group.add_argument(
+        "--retro-encoder-attention-dropout",
+        type=float,
+        default=0.1,
+        help="Attention dropout for retrieval encoder.",
+    )
+    group.add_argument(
+        "--retro-num-neighbors",
+        type=int,
+        default=2,
+        help="Number of neighbors to retrieve during pretraining.",
+    )
+    group.add_argument(
+        "--retro-num-retrieved-chunks",
+        type=int,
+        default=2,
+        help="Number of chunks to retrieve from the retrieval database.",
+    )
+    group.add_argument(
+        "--retro-return-doc-ids",
+        action="store_true",
+        help="Turn this on when preprocessing retro data.",
+    )
 
     # Enforce argument naming convention.
     for action in group._group_actions:
         prefix = action.dest.split("_")[0]
-        assert prefix == "retro", \
-            "Retro args must be prefixed with '--retro-*', for consistent " \
+        assert prefix == "retro", (
+            "Retro args must be prefixed with '--retro-*', for consistent "
             "styling. Please fix '%s'." % ", ".join(action.option_strings)
+        )
 
     return parser
 
 
 def _add_network_size_args(parser):
-    group = parser.add_argument_group(title='network size')
-
-    group.add_argument('--num-layers', type=int, default=None,
-                       help='Number of transformer layers.')
-    group.add_argument('--encoder-num-layers', type=int, default=None,
-                       help='Number of encoder transformer layers.')
-    group.add_argument('--decoder-num-layers', type=int, default=None,
-                       help='Number of decoder transformer layers.')
-    group.add_argument('--num-experts', type=int, nargs='+', default=[1,],
-                           help='number of experts list, MoE related.')
-    group.add_argument('--mlp-type', type=str, default='standard',
-                           help='Only applicable when num-experts > 1, accepts [standard, residual]')
-    group.add_argument('--topk', type=int, default=1,
-                           help='Sets the k in TopK gating for MoE layers')
-    group.add_argument('--expert-interval', type=int, default=2,
-                           help='Use experts in every "expert-interval" layers')
-    group.add_argument('--hidden-size', type=int, default=None,
-                       help='Tansformer hidden size.')
-    group.add_argument('--ffn-hidden-size', type=int, default=None,
-                       help='Transformer Feed-Forward Network hidden size. '
-                       'This is set to 4*hidden-size if not provided')
-    group.add_argument('--num-attention-heads', type=int, default=None,
-                       help='Number of transformer attention heads.')
-    group.add_argument('--num-key-value-heads', type=int, default=None,
-                       help='Number of key_value heads that should be used to implement Grouped Query Attention.')
-    group.add_argument('--kv-channels', type=int, default=None,
-                       help='Projection weights dimension in multi-head '
-                       'attention. This is set to '
-                       '   args.hidden_size // args.num_attention_heads '
-                       'if not provided.')
-    group.add_argument('--max-position-embeddings', type=int, default=None,
-                       help='Maximum number of position embeddings to use. '
-                       'This is the size of position embedding.')
-    group.add_argument('--use-rotary-position-embeddings', action='store_true',
-                       help='Use rotary positional embeddings or not')
-    group.add_argument('--rotary-position-embeddings-theta', type=int, default=10000,
-                       help='Rotary positional embeddings theta value.',
-                       dest='rope_theta')
-    group.add_argument('--rotary-percent', type=float, default=1.0,
-                       help='Percent of rotary dimension to use, default 100%')
-    group.add_argument('--no-position-embedding',
-                       action='store_false',
-                       help='Disable position embedding.',
-                       dest='add_position_embedding')
-    group.add_argument('--make-vocab-size-divisible-by', type=int, default=128,
-                       help='Pad the vocab size to be divisible by this value.'
-                       'This is added for computational efficieny reasons.')
-    group.add_argument('--normalization', type=str, default='layernorm',
-                       choices=['layernorm', 'rmsnorm'],
-                       help='Options for layer normalization type:'
-                            '  layernorm'
-                            '  rmsnorm')
-    group.add_argument('--layernorm-epsilon', type=float, default=1e-5,
-                       help='Layer norm epsilon.')
-    group.add_argument('--apply-layernorm-1p', action='store_true',
-                       help='Adjust LayerNorm weights such that they are centered '
-                       'around zero. This improves numerical stability.')
-    group.add_argument('--disable-mem-efficient-ln', action='store_false', 
-                       help='Disable the memory-efficient fused LayerNorm optimization '
-                       'introduced in https://github.com/NVIDIA/apex/pull/1715', dest='mem_efficient_ln')
-    group.add_argument('--apply-residual-connection-post-layernorm',
-                       action='store_true',
-                       help='If set, use original BERT residula connection '
-                       'ordering.')
-    group.add_argument('--openai-gelu', action='store_true',
-                       help='Use OpenAIs GeLU implementation. This option'
-                       'should not be used unless for backward compatibility'
-                       'reasons.')
-    group.add_argument('--squared-relu', action='store_true',
-                       help='Use squared relu activation instead of default gelu')
-    group.add_argument('--swiglu', action='store_true',
-                       help='Use gated linear units and SiLU activation instead of default gelu')
-    group.add_argument('--onnx-safe', type=bool, required=False,
-                       help='Use workarounds for known problems with '
-                       'Torch ONNX exporter')
-    group.add_argument('--bert-no-binary-head', action='store_false',
-                       help='Disable BERT binary head.',
-                       dest='bert_binary_head')
-    group.add_argument('--num-experts-switch', type=int, default=None,
-                       help='Number of Experts in Switch Transformer (None means no Switch)')
-    group.add_argument('--untie-embeddings-and-output-weights', action='store_true',
-                       help='Untie embeddings and output weights.'),
-    group.add_argument('--embedding-weights-in-fp32', action='store_true',
-                       help='Cast word embedding weights to fp32 before embedding fwd.'),
+    group = parser.add_argument_group(title="network size")
+
+    group.add_argument(
+        "--num-layers", type=int, default=None, help="Number of transformer layers."
+    )
+    group.add_argument(
+        "--encoder-num-layers",
+        type=int,
+        default=None,
+        help="Number of encoder transformer layers.",
+    )
+    group.add_argument(
+        "--decoder-num-layers",
+        type=int,
+        default=None,
+        help="Number of decoder transformer layers.",
+    )
+    group.add_argument(
+        "--num-experts",
+        type=int,
+        nargs="+",
+        default=[
+            1,
+        ],
+        help="number of experts list, MoE related.",
+    )
+    group.add_argument(
+        "--mlp-type",
+        type=str,
+        default="standard",
+        help="Only applicable when num-experts > 1, accepts [standard, residual]",
+    )
+    group.add_argument(
+        "--topk", type=int, default=1, help="Sets the k in TopK gating for MoE layers"
+    )
+    group.add_argument(
+        "--expert-interval",
+        type=int,
+        default=2,
+        help='Use experts in every "expert-interval" layers',
+    )
+    group.add_argument(
+        "--hidden-size", type=int, default=None, help="Tansformer hidden size."
+    )
+    group.add_argument(
+        "--ffn-hidden-size",
+        type=int,
+        default=None,
+        help="Transformer Feed-Forward Network hidden size. "
+        "This is set to 4*hidden-size if not provided",
+    )
+    group.add_argument(
+        "--num-attention-heads",
+        type=int,
+        default=None,
+        help="Number of transformer attention heads.",
+    )
+    group.add_argument(
+        "--num-key-value-heads",
+        type=int,
+        default=None,
+        help="Number of key_value heads that should be used to implement Grouped Query Attention.",
+    )
+    group.add_argument(
+        "--kv-channels",
+        type=int,
+        default=None,
+        help="Projection weights dimension in multi-head "
+        "attention. This is set to "
+        "   args.hidden_size // args.num_attention_heads "
+        "if not provided.",
+    )
+    group.add_argument(
+        "--max-position-embeddings",
+        type=int,
+        default=None,
+        help="Maximum number of position embeddings to use. "
+        "This is the size of position embedding.",
+    )
+    group.add_argument(
+        "--use-rotary-position-embeddings",
+        action="store_true",
+        help="Use rotary positional embeddings or not",
+    )
+    group.add_argument(
+        "--rotary-position-embeddings-theta",
+        type=int,
+        default=10000,
+        help="Rotary positional embeddings theta value.",
+        dest="rope_theta",
+    )
+    group.add_argument(
+        "--rotary-percent",
+        type=float,
+        default=1.0,
+        help="Percent of rotary dimension to use, default 100%",
+    )
+    group.add_argument(
+        "--no-position-embedding",
+        action="store_false",
+        help="Disable position embedding.",
+        dest="add_position_embedding",
+    )
+    group.add_argument(
+        "--make-vocab-size-divisible-by",
+        type=int,
+        default=128,
+        help="Pad the vocab size to be divisible by this value."
+        "This is added for computational efficieny reasons.",
+    )
+    group.add_argument(
+        "--normalization",
+        type=str,
+        default="layernorm",
+        choices=["layernorm", "rmsnorm"],
+        help="Options for layer normalization type:  layernorm  rmsnorm",
+    )
+    group.add_argument(
+        "--layernorm-epsilon", type=float, default=1e-5, help="Layer norm epsilon."
+    )
+    group.add_argument(
+        "--apply-layernorm-1p",
+        action="store_true",
+        help="Adjust LayerNorm weights such that they are centered "
+        "around zero. This improves numerical stability.",
+    )
+    group.add_argument(
+        "--disable-mem-efficient-ln",
+        action="store_false",
+        help="Disable the memory-efficient fused LayerNorm optimization "
+        "introduced in https://github.com/NVIDIA/apex/pull/1715",
+        dest="mem_efficient_ln",
+    )
+    group.add_argument(
+        "--apply-residual-connection-post-layernorm",
+        action="store_true",
+        help="If set, use original BERT residula connection ordering.",
+    )
+    group.add_argument(
+        "--openai-gelu",
+        action="store_true",
+        help="Use OpenAIs GeLU implementation. This option"
+        "should not be used unless for backward compatibility"
+        "reasons.",
+    )
+    group.add_argument(
+        "--squared-relu",
+        action="store_true",
+        help="Use squared relu activation instead of default gelu",
+    )
+    group.add_argument(
+        "--swiglu",
+        action="store_true",
+        help="Use gated linear units and SiLU activation instead of default gelu",
+    )
+    group.add_argument(
+        "--onnx-safe",
+        type=bool,
+        required=False,
+        help="Use workarounds for known problems with Torch ONNX exporter",
+    )
+    group.add_argument(
+        "--bert-no-binary-head",
+        action="store_false",
+        help="Disable BERT binary head.",
+        dest="bert_binary_head",
+    )
+    group.add_argument(
+        "--num-experts-switch",
+        type=int,
+        default=None,
+        help="Number of Experts in Switch Transformer (None means no Switch)",
+    )
+    (
+        group.add_argument(
+            "--untie-embeddings-and-output-weights",
+            action="store_true",
+            help="Untie embeddings and output weights.",
+        ),
+    )
+    (
+        group.add_argument(
+            "--embedding-weights-in-fp32",
+            action="store_true",
+            help="Cast word embedding weights to fp32 before embedding fwd.",
+        ),
+    )
+    group.add_argument(
+        "--kill-switch-file",
+        type=str,
+        default=None,
+        help="Location of kill switch file. "
+        "If found will automatically exit the program at runtime.",
+    )
     return parser
 
 
 def _add_logging_args(parser):
-    group = parser.add_argument_group(title='logging')
-
-    group.add_argument('--log-params-norm', action='store_true',
-                       help='If set, calculate and log parameters norm.')
-    group.add_argument('--log-num-zeros-in-grad', action='store_true',
-                       help='If set, calculate and log the number of zeros in gradient.')
-    group.add_argument('--timing-log-level', type=int,
-                       default=0, choices=range(0,3),
-                       help='Granularity level to measure and report timing. '
-                       '   0: report only iteration time and make sure timing '
-                       '      does not introduce extra overhead.'
-                       '   1: report timing for operations that are executed '
-                       '      very limited times (basically once) during '
-                       '      each iteration (such as gradient all-reduce) '
-                       '   2: report timing for operations that migh be '
-                       '      executed numerous times during each iteration. '
-                       'Note that setting the level to 1 or 2 might '
-                       'cause increase in iteration time.')
-    group.add_argument('--no-barrier-with-level-1-timing', action='store_false',
-                       help='If not set, use barrier with level 1 time '
-                       'measurements. Note that this is up to the user '
-                       'to make sure calling barrier with their timers '
-                       'will not result in hangs. This can happen if for '
-                       'example the user adds a level 1 timer that is not '
-                       'called by all ranks.',
-                       dest='barrier_with_L1_time')
-    group.add_argument('--timing-log-option', type=str, default='minmax',
-                       choices=['max', 'minmax', 'all'],
-                       help='Options for logging timing:'
-                       '  max: report the max timing across all ranks'
-                       '  minmax: report min and max timings across all ranks'
-                       '  all: report timings of all ranks.')
-    group.add_argument('--tensorboard-log-interval', type=int, default=1,
-                       help='Report to tensorboard interval.')
-    group.add_argument('--tensorboard-queue-size', type=int, default=1000,
-                       help='Size of the tensorboard queue for pending events '
-                       'and summaries before one of the ‘add’ calls forces a '
-                       'flush to disk.')
-    group.add_argument('--log-timers-to-tensorboard', action='store_true',
-                       help='If set, write timers to tensorboard.')
-    group.add_argument('--log-batch-size-to-tensorboard', action='store_true',
-                       help='If set, write batch-size to tensorboard.')
-    group.add_argument('--no-log-learnig-rate-to-tensorboard',
-                       action='store_false',
-                       help='Disable learning rate logging to tensorboard.',
-                       dest='log_learning_rate_to_tensorboard')
-    group.add_argument('--no-log-loss-scale-to-tensorboard',
-                       action='store_false',
-                       help='Disable loss-scale logging to tensorboard.',
-                       dest='log_loss_scale_to_tensorboard')
-    group.add_argument('--log-validation-ppl-to-tensorboard',
-                       action='store_true',
-                       help='If set, write validation perplexity to '
-                       'tensorboard.')
-    group.add_argument('--log-optimizer-states-to-tensorboard',
-                       action='store_true',
-                       help='If set, write various optimizer states to '
-                       'tensorboard. This feature may consume extra GPU memory.')
-    group.add_argument('--log-memory-to-tensorboard',
-                       action='store_true',
-                       help='Enable memory logging to tensorboard.')
-    group.add_argument('--log-world-size-to-tensorboard',
-                       action='store_true',
-                       help='Enable world size logging to tensorboard.')
+    group = parser.add_argument_group(title="logging")
+
+    group.add_argument(
+        "--log-params-norm",
+        action="store_true",
+        help="If set, calculate and log parameters norm.",
+    )
+    group.add_argument(
+        "--log-num-zeros-in-grad",
+        action="store_true",
+        help="If set, calculate and log the number of zeros in gradient.",
+    )
+    group.add_argument(
+        "--timing-log-level",
+        type=int,
+        default=0,
+        choices=range(0, 3),
+        help="Granularity level to measure and report timing. "
+        "   0: report only iteration time and make sure timing "
+        "      does not introduce extra overhead."
+        "   1: report timing for operations that are executed "
+        "      very limited times (basically once) during "
+        "      each iteration (such as gradient all-reduce) "
+        "   2: report timing for operations that migh be "
+        "      executed numerous times during each iteration. "
+        "Note that setting the level to 1 or 2 might "
+        "cause increase in iteration time.",
+    )
+    group.add_argument(
+        "--no-barrier-with-level-1-timing",
+        action="store_false",
+        help="If not set, use barrier with level 1 time "
+        "measurements. Note that this is up to the user "
+        "to make sure calling barrier with their timers "
+        "will not result in hangs. This can happen if for "
+        "example the user adds a level 1 timer that is not "
+        "called by all ranks.",
+        dest="barrier_with_L1_time",
+    )
+    group.add_argument(
+        "--timing-log-option",
+        type=str,
+        default="minmax",
+        choices=["max", "minmax", "all"],
+        help="Options for logging timing:"
+        "  max: report the max timing across all ranks"
+        "  minmax: report min and max timings across all ranks"
+        "  all: report timings of all ranks.",
+    )
+    group.add_argument(
+        "--tensorboard-log-interval",
+        type=int,
+        default=1,
+        help="Report to tensorboard interval.",
+    )
+    group.add_argument(
+        "--tensorboard-queue-size",
+        type=int,
+        default=1000,
+        help="Size of the tensorboard queue for pending events "
+        "and summaries before one of the ‘add’ calls forces a "
+        "flush to disk.",
+    )
+    group.add_argument(
+        "--log-timers-to-tensorboard",
+        action="store_true",
+        help="If set, write timers to tensorboard.",
+    )
+    group.add_argument(
+        "--log-batch-size-to-tensorboard",
+        action="store_true",
+        help="If set, write batch-size to tensorboard.",
+    )
+    group.add_argument(
+        "--no-log-learnig-rate-to-tensorboard",
+        action="store_false",
+        help="Disable learning rate logging to tensorboard.",
+        dest="log_learning_rate_to_tensorboard",
+    )
+    group.add_argument(
+        "--no-log-loss-scale-to-tensorboard",
+        action="store_false",
+        help="Disable loss-scale logging to tensorboard.",
+        dest="log_loss_scale_to_tensorboard",
+    )
+    group.add_argument(
+        "--log-validation-ppl-to-tensorboard",
+        action="store_true",
+        help="If set, write validation perplexity to tensorboard.",
+    )
+    group.add_argument(
+        "--log-optimizer-states-to-tensorboard",
+        action="store_true",
+        help="If set, write various optimizer states to "
+        "tensorboard. This feature may consume extra GPU memory.",
+    )
+    group.add_argument(
+        "--log-memory-to-tensorboard",
+        action="store_true",
+        help="Enable memory logging to tensorboard.",
+    )
+    group.add_argument(
+        "--log-world-size-to-tensorboard",
+        action="store_true",
+        help="Enable world size logging to tensorboard.",
+    )
+    group.add_argument(
+        "--wandb-project",
+        type=str,
+        default="",
+        help="The wandb project name. Ignore wandb by default.",
+    )
+    group.add_argument(
+        "--wandb-exp-name", type=str, default="", help="The wandb experiment name."
+    )
+    group.add_argument(
+        "--wandb-save-dir",
+        type=str,
+        default="",
+        help="Path to save the wandb results locally.",
+    )
 
     return parser
 
 
 def _add_regularization_args(parser):
-    group = parser.add_argument_group(title='regularization')
-
-    group.add_argument('--attention-dropout', type=float, default=0.1,
-                       help='Post attention dropout probability.')
-    group.add_argument('--hidden-dropout', type=float, default=0.1,
-                       help='Dropout probability for hidden state transformer.')
-    group.add_argument('--weight-decay', type=float, default=0.01,
-                       help='Weight decay coefficient for L2 regularization.')
-    group.add_argument('--start-weight-decay', type=float,
-                       help='Initial weight decay coefficient for L2 regularization.')
-    group.add_argument('--end-weight-decay', type=float,
-                       help='End of run weight decay coefficient for L2 regularization.')
-    group.add_argument('--weight-decay-incr-style', type=str, default='constant',
-                       choices=['constant', 'linear', 'cosine'],
-                       help='Weight decay increment function.')
-    group.add_argument('--clip-grad', type=float, default=1.0,
-                       help='Gradient clipping based on global L2 norm.')
-    group.add_argument('--adam-beta1', type=float, default=0.9,
-                       help='First coefficient for computing running averages '
-                       'of gradient and its square')
-    group.add_argument('--adam-beta2', type=float, default=0.999,
-                       help='Second coefficient for computing running averages '
-                       'of gradient and its square')
-    group.add_argument('--adam-eps', type=float, default=1e-08,
-                       help='Term added to the denominator to improve'
-                       'numerical stability')
-    group.add_argument('--sgd-momentum', type=float, default=0.9,
-                       help='Momentum factor for sgd')
+    group = parser.add_argument_group(title="regularization")
+
+    group.add_argument(
+        "--attention-dropout",
+        type=float,
+        default=0.1,
+        help="Post attention dropout probability.",
+    )
+    group.add_argument(
+        "--hidden-dropout",
+        type=float,
+        default=0.1,
+        help="Dropout probability for hidden state transformer.",
+    )
+    group.add_argument(
+        "--weight-decay",
+        type=float,
+        default=0.01,
+        help="Weight decay coefficient for L2 regularization.",
+    )
+    group.add_argument(
+        "--start-weight-decay",
+        type=float,
+        help="Initial weight decay coefficient for L2 regularization.",
+    )
+    group.add_argument(
+        "--end-weight-decay",
+        type=float,
+        help="End of run weight decay coefficient for L2 regularization.",
+    )
+    group.add_argument(
+        "--weight-decay-incr-style",
+        type=str,
+        default="constant",
+        choices=["constant", "linear", "cosine"],
+        help="Weight decay increment function.",
+    )
+    group.add_argument(
+        "--clip-grad",
+        type=float,
+        default=1.0,
+        help="Gradient clipping based on global L2 norm.",
+    )
+    group.add_argument(
+        "--sophiag-beta1",
+        type=float,
+        default=0.9,
+        help="First coefficient for computing running averages "
+        "of gradient and its hessian",
+    )
+    group.add_argument(
+        "--sophiag-beta2",
+        type=float,
+        default=0.95,
+        help="Second coefficient for computing running averages "
+        "of gradient and its hessian",
+    )
+    group.add_argument(
+        "--sophiag-rho", type=float, default=0.01, help="SophiaG clipping threshhold"
+    )
+
+    group.add_argument(
+        "--adam-beta1",
+        type=float,
+        default=0.9,
+        help="First coefficient for computing running averages "
+        "of gradient and its square",
+    )
+    group.add_argument(
+        "--adam-beta2",
+        type=float,
+        default=0.999,
+        help="Second coefficient for computing running averages "
+        "of gradient and its square",
+    )
+    group.add_argument(
+        "--adam-eps",
+        type=float,
+        default=1e-08,
+        help="Term added to the denominator to improvenumerical stability",
+    )
+    group.add_argument(
+        "--dshampooadamw-max-preconditioner-dim",
+        type=int,
+        default=8192,
+        help="Max preconditioner dim",
+    )
+    group.add_argument(
+        "--dshampooadamw-precondition-freq",
+        type=int,
+        default=100,
+        help="dshampoo preconditioner frequency",
+    )
+    group.add_argument(
+        "--dshampooadamw-use-decoupled-weight-decay",
+        type=bool,
+        default=True,
+        help="dshampoo use decoupled weight decay",
+    )
+    group.add_argument(
+        "--dshampooadamw-eps", type=float, default=1e-12, help="dshampoo epsilon"
+    )
+    group.add_argument(
+        "--sgd-momentum", type=float, default=0.9, help="Momentum factor for sgd"
+    )
+    group.add_argument(
+        "--muon-momentum", type=float, default=0.95, help="Momentum factor for Muon "
+    )
+
+    group.add_argument(
+        "--muon-nesterov",
+        type=bool,
+        default=True,
+        help="Whether to use Nesterov in the internal SGD",
+    )
+
+    group.add_argument(
+        "--muon-ns-steps",
+        type=int,
+        default=6,
+        help="The number of Newton-Schulz iterations to run",
+    )
+
+    group.add_argument(
+        "--muonadamw-beta1", type=float, default=0.9, help="beta1 for internal adamw"
+    )
+
+    group.add_argument(
+        "--muonadamw-beta2", type=float, default=0.999, help="beta2 for internal adamw"
+    )
+
+    group.add_argument(
+        "--muonadamw-eps", type=float, default=1e-12, help="epsilon for internal adamw"
+    )
+
+    group.add_argument(
+        "--muonclip-t", type=float, default=100.0, help="qk threshold"
+    )
+
+    group.add_argument(
+        "--muonclip-alpha", type=float, default=0.5, help="split exponent for (Wq, Wk)"
+    )
 
     return parser
 
 
 def _add_training_args(parser):
-    group = parser.add_argument_group(title='training')
-
-    group.add_argument('--micro-batch-size', type=int, default=None,
-                       help='Batch size per model instance (local batch size). '
-                       'Global batch size is local batch size times data '
-                       'parallel size times number of micro batches.')
-    group.add_argument('--batch-size', type=int, default=None,
-                       help='Old batch size parameter, do not use. '
-                       'Use --micro-batch-size instead')
-    group.add_argument('--global-batch-size', type=int, default=None,
-                       help='Training batch size. If set, it should be a '
-                       'multiple of micro-batch-size times data-parallel-size. '
-                       'If this value is None, then '
-                       'use micro-batch-size * data-parallel-size as the '
-                       'global batch size. This choice will result in 1 for '
-                       'number of micro-batches.')
-    group.add_argument('--rampup-batch-size', nargs='*', default=None,
-                       help='Batch size ramp up with the following values:'
-                       '  --rampup-batch-size <start batch size> '
-                       '                      <batch size incerement> '
-                       '                      <ramp-up samples> '
-                       'For example:'
-                       '   --rampup-batch-size 16 8 300000 \ '
-                       '   --global-batch-size 1024'
-                       'will start with global batch size 16 and over '
-                       ' (1024 - 16) / 8 = 126 intervals will increase'
-                       'the batch size linearly to 1024. In each interval'
-                       'we will use approximately 300000 / 126 = 2380 samples.')
-    group.add_argument('--recompute-activations', action='store_true',
-                       help='recompute activation to allow for training '
-                       'with larger models, sequences, and batch sizes.')
-    group.add_argument('--recompute-granularity', type=str, default=None,
-                       choices=['full', 'selective'],
-                       help='Checkpoint activations to allow for training '
-                       'with larger models, sequences, and batch sizes. '
-                       'It is supported at two granularities 1) full: '
-                       'whole transformer layer is recomputed, '
-                       '2) selective: core attention part of the transformer '
-                       'layer is recomputed.')
-    group.add_argument('--distribute-saved-activations',
-                       action='store_true',
-                       help='If set, distribute recomputed activations '
-                       'across model parallel group.')
-    group.add_argument('--recompute-method', type=str, default=None,
-                       choices=['uniform', 'block'],
-                       help='1) uniform: uniformly divide the total number of '
-                       'Transformer layers and recompute the input activation of '
-                       'each divided chunk at specified granularity, '
-                       '2) recompute the input activations of only a set number of '
-                       'individual Transformer layers per pipeline stage and do the '
-                       'rest without any recomputing at specified granularity'
-                       'default) do not apply activations recompute to any layers')
-    group.add_argument('--recompute-num-layers', type=int, default=1,
-                       help='1) uniform: the number of Transformer layers in each '
-                       'uniformly divided recompute unit, '
-                       '2) block: the number of individual Transformer layers '
-                       'to recompute within each pipeline stage.')
+    group = parser.add_argument_group(title="training")
+
+    group.add_argument(
+        "--micro-batch-size",
+        type=int,
+        default=None,
+        help="Batch size per model instance (local batch size). "
+        "Global batch size is local batch size times data "
+        "parallel size times number of micro batches.",
+    )
+    group.add_argument(
+        "--batch-size",
+        type=int,
+        default=None,
+        help="Old batch size parameter, do not use. Use --micro-batch-size instead",
+    )
+    group.add_argument(
+        "--global-batch-size",
+        type=int,
+        default=None,
+        help="Training batch size. If set, it should be a "
+        "multiple of micro-batch-size times data-parallel-size. "
+        "If this value is None, then "
+        "use micro-batch-size * data-parallel-size as the "
+        "global batch size. This choice will result in 1 for "
+        "number of micro-batches.",
+    )
+    group.add_argument(
+        "--rampup-batch-size",
+        nargs="*",
+        default=None,
+        help="Batch size ramp up with the following values:"
+        "  --rampup-batch-size <start batch size> "
+        "                      <batch size incerement> "
+        "                      <ramp-up samples> "
+        "For example:"
+        "   --rampup-batch-size 16 8 300000 \\ "
+        "   --global-batch-size 1024"
+        "will start with global batch size 16 and over "
+        " (1024 - 16) / 8 = 126 intervals will increase"
+        "the batch size linearly to 1024. In each interval"
+        "we will use approximately 300000 / 126 = 2380 samples.",
+    )
+    group.add_argument(
+        "--recompute-activations",
+        action="store_true",
+        help="recompute activation to allow for training "
+        "with larger models, sequences, and batch sizes.",
+    )
+    group.add_argument(
+        "--recompute-granularity",
+        type=str,
+        default=None,
+        choices=["full", "selective"],
+        help="Checkpoint activations to allow for training "
+        "with larger models, sequences, and batch sizes. "
+        "It is supported at two granularities 1) full: "
+        "whole transformer layer is recomputed, "
+        "2) selective: core attention part of the transformer "
+        "layer is recomputed.",
+    )
+    group.add_argument(
+        "--distribute-saved-activations",
+        action="store_true",
+        help="If set, distribute recomputed activations across model parallel group.",
+    )
+    group.add_argument(
+        "--recompute-method",
+        type=str,
+        default=None,
+        choices=["uniform", "block"],
+        help="1) uniform: uniformly divide the total number of "
+        "Transformer layers and recompute the input activation of "
+        "each divided chunk at specified granularity, "
+        "2) recompute the input activations of only a set number of "
+        "individual Transformer layers per pipeline stage and do the "
+        "rest without any recomputing at specified granularity"
+        "default) do not apply activations recompute to any layers",
+    )
+    group.add_argument(
+        "--recompute-num-layers",
+        type=int,
+        default=1,
+        help="1) uniform: the number of Transformer layers in each "
+        "uniformly divided recompute unit, "
+        "2) block: the number of individual Transformer layers "
+        "to recompute within each pipeline stage.",
+    )
+    group.add_argument(
+        "--enable-zbh1-pipeline",
+        action="store_true",
+        help="Activate zero bubble pipeline parallelism schedule method",
+    )
+    group.add_argument(
+        "--enable-zbh1-exact-semantics",
+        action="store_true",
+        help="Use an exact semantics for zbh1 schedule, might be slower than the default.",
+    )
 
     # deprecated
     # HACK: added back arguments because DeepSpeed still relies on the old
     # activation checkpointing mechanism.
-    group.add_argument('--checkpoint-activations', action='store_true',
-                       help='Checkpoint activation to allow for training '
-                       'with larger models, sequences, and batch sizes.')
-    group.add_argument('--distribute-checkpointed-activations',
-                       action='store_true',
-                       help='If set, distribute checkpointed activations '
-                       'across model parallel group.')
-    group.add_argument('--checkpoint-num-layers', type=int, default=1,
-                       help='chunk size (number of layers) for checkpointing.')
-    group.add_argument('--train-iters', type=int, default=None,
-                       help='Total number of iterations to train over all '
-                       'training runs. Note that either train-iters or '
-                       'train-samples should be provided.')
-    group.add_argument('--train-samples', type=int, default=None,
-                       help='Total number of samples to train over all '
-                       'training runs. Note that either train-iters or '
-                       'train-samples should be provided.')
-    group.add_argument('--train-tokens', type=int, default=None,
-                       help='Total number of tokens to train over all '
-                       'training runs.')
-    group.add_argument('--random-ltd',
-                       action='store_true',
-                       help='enable random layer token drop')    
-    group.add_argument('--log-interval', type=int, default=100,
-                       help='Report loss and timing interval.')
-    group.add_argument('--exit-interval', type=int, default=None,
-                       help='Exit the program after the iteration is divisible '
-                       'by this value.')
-    group.add_argument('--exit-duration-in-mins', type=int, default=None,
-                       help='Exit the program after this many minutes.')
-    group.add_argument('--exit-signal-handler', action='store_true',
-                       help='Dynamically save the checkpoint and shutdown the '
-                       'training if SIGTERM is received')
-    group.add_argument('--tensorboard-dir', type=str, default=None,
-                       help='Write TensorBoard logs to this directory.')
-    group.add_argument('--no-masked-softmax-fusion',
-                       action='store_false',
-                       help='Disable fusion of query_key_value scaling, '
-                       'masking, and softmax.',
-                       dest='masked_softmax_fusion')
-    group.add_argument('--no-bias-gelu-fusion', action='store_false',
-                       help='Disable bias and gelu fusion.',
-                       dest='bias_gelu_fusion')
-    group.add_argument('--no-bias-dropout-fusion', action='store_false',
-                       help='Disable bias and dropout fusion.',
-                       dest='bias_dropout_fusion')
-    group.add_argument('--disable-moe-token-dropping', action='store_false',
-                       help='Disable MoE expert token dropping.',
-                       dest='moe_token_dropping')
-    group.add_argument('--moe-train-capacity-factor', type=float, default=1.0,
-                       help='The capacity of the MoE expert at training time')
-    group.add_argument('--moe-eval-capacity-factor', type=float, default=1.0,
-                       help='The capacity of the MoE expert at eval time.')
-    group.add_argument('--moe-min-capacity', type=int, default=4,
-                       help='The minimum capacity per MoE expert regardless of the capacity_factor.')
-    group.add_argument('--moe-loss-coeff', type=float, default=0.1,
-                       help='Scaling coefficient for adding MoE loss to model loss')
-    group.add_argument('--create-moe-param-group', action='store_true',
-                       help='Create separate groups for MoE params.'
-                       'This is necessary for techniques like ZeRO.')
-    group.add_argument('--disable-moe-top2-2nd-expert-sampling', action='store_false',
-                       help='Disable MoE top2 sampling of the 2nd expert. Instead of sampling, use argmax.',
-                       dest='moe_top2_2nd_expert_sampling')
-    group.add_argument('--use-flash-attn', '--use-flash-attn-v1', dest='use_flash_attn_v1', action='store_true',
-                       help='use first version FlashAttention implementation of attention. '
-                       'https://arxiv.org/abs/2205.14135')
-    group.add_argument('--use-flash-attn-v2', action='store_true',
-                       help='use second version FlashAttention implementation of attention. '
-                       'https://arxiv.org/abs/2307.08691')
-    group.add_argument('--use-flash-attn-triton', action='store_true',
-                       help='use FlashAttention implementation of attention using Triton.')
-    group.add_argument('--disable-bias-linear', action='store_false',
-                       help='Disable bias in the linear layers',
-                       dest='add_bias_linear')
-    group.add_argument('--optimizer', type=str, default='adam',
-                       choices=['adam', 'sgd'],
-                       help='Optimizer function')
-    group.add_argument('--dataloader-type', type=str, default=None,
-                       choices=['single', 'cyclic'],
-                       help='Single pass vs multiple pass data loader')
-    group.add_argument('--ds-inference', action='store_true',
-                       help='DeepSpeed inference engine being used')
-    group.add_argument('--cpu-optimizer', action='store_true',
-                       help='Run optimizer on CPU')
-    group.add_argument('--cpu_torch_adam', action='store_true',
-                       help='Use Torch Adam as optimizer on CPU.')
-    group.add_argument('--ds_fused_adam', action='store_true',
-                       help='Use DeepSpeed FusedAdam as optimizer.')
-    group.add_argument('--no-pipeline-parallel', action='store_true',
-                       help='Disable pipeline parallelism')
-    group.add_argument('--use-tutel', action='store_true',
-                       help='Use Tutel optimization for MoE')
-    group.add_argument('--inference', action='store_true',
-                       help='Very basic inference mode: not allocating optim/lr - requires ZERO_STAGE=0')
-
-    group.add_argument('--no-async-tensor-model-parallel-allreduce',
-                       action='store_false',
-                       help='Disable asynchronous execution of '
-                       'tensor-model-parallel all-reduce with weight '
-                       'gradient compuation of a column-linear layer.',
-                       dest='async_tensor_model_parallel_allreduce')
-    group.add_argument('--no-persist-layer-norm', action='store_true',
-                       help='Disable using persistent fused layer norm kernel. '
-                       'This kernel supports only a set of hidden sizes. Please '
-                       'check persist_ln_hidden_sizes if your hidden '
-                       'size is supported.')
-    group.add_argument('--sequence-parallel', action='store_true',
-                       help='Enable Megatron-LM\'s sequence parallel optimization.')
-    group.add_argument('--ds-sequence-parallel-size', type=int, default=1,
-                       help='Enable DeepSpeed\'s sequence parallel. Cannot be combined with "--sequence-parallel", which enables Megatron-LM\'s sequence parallel.')
-    group.add_argument('--force-ds-sequence-parallel', action='store_true',
-                       help='use DeepSpeed sequence parallelism regardless of sequence parallel size.')
-    group.add_argument('--no-gradient-accumulation-fusion',
-                       action='store_false',
-                       help='Disable fusing gradient accumulation to weight '
-                       'gradient computation of linear layers',
-                       dest='gradient_accumulation_fusion')
-    group.add_argument('--use-dataset-only', type=bool, required=False, default=False,
-                       help='If set to True, only use the megatron dataset for external trainer ')
-    group.add_argument('--profile', action='store_true', help='Enable Torch Profiler')
+    group.add_argument(
+        "--checkpoint-activations",
+        action="store_true",
+        help="Checkpoint activation to allow for training "
+        "with larger models, sequences, and batch sizes.",
+    )
+    group.add_argument(
+        "--distribute-checkpointed-activations",
+        action="store_true",
+        help="If set, distribute checkpointed activations across model parallel group.",
+    )
+    group.add_argument(
+        "--checkpoint-num-layers",
+        type=int,
+        default=1,
+        help="chunk size (number of layers) for checkpointing.",
+    )
+    group.add_argument(
+        "--train-iters",
+        type=int,
+        default=None,
+        help="Total number of iterations to train over all "
+        "training runs. Note that either train-iters or "
+        "train-samples should be provided.",
+    )
+    group.add_argument(
+        "--train-samples",
+        type=int,
+        default=None,
+        help="Total number of samples to train over all "
+        "training runs. Note that either train-iters or "
+        "train-samples should be provided.",
+    )
+    group.add_argument(
+        "--train-tokens",
+        type=int,
+        default=None,
+        help="Total number of tokens to train over all training runs.",
+    )
+    group.add_argument(
+        "--random-ltd", action="store_true", help="enable random layer token drop"
+    )
+    group.add_argument(
+        "--log-interval", type=int, default=100, help="Report loss and timing interval."
+    )
+    group.add_argument(
+        "--exit-interval",
+        type=int,
+        default=None,
+        help="Exit the program after the iteration is divisible by this value.",
+    )
+    group.add_argument(
+        "--exit-duration-in-mins",
+        type=int,
+        default=None,
+        help="Exit the program after this many minutes.",
+    )
+    group.add_argument(
+        "--exit-signal-handler",
+        action="store_true",
+        help="Dynamically save the checkpoint and shutdown the "
+        "training if SIGTERM is received",
+    )
+    group.add_argument(
+        "--tensorboard-dir",
+        type=str,
+        default=None,
+        help="Write TensorBoard logs to this directory.",
+    )
+    group.add_argument(
+        "--trace-dir",
+        type=str,
+        default="./trace/",
+        help="Write trace logs to this directory.",
+    )
+    group.add_argument(
+        "--no-masked-softmax-fusion",
+        action="store_false",
+        help="Disable fusion of query_key_value scaling, masking, and softmax.",
+        dest="masked_softmax_fusion",
+    )
+    group.add_argument(
+        "--no-bias-gelu-fusion",
+        action="store_false",
+        help="Disable bias and gelu fusion.",
+        dest="bias_gelu_fusion",
+    )
+    group.add_argument(
+        "--no-bias-dropout-fusion",
+        action="store_false",
+        help="Disable bias and dropout fusion.",
+        dest="bias_dropout_fusion",
+    )
+    group.add_argument(
+        "--disable-moe-token-dropping",
+        action="store_false",
+        help="Disable MoE expert token dropping.",
+        dest="moe_token_dropping",
+    )
+    group.add_argument(
+        "--moe-train-capacity-factor",
+        type=float,
+        default=1.0,
+        help="The capacity of the MoE expert at training time",
+    )
+    group.add_argument(
+        "--moe-eval-capacity-factor",
+        type=float,
+        default=1.0,
+        help="The capacity of the MoE expert at eval time.",
+    )
+    group.add_argument(
+        "--moe-min-capacity",
+        type=int,
+        default=4,
+        help="The minimum capacity per MoE expert regardless of the capacity_factor.",
+    )
+    group.add_argument(
+        "--moe-loss-coeff",
+        type=float,
+        default=0.1,
+        help="Scaling coefficient for adding MoE loss to model loss",
+    )
+    group.add_argument(
+        "--create-moe-param-group",
+        action="store_true",
+        help="Create separate groups for MoE params."
+        "This is necessary for techniques like ZeRO.",
+    )
+    group.add_argument(
+        "--disable-moe-top2-2nd-expert-sampling",
+        action="store_false",
+        help="Disable MoE top2 sampling of the 2nd expert. Instead of sampling, use argmax.",
+        dest="moe_top2_2nd_expert_sampling",
+    )
+    group.add_argument(
+        "--use-flash-attn",
+        "--use-flash-attn-v1",
+        dest="use_flash_attn_v1",
+        action="store_true",
+        help="use first version FlashAttention implementation of attention. "
+        "https://arxiv.org/abs/2205.14135",
+    )
+    group.add_argument(
+        "--use-flash-attn-v2",
+        action="store_true",
+        help="use second version FlashAttention implementation of attention. "
+        "https://arxiv.org/abs/2307.08691",
+    )
+    group.add_argument(
+        "--use-flash-attn-triton",
+        action="store_true",
+        help="use FlashAttention implementation of attention using Triton.",
+    )
+    group.add_argument(
+        "--use-flash-attn-builder",
+        action="store_true",
+        help="use FlashAttention op builder.",
+    )
+    group.add_argument(
+        "--disable-bias-linear",
+        action="store_false",
+        help="Disable bias in the linear layers",
+        dest="add_bias_linear",
+    )
+    group.add_argument(
+        "--optimizer",
+        type=str,
+        default="adam",
+        choices=[
+            "adam",
+            "adam8bit",
+            "adamw",
+            "adamwschedulefree",
+            "apex.adam",
+            "apex.sgd",
+            "ds.fusedlamb",
+            "ds.onebitlamb",
+            "galoreadamw",
+            "galoreadamw8bit",
+            "galoreadamw8bitperlayer",
+            "ipex.fusedlamb",
+            "ipex.lamb",
+            "dshampooadamw",
+            "sgdschedulefree",
+            "sophiag",
+            "adopt",
+            "muon",
+            "muonclip",
+        ],
+        help="Optimizer function",
+    )
+    group.add_argument(
+        "--schedulefree-for-each",
+        action="store_true",
+        help="""
+        Use a foreach-backed implementation of the schedulefree optimizers.
+        Should be significantly faster,
+        but will have a higher peak memory usage.
+        """,
+    )
+    group.add_argument(
+        "--dataloader-type",
+        type=str,
+        default=None,
+        choices=["single", "cyclic"],
+        help="Single pass vs multiple pass data loader",
+    )
+    group.add_argument(
+        "--ds-inference",
+        action="store_true",
+        help="DeepSpeed inference engine being used",
+    )
+    group.add_argument(
+        "--cpu-optimizer", action="store_true", help="Run optimizer on CPU"
+    )
+    group.add_argument(
+        "--cpu_torch_adam",
+        action="store_true",
+        help="Use Torch Adam as optimizer on CPU.",
+    )
+    group.add_argument(
+        "--ds_fused_adam",
+        action="store_true",
+        help="Use DeepSpeed FusedAdam as optimizer.",
+    )
+    group.add_argument(
+        "--no-pipeline-parallel",
+        action="store_true",
+        help="Disable pipeline parallelism",
+    )
+    group.add_argument(
+        "--use-tutel", action="store_true", help="Use Tutel optimization for MoE"
+    )
+    group.add_argument(
+        "--inference",
+        action="store_true",
+        help="Very basic inference mode: not allocating optim/lr - requires ZERO_STAGE=0",
+    )
+
+    group.add_argument(
+        "--no-async-tensor-model-parallel-allreduce",
+        action="store_false",
+        help="Disable asynchronous execution of "
+        "tensor-model-parallel all-reduce with weight "
+        "gradient compuation of a column-linear layer.",
+        dest="async_tensor_model_parallel_allreduce",
+    )
+    group.add_argument(
+        "--no-persist-layer-norm",
+        action="store_true",
+        help="Disable using persistent fused layer norm kernel. "
+        "This kernel supports only a set of hidden sizes. Please "
+        "check persist_ln_hidden_sizes if your hidden "
+        "size is supported.",
+    )
+    group.add_argument(
+        "--sequence-parallel",
+        action="store_true",
+        help="Enable Megatron-LM's sequence parallel optimization.",
+    )
+    group.add_argument(
+        "--ds-sequence-parallel-size",
+        type=int,
+        default=1,
+        help="Enable DeepSpeed's sequence parallel. Cannot be combined with \"--sequence-parallel\", which enables Megatron-LM's sequence parallel.",
+    )
+    group.add_argument(
+        "--force-ds-sequence-parallel",
+        action="store_true",
+        help="use DeepSpeed sequence parallelism regardless of sequence parallel size.",
+    )
+    group.add_argument(
+        "--no-gradient-accumulation-fusion",
+        action="store_false",
+        help="Disable fusing gradient accumulation to weight "
+        "gradient computation of linear layers",
+        dest="gradient_accumulation_fusion",
+    )
+    group.add_argument(
+        "--use-dataset-only",
+        type=bool,
+        required=False,
+        default=False,
+        help="If set to True, only use the megatron dataset for external trainer ",
+    )
+    # group.add_argument('--profile', action='store_true', help='Enable Torch Profiler')
+    group.add_argument(
+        "--train-range-to-skip",
+        action="extend",
+        nargs="+",
+        type=int,
+        help=("Range of iters to skip during training. Must be in pairs."),
+    )
+    group.add_argument(
+        "--train-iters-to-skip",
+        action="extend",
+        nargs="+",
+        type=str,
+        help=(
+            "Specific train iterations to skip when training. "
+            "Load the data and just perform a noop."
+        ),
+    )
     return parser
 
 
 def _add_initialization_args(parser):
-    group = parser.add_argument_group(title='initialization')
-
-    group.add_argument('--seed', type=int, default=1234,
-                       help='Random seed used for python, numpy, '
-                       'pytorch, and cuda.')
-    group.add_argument('--data-parallel-random-init', action='store_true',
-                       help='Enable random initialization of params '
-                       'across data parallel ranks')
-    group.add_argument('--init-method-std', type=float, default=0.02,
-                       help='Standard deviation of the zero mean normal '
-                       'distribution used for weight initialization.')
-    group.add_argument('--init-method-xavier-uniform', action='store_true',
-                       help='Enable Xavier uniform parameter initialization')
+    group = parser.add_argument_group(title="initialization")
+
+    group.add_argument(
+        "--seed",
+        type=int,
+        default=1234,
+        help="Random seed used for python, numpy, pytorch, and cuda.",
+    )
+    group.add_argument(
+        "--data-parallel-random-init",
+        action="store_true",
+        help="Enable random initialization of params across data parallel ranks",
+    )
+    group.add_argument(
+        "--init-method-std",
+        type=float,
+        default=0.02,
+        help="Standard deviation of the zero mean normal "
+        "distribution used for weight initialization.",
+    )
+    # from emb_init branch
+    group.add_argument(
+        "--adjust-word-embedding-init",
+        action="store_true",
+        help="Use different initialization for word embedding weights",
+    )
+
+    group.add_argument(
+        "--word-embedding-init-std",
+        type=float,
+        default=0.02,
+        help="Standard deviation of the zero mean normal "
+        "distribution used for word embedding weight initialization.",
+    )
+    group.add_argument(
+        "--init-method-xavier-uniform",
+        action="store_true",
+        help="Enable Xavier uniform parameter initialization",
+    )
 
     return parser
 
 
 def _add_learning_rate_args(parser):
-    group = parser.add_argument_group(title='learning rate')
-
-    group.add_argument('--lr', type=float, default=None,
-                       help='Initial learning rate. Depending on decay style '
-                       'and initial warmup, the learing rate at each '
-                       'iteration would be different.')
-    group.add_argument('--lr-decay-style', type=str, default='linear',
-                       choices=['constant', 'linear', 'cosine', 'inverse-square-root'],
-                       help='Learning rate decay function.')
-    group.add_argument('--lr-decay-iters', type=int, default=None,
-                       help='number of iterations to decay learning rate over,'
-                       ' If None defaults to `--train-iters`')
-    group.add_argument('--lr-decay-samples', type=int, default=None,
-                       help='number of samples to decay learning rate over,'
-                       ' If None defaults to `--train-samples`')
-    group.add_argument('--lr-decay-tokens', type=int, default=None,
-                       help='number of tokens to decay learning rate over,'
-                       ' If not None will override iter/sample-based decay')
-    group.add_argument('--lr-warmup-fraction', type=float, default=None,
-                       help='fraction of lr-warmup-(iters/samples) to use '
-                       'for warmup (as a float)')
-    group.add_argument('--lr-warmup-iters', type=int, default=0,
-                       help='number of iterations to linearly warmup '
-                       'learning rate over.')
-    group.add_argument('--lr-warmup-samples', type=int, default=0,
-                       help='number of samples to linearly warmup '
-                       'learning rate over.')
-    group.add_argument('--lr-warmup-tokens', type=int, default=None,
-                       help='number of tokens to linearly warmup '
-                       'learning rate over.')
-    group.add_argument('--warmup', type=int, default=None,
-                       help='Old lr warmup argument, do not use. Use one of the'
-                       '--lr-warmup-* arguments above')
-    group.add_argument('--min-lr', type=float, default=0.0,
-                       help='Minumum value for learning rate. The scheduler'
-                       'clip values below this threshold.')
-    group.add_argument('--override-opt_param-scheduler', action='store_true',
-                       help='Reset the values of the scheduler (learning rate,'
-                       'warmup iterations, minimum learning rate, maximum '
-                       'number of iterations, and decay style from input '
-                       'arguments and ignore values from checkpoints. Note'
-                       'that all the above values will be reset.')
-    group.add_argument('--use-checkpoint-opt_param-scheduler', action='store_true',
-                       help='Use checkpoint to set the values of the scheduler '
-                       '(learning rate, warmup iterations, minimum learning '
-                       'rate, maximum number of iterations, and decay style '
-                       'from checkpoint and ignore input arguments.')
+    group = parser.add_argument_group(title="learning rate")
+
+    group.add_argument(
+        "--lr",
+        type=float,
+        default=None,
+        help="Initial learning rate. Depending on decay style "
+        "and initial warmup, the learing rate at each "
+        "iteration would be different.",
+    )
+    group.add_argument(
+        "--lr-decay-style",
+        type=str,
+        default="linear",
+        choices=[
+            "constant",
+            "linear",
+            "cosine",
+            "inverse-square-root",
+            "infinite-cosine",
+            "infinite-inv-square-root",
+        ],
+        help="Learning rate decay function.",
+    )
+    group.add_argument(
+        "--lr-decay-iters",
+        type=int,
+        default=None,
+        help="number of iterations to decay learning rate over,"
+        " If None defaults to `--train-iters`",
+    )
+    group.add_argument(
+        "--lr-decay-samples",
+        type=int,
+        default=None,
+        help="number of samples to decay learning rate over,"
+        " If None defaults to `--train-samples`",
+    )
+    group.add_argument(
+        "--lr-decay-tokens",
+        type=int,
+        default=None,
+        help="number of tokens to decay learning rate over,"
+        " If not None will override iter/sample-based decay",
+    )
+    group.add_argument(
+        "--lr-warmup-fraction",
+        type=float,
+        default=None,
+        help="fraction of lr-warmup-(iters/samples) to use for warmup (as a float)",
+    )
+    group.add_argument(
+        "--lr-warmup-iters",
+        type=int,
+        default=0,
+        help="number of iterations to linearly warmup learning rate over.",
+    )
+    group.add_argument(
+        "--lr-warmup-samples",
+        type=int,
+        default=0,
+        help="number of samples to linearly warmup learning rate over.",
+    )
+    group.add_argument(
+        "--lr-warmup-tokens",
+        type=int,
+        default=None,
+        help="number of tokens to linearly warmup learning rate over.",
+    )
+    group.add_argument(
+        "--lr-constant-tokens",
+        type=int,
+        default=None,
+        help="number of tokens to keep constant learning rate over.",
+    )
+
+    group.add_argument(
+        "--lr-constant-fraction",
+        type=float,
+        default=0.001,
+        help="fraction of lr-constant-(iters/samples) to use "
+        "for infinite schedulers constant phase (as a float)",
+    )
+
+    group.add_argument(
+        "--lr-cooldown-tokens",
+        type=int,
+        default=None,
+        help="number of tokens to cooldown learning rate over for infinite schedulers,"
+        " If not None will override iter/sample-based decay",
+    )
+
+    group.add_argument(
+        "--lr-cooldown-fraction",
+        type=float,
+        default=0.65,
+        help="fraction -(iters/samples) to use for cooldown phase for infinite schedulers (as a float)",
+    )
+
+    group.add_argument(
+        "--lr_constant_plus_cooldown",
+        action="store_true",
+        help="Perform cooldown for constant decay style",
+    )
+
+    group.add_argument(
+        "--lr_constant_plus_cooldown_frac",
+        type=float,
+        default=0.05,
+        help="Cooldown frction for constant decay style",
+    )
+
+    group.add_argument(
+        "--lr-finder",
+        action="store_true",
+        help="Run learning rate finder mode for 10% of training data then exit",
+    )
+    group.add_argument(
+        "--warmup",
+        type=int,
+        default=None,
+        help="Old lr warmup argument, do not use. Use one of the"
+        "--lr-warmup-* arguments above",
+    )
+    group.add_argument(
+        "--min-lr",
+        type=float,
+        default=0.0,
+        help="Minumum value for learning rate. The scheduler"
+        "clip values below this threshold.",
+    )
+    group.add_argument(
+        "--constant-lr",
+        type=float,
+        default=0.00011,
+        help="Constant value for learning rate",
+    )
+
+    group.add_argument(
+        "--timescale",
+        type=float,
+        default=10.0,
+        help="Timescale for the steepness of the inverse square root cooldown",
+    )
+    group.add_argument(
+        "--override-opt_param-scheduler",
+        action="store_true",
+        help="Reset the values of the scheduler (learning rate,"
+        "warmup iterations, minimum learning rate, maximum "
+        "number of iterations, and decay style from input "
+        "arguments and ignore values from checkpoints. Note"
+        "that all the above values will be reset.",
+    )
+    group.add_argument(
+        "--use-checkpoint-opt_param-scheduler",
+        action="store_true",
+        help="Use checkpoint to set the values of the scheduler "
+        "(learning rate, warmup iterations, minimum learning "
+        "rate, maximum number of iterations, and decay style "
+        "from checkpoint and ignore input arguments.",
+    )
 
     return parser
 
 
 def _add_checkpointing_args(parser):
-    group = parser.add_argument_group(title='checkpointing')
-
-    group.add_argument('--save', type=str, default=None,
-                       help='Output directory to save checkpoints to.')
-    group.add_argument('--save-interval', type=int, default=None,
-                       help='Number of iterations between checkpoint saves.')
-    group.add_argument('--no-save-optim', action='store_true', default=None,
-                       help='Do not save current optimizer.')
-    group.add_argument('--no-save-rng', action='store_true', default=None,
-                       help='Do not save current rng state.')
-    group.add_argument('--load', type=str, default=None,
-                       help='Directory containing a model checkpoint.')
-    group.add_argument('--load-tag', type=str, default=None,
-                       help='Specific checkpoint tag to load. Ignores latest.')
-    group.add_argument('--no-load-optim', action='store_true', default=None,
-                       help='Do not load optimizer when loading checkpoint.')
-    group.add_argument('--no-load-rng', action='store_true', default=None,
-                       help='Do not load rng state when loading checkpoint.')
-    group.add_argument('--no-load-lr-state', action='store_true',
-                       help='Do not load lr state when loading checkpoint.')   
-    group.add_argument('--finetune', action='store_true',
-                       help='Load model for finetuning. Do not load optimizer '
-                       'or rng state from checkpoint and set iteration to 0. '
-                       'Assumed when loading a release checkpoint.')
-    group.add_argument('--no-initialization', action='store_false',
-                       help='Do not perform initialization when building model, '
-                       'can reduce startup time when definitely loading from a '
-                       'checkpoint',
-                       dest='perform_initialization')
-    group.add_argument('--use-checkpoint-args', action='store_true',
-                       help='Override any command line arguments with arguments '
-                       'from the checkpoint')
-    group.add_argument('--exit-on-missing-checkpoint', action='store_true',
-                       help="If '--load' is set, but checkpoint is not found "
-                       "(e.g., path typo), then exit instead of random "
-                       "initialization.")
-    group.add_argument('--universal-checkpoint', action='store_true',
-                        help='Loading a universal format checkpoint.')
+    group = parser.add_argument_group(title="checkpointing")
+
+    group.add_argument(
+        "--save",
+        type=str,
+        default=None,
+        help="Output directory to save checkpoints to.",
+    )
+    group.add_argument(
+        "--save-interval",
+        type=int,
+        default=None,
+        help="Number of iterations between checkpoint saves.",
+    )
+    group.add_argument(
+        "--no-save-optim",
+        action="store_true",
+        default=None,
+        help="Do not save current optimizer.",
+    )
+    group.add_argument(
+        "--no-save-rng",
+        action="store_true",
+        default=None,
+        help="Do not save current rng state.",
+    )
+    group.add_argument(
+        "--load",
+        type=str,
+        default=None,
+        help="Directory containing a model checkpoint.",
+    )
+    group.add_argument(
+        "--load-tag",
+        type=str,
+        default=None,
+        help="Specific checkpoint tag to load. Ignores latest.",
+    )
+    group.add_argument(
+        "--no-load-optim",
+        action="store_true",
+        default=None,
+        help="Do not load optimizer when loading checkpoint.",
+    )
+    group.add_argument(
+        "--no-load-rng",
+        action="store_true",
+        default=None,
+        help="Do not load rng state when loading checkpoint.",
+    )
+    group.add_argument(
+        "--no-load-lr-state",
+        action="store_true",
+        help="Do not load lr state when loading checkpoint.",
+    )
+    group.add_argument(
+        "--finetune",
+        action="store_true",
+        help="Load model for finetuning. Do not load optimizer "
+        "or rng state from checkpoint and set iteration to 0. "
+        "Assumed when loading a release checkpoint.",
+    )
+    group.add_argument(
+        "--no-initialization",
+        action="store_false",
+        help="Do not perform initialization when building model, "
+        "can reduce startup time when definitely loading from a "
+        "checkpoint",
+        dest="perform_initialization",
+    )
+    group.add_argument(
+        "--use-checkpoint-args",
+        action="store_true",
+        help="Override any command line arguments with arguments from the checkpoint",
+    )
+    group.add_argument(
+        "--exit-on-missing-checkpoint",
+        action="store_true",
+        help="If '--load' is set, but checkpoint is not found "
+        "(e.g., path typo), then exit instead of random "
+        "initialization.",
+    )
+    group.add_argument(
+        "--universal-checkpoint",
+        action="store_true",
+        help="Loading a universal format checkpoint.",
+    )
     return parser
 
 
 def _add_mixed_precision_args(parser):
-    group = parser.add_argument_group(title='mixed precision')
-
-    group.add_argument('--fp16', action='store_true',
-                       help='Run model in fp16 mode.')
-    group.add_argument('--bf16', action='store_true',
-                       help='Run model in bfloat16 mode.')
-    group.add_argument('--loss-scale', type=float, default=None,
-                       help='Static loss scaling, positive power of 2 '
-                       'values can improve fp16 convergence. If None, dynamic'
-                       'loss scaling is used.')
-    group.add_argument('--initial-loss-scale', type=float, default=2**32,
-                       help='Initial loss-scale for dynamic loss scaling.')
-    group.add_argument('--min-loss-scale', type=float, default=1.0,
-                       help='Minimum loss scale for dynamic loss scale.')
-    group.add_argument('--loss-scale-window', type=float, default=1000,
-                       help='Window over which to raise/lower dynamic scale.')
-    group.add_argument('--hysteresis', type=int, default=2,
-                       help='hysteresis for dynamic loss scaling')
-    group.add_argument('--fp32-residual-connection', action='store_true',
-                       help='Move residual connections to fp32.')
-    group.add_argument('--no-query-key-layer-scaling', action='store_false',
-                       help='Do not scale Q * K^T by 1 / layer-number.',
-                       dest='apply_query_key_layer_scaling')
-    group.add_argument('--attention-softmax-in-fp32', action='store_true',
-                       help='Run attention masking and softmax in fp32. '
-                       'This flag is ignored unless '
-                       '--no-query-key-layer-scaling is specified.')
-    group.add_argument('--accumulate-allreduce-grads-in-fp32',
-                       action='store_true',
-                       help='Gradient accumulation and all-reduce in fp32.')
-    group.add_argument('--fp16-lm-cross-entropy', action='store_true',
-                       help='Move the cross entropy unreduced loss calculation'
-                       'for lm head to fp16.')
+    group = parser.add_argument_group(title="mixed precision")
+
+    group.add_argument("--fp16", action="store_true", help="Run model in fp16 mode.")
+    group.add_argument(
+        "--bf16", action="store_true", help="Run model in bfloat16 mode."
+    )
+    group.add_argument(
+        "--loss-scale",
+        type=float,
+        default=None,
+        help="Static loss scaling, positive power of 2 "
+        "values can improve fp16 convergence. If None, dynamic"
+        "loss scaling is used.",
+    )
+    group.add_argument(
+        "--initial-loss-scale",
+        type=float,
+        default=2**32,
+        help="Initial loss-scale for dynamic loss scaling.",
+    )
+    group.add_argument(
+        "--min-loss-scale",
+        type=float,
+        default=1.0,
+        help="Minimum loss scale for dynamic loss scale.",
+    )
+    group.add_argument(
+        "--loss-scale-window",
+        type=float,
+        default=1000,
+        help="Window over which to raise/lower dynamic scale.",
+    )
+    group.add_argument(
+        "--hysteresis", type=int, default=2, help="hysteresis for dynamic loss scaling"
+    )
+    group.add_argument(
+        "--fp32-residual-connection",
+        action="store_true",
+        help="Move residual connections to fp32.",
+    )
+    group.add_argument(
+        "--no-query-key-layer-scaling",
+        action="store_false",
+        help="Do not scale Q * K^T by 1 / layer-number.",
+        dest="apply_query_key_layer_scaling",
+    )
+    group.add_argument(
+        "--attention-softmax-in-fp32",
+        action="store_true",
+        help="Run attention masking and softmax in fp32. "
+        "This flag is ignored unless "
+        "--no-query-key-layer-scaling is specified.",
+    )
+    group.add_argument(
+        "--accumulate-allreduce-grads-in-fp32",
+        action="store_true",
+        help="Gradient accumulation and all-reduce in fp32.",
+    )
+    group.add_argument(
+        "--fp16-lm-cross-entropy",
+        action="store_true",
+        help="Move the cross entropy unreduced loss calculationfor lm head to fp16.",
+    )
 
     return parser
 
 
 def _add_distributed_args(parser):
-    group = parser.add_argument_group(title='distributed')
-
-    group.add_argument('--tensor-model-parallel-size', type=int, default=1,
-                       help='Degree of tensor model parallelism.')
-    group.add_argument('--enable-expert-tensor-parallelism', action='store_true',
-                        default=False,
-                        help="use tensor parallelism for expert layers in MoE")
-    group.add_argument('--pipeline-model-parallel-size', type=int, default=1,
-                       help='Degree of pipeline model parallelism.')
-    group.add_argument('--pipeline-model-parallel-split-rank',
-                       type=int, default=None,
-                       help='Rank where encoder and decoder should be split.')
-    group.add_argument('--moe-expert-parallel-size', type=int, default=1,
-                       help='Degree of the MoE expert parallelism.')
-    group.add_argument('--model-parallel-size', type=int, default=None,
-                       help='Old model parallel argument, do not use. Use '
-                       '--tensor-model-parallel-size instead.')
-    group.add_argument('--num-layers-per-virtual-pipeline-stage', type=int, default=None,
-                       help='Number of layers per virtual pipeline stage')
-    group.add_argument('--overlap-p2p-communication',
-                       action='store_true',
-                       help='overlap pipeline parallel communication with forward and backward chunks',
-                       dest='overlap_p2p_comm')
-    group.add_argument('--distributed-backend', default='nccl',
-                       choices=['nccl', 'gloo', 'ccl'],
-                       help='Which backend to use for distributed training.')
-    group.add_argument('--distributed-timeout-minutes', type=int, default=10,
-                       help='Timeout minutes for torch.distributed.')
-    group.add_argument('--DDP-impl', default='local',
-                       choices=['local', 'torch', 'FSDP'],
-                       help='which DistributedDataParallel implementation '
-                       'to use.')
-    group.add_argument('--no-contiguous-buffers-in-local-ddp',
-                       action='store_false', help='If set, dont use '
-                       'contiguous buffer in local DDP.',
-                       dest='use_contiguous_buffers_in_local_ddp')
-    group.add_argument('--no-scatter-gather-tensors-in-pipeline', action='store_false',
-                       help='Use scatter/gather to optimize communication of tensors in pipeline',
-                       dest='scatter_gather_tensors_in_pipeline')
-    group.add_argument('--use-ring-exchange-p2p', action='store_true',
-                       default=False, help='If set, use custom-built ring exchange '
-                       'for p2p communications. Note that this option will require '
-                       'a custom built image that support ring-exchange p2p.')
-    group.add_argument('--local-rank', '--local_rank', type=int, default=None,
-                       help='local rank passed from distributed launcher.')
-    group.add_argument('--lazy-mpu-init', type=bool, required=False,
-                       help='If set to True, initialize_megatron() '
-                       'skips DDP initialization and returns function to '
-                       'complete it instead.Also turns on '
-                       '--use-cpu-initialization flag. This is for '
-                       'external DDP manager.' )
-    group.add_argument('--use-cpu-initialization', action='store_true',
-                       default=None, help='If set, affine parallel weights '
-                       'initialization uses CPU' )
-    group.add_argument('--empty-unused-memory-level', default=0, type=int,
-                       choices=[0, 1, 2],
-                       help='Call torch.cuda.empty_cache() each iteration '
-                       '(training and eval), to reduce fragmentation.'
-                       '0=off, 1=moderate, 2=aggressive.')
-    group.add_argument('--standalone-embedding-stage', action='store_true',
-                       default=False, help='If set, *input* embedding layer '
-                       'is placed on its own pipeline stage, without any '
-                       'transformer layers. (For T5, this flag currently only '
-                       'affects the encoder embedding.)')
-    group.add_argument('--use-distributed-optimizer', action='store_true',
-                       help='Use distributed optimizer.')
+    group = parser.add_argument_group(title="distributed")
+
+    group.add_argument(
+        "--tensor-model-parallel-size",
+        type=int,
+        default=1,
+        help="Degree of tensor model parallelism.",
+    )
+    group.add_argument(
+        "--enable-expert-tensor-parallelism",
+        action="store_true",
+        default=False,
+        help="use tensor parallelism for expert layers in MoE",
+    )
+    group.add_argument(
+        "--pipeline-model-parallel-size",
+        type=int,
+        default=1,
+        help="Degree of pipeline model parallelism.",
+    )
+    group.add_argument(
+        "--pipeline-model-parallel-split-rank",
+        type=int,
+        default=None,
+        help="Rank where encoder and decoder should be split.",
+    )
+    group.add_argument(
+        "--moe-expert-parallel-size",
+        type=int,
+        default=1,
+        help="Degree of the MoE expert parallelism.",
+    )
+    group.add_argument(
+        "--model-parallel-size",
+        type=int,
+        default=None,
+        help="Old model parallel argument, do not use. Use "
+        "--tensor-model-parallel-size instead.",
+    )
+    group.add_argument(
+        "--num-layers-per-virtual-pipeline-stage",
+        type=int,
+        default=None,
+        help="Number of layers per virtual pipeline stage",
+    )
+    group.add_argument(
+        "--overlap-p2p-communication",
+        action="store_true",
+        help="overlap pipeline parallel communication with forward and backward chunks",
+        dest="overlap_p2p_comm",
+    )
+    group.add_argument(
+        "--distributed-backend",
+        default="nccl",
+        choices=["nccl", "gloo", "ccl", "hccl"],
+        help="Which backend to use for distributed training.",
+    )
+    group.add_argument(
+        "--distributed-timeout-minutes",
+        type=int,
+        default=10,
+        help="Timeout minutes for torch.distributed.",
+    )
+    group.add_argument(
+        "--DDP-impl",
+        default="local",
+        choices=["local", "torch", "FSDP"],
+        help="which DistributedDataParallel implementation to use.",
+    )
+    group.add_argument(
+        "--no-contiguous-buffers-in-local-ddp",
+        action="store_false",
+        help="If set, dont use contiguous buffer in local DDP.",
+        dest="use_contiguous_buffers_in_local_ddp",
+    )
+    group.add_argument(
+        "--no-scatter-gather-tensors-in-pipeline",
+        action="store_false",
+        help="Use scatter/gather to optimize communication of tensors in pipeline",
+        dest="scatter_gather_tensors_in_pipeline",
+    )
+    group.add_argument(
+        "--use-ring-exchange-p2p",
+        action="store_true",
+        default=False,
+        help="If set, use custom-built ring exchange "
+        "for p2p communications. Note that this option will require "
+        "a custom built image that support ring-exchange p2p.",
+    )
+    group.add_argument(
+        "--local-rank",
+        "--local_rank",
+        type=int,
+        default=None,
+        help="local rank passed from distributed launcher.",
+    )
+    group.add_argument(
+        "--lazy-mpu-init",
+        type=bool,
+        required=False,
+        help="If set to True, initialize_megatron() "
+        "skips DDP initialization and returns function to "
+        "complete it instead.Also turns on "
+        "--use-cpu-initialization flag. This is for "
+        "external DDP manager.",
+    )
+    group.add_argument(
+        "--use-cpu-initialization",
+        action="store_true",
+        default=None,
+        help="If set, affine parallel weights initialization uses CPU",
+    )
+    group.add_argument(
+        "--empty-unused-memory-level",
+        default=0,
+        type=int,
+        choices=[0, 1, 2],
+        help="Call torch.cuda.empty_cache() each iteration "
+        "(training and eval), to reduce fragmentation."
+        "0=off, 1=moderate, 2=aggressive.",
+    )
+    group.add_argument(
+        "--standalone-embedding-stage",
+        action="store_true",
+        default=False,
+        help="If set, *input* embedding layer "
+        "is placed on its own pipeline stage, without any "
+        "transformer layers. (For T5, this flag currently only "
+        "affects the encoder embedding.)",
+    )
+    group.add_argument(
+        "--use-distributed-optimizer",
+        action="store_true",
+        help="Use distributed optimizer.",
+    )
 
     return parser
 
 
 def _add_validation_args(parser):
-    group = parser.add_argument_group(title='validation')
-
-    group.add_argument('--eval-iters', type=int, default=100,
-                       help='Number of iterations to run for evaluation'
-                       'validation/test for.')
-    group.add_argument('--eval-interval', type=int, default=1000,
-                       help='Interval between running evaluation on '
-                       'validation set.')
-    group.add_argument('--skip-train', action='store_true',
-                       default=False, help='If set, bypass the training loop, '
-                       'optionally do evaluation for validation/test, and exit.')
+    group = parser.add_argument_group(title="validation")
+
+    group.add_argument(
+        "--eval-iters",
+        type=int,
+        default=100,
+        help="Number of iterations to run for evaluationvalidation/test for.",
+    )
+    group.add_argument(
+        "--eval-interval",
+        type=int,
+        default=1000,
+        help="Interval between running evaluation on validation set.",
+    )
+    group.add_argument(
+        "--skip-train",
+        action="store_true",
+        default=False,
+        help="If set, bypass the training loop, "
+        "optionally do evaluation for validation/test, and exit.",
+    )
 
     return parser
 
 
 def _add_data_args(parser):
-    group = parser.add_argument_group(title='data and dataloader')
-
-    group.add_argument('--aml-data-download-path', type=str, default=None,
-                       help='Path to mounted input dataset')
-    group.add_argument('--data-path', nargs='*', default=None,
-                       help='Path to the training dataset. Accepted format:'
-                       '1) a single data path, 2) multiple datasets in the'
-                       'form: dataset1-weight dataset1-path dataset2-weight '
-                       'dataset2-path ... It is used with --split when a '
-                       'single dataset used for all three: train, valid '
-                       'and test. It is exclusive to the other '
-                       '--*-data-path args')
-    group.add_argument('--data-file-list', type=str, default=None,
-                       help='The file with the list of dataset and weights')
-    
-    group.add_argument('--split', type=str, default='969, 30, 1',
-                       help='Comma-separated list of proportions for training,'
-                       ' validation, and test split. For example the split '
-                       '`90,5,5` will use 90%% of data for training, 5%% for '
-                       'validation and 5%% for test.')
-    group.add_argument('--train-data-path', nargs='*', default=None,
-                       help='Path to the training dataset. Accepted format:'
-                       '1) a single data path, 2) multiple datasets in the'
-                       'form: dataset1-weight dataset1-path dataset2-weight '
-                       'dataset2-path ...')
-    group.add_argument('--valid-data-path', nargs='*', default=None,
-                       help='Path to the validation dataset. Accepted format:'
-                       '1) a single data path, 2) multiple datasets in the'
-                       'form: dataset1-weight dataset1-path dataset2-weight '
-                       'dataset2-path ...')
-    group.add_argument('--test-data-path', nargs='*', default=None,
-                       help='Path to the test dataset. Accepted format:'
-                       '1) a single data path, 2) multiple datasets in the'
-                       'form: dataset1-weight dataset1-path dataset2-weight '
-                       'dataset2-path ...')
-    group.add_argument('--data-cache-path', default=None,
-                       help='Path to a directory to hold cached index files.')
-
-    group.add_argument('--vocab-size', type=int, default=None,
-                       help='Size of vocab before EOD or padding.')
-    group.add_argument('--vocab-file', type=str, default=None,
-                       help='Path to the vocab file.')
-    group.add_argument('--merge-file', type=str, default=None,
-                       help='Path to the BPE merge file.')
-    group.add_argument('--vocab-extra-ids', type=int, default=0,
-                       help='Number of additional vocabulary tokens. '
-                            'They are used for span masking in the T5 model')
-    group.add_argument('--seq-length', type=int, default=None,
-                       help='Maximum sequence length to process.')
-    group.add_argument('--encoder-seq-length', type=int, default=None,
-                       help='Maximum encoder sequence length to process.'
-                       'This should be exclusive of --seq-length')
-    group.add_argument('--decoder-seq-length', type=int, default=None,
-                       help="Maximum decoder sequence length to process.")
-    group.add_argument('--retriever-seq-length', type=int, default=256,
-                       help='Maximum sequence length for the biencoder model '
-                       'for retriever')
-    group.add_argument('--sample-rate', type=float, default=1.0,
-                       help='sample rate for training data. Supposed to be 0 '
-                            ' < sample_rate < 1')
-    group.add_argument('--mask-prob', type=float, default=0.15,
-                       help='Probability of replacing a token with mask.')
-    group.add_argument('--short-seq-prob', type=float, default=0.1,
-                       help='Probability of producing a short sequence.')
-    group.add_argument('--mmap-warmup', action='store_true',
-                       help='Warm up mmap files.')
-    group.add_argument('--num-workers', type=int, default=2,
-                       help="Dataloader number of workers.")
-    group.add_argument('--tokenizer-type', type=str,
-                       default=None,
-                       choices=['BertWordPieceLowerCase',
-                                'BertWordPieceCase',
-                                'GPT2BPETokenizer',
-                                'SentencePieceTokenizer',
-                                'GPTSentencePieceTokenizer',
-                                'HFTokenizer',
-                                'NullTokenizer',
-                                'Llama2Tokenizer'],
-                       help='What type of tokenizer to use.')
-    group.add_argument('--tokenizer-model', type=str, default=None,
-                       help='Sentencepiece tokenizer model.')
-    group.add_argument('--data-impl', type=str, default='infer',
-                       choices=['mmap', 'infer'],
-                       help='Implementation of indexed datasets.')
-    group.add_argument('--reset-position-ids', action='store_true',
-                       help='Reset posistion ids after end-of-document token.')
-    group.add_argument('--reset-attention-mask', action='store_true',
-                       help='Reset self attention maske after '
-                       'end-of-document token.')
-    group.add_argument('--eod-mask-loss', action='store_true',
-                       help='Mask loss for the end of document tokens.')
-    group.add_argument('--train-data-exact-num-epochs', type=int, default=None,
-                       help='When building the train dataset, force it to be '
-                       'an exact number of epochs of the raw data')
-    group.add_argument('--return-data-index', action='store_true',
-                       help='Return the index of data sample.')
-    group.add_argument('--data-efficiency-curriculum-learning', action='store_true',
-                       help='Use DeepSpeed data efficiency library curriculum learning feature.')
-    group.add_argument('--train-idx-path', type=str, default=None,
-                       help='Force to use certain index file.')
-    group.add_argument('--train-desc-path', type=str, default=None,
-                       help='Force to use certain index file.')
-    group.add_argument('--train-doc-idx-path', type=str, default=None,
-                       help='Force to use certain index file.')
-    group.add_argument('--train-sample-idx-path', type=str, default=None,
-                       help='Force to use certain index file.')
-    group.add_argument('--train-shuffle-idx-path', type=str, default=None,
-                       help='Force to use certain index file.')
-    group.add_argument('--repeated-dataloader', action='store_true',
-                       help='Once all the data has been loaded, reuse the DataLoader.')
+    group = parser.add_argument_group(title="data and dataloader")
+
+    group.add_argument(
+        "--aml-data-download-path",
+        type=str,
+        default=None,
+        help="Path to mounted input dataset",
+    )
+    group.add_argument(
+        "--data-path",
+        nargs="*",
+        default=None,
+        help="Path to the training dataset. Accepted format:"
+        "1) a single data path, 2) multiple datasets in the"
+        "form: dataset1-weight dataset1-path dataset2-weight "
+        "dataset2-path ... It is used with --split when a "
+        "single dataset used for all three: train, valid "
+        "and test. It is exclusive to the other "
+        "--*-data-path args",
+    )
+    group.add_argument(
+        "--data-file-list",
+        type=str,
+        default=None,
+        help="The file with the list of dataset and weights",
+    )
+
+    group.add_argument(
+        "--shuffle-sample-in-corpus",
+        action="store_true",
+        help="Whether to shuffle the samples within in the dataset files",
+    )
+
+    group.add_argument(
+        "--blend-sample-in-corpus",
+        action="store_true",
+        help="Whether to blend different files in the same corpus",
+    )
+
+    group.add_argument(
+        "--split",
+        type=str,
+        default="969, 30, 1",
+        help="Comma-separated list of proportions for training,"
+        " validation, and test split. For example the split "
+        "`90,5,5` will use 90%% of data for training, 5%% for "
+        "validation and 5%% for test.",
+    )
+    group.add_argument(
+        "--train-data-path",
+        nargs="*",
+        default=None,
+        help="Path to the training dataset. Accepted format:"
+        "1) a single data path, 2) multiple datasets in the"
+        "form: dataset1-weight dataset1-path dataset2-weight "
+        "dataset2-path ...",
+    )
+    group.add_argument(
+        "--valid-data-path",
+        nargs="*",
+        default=None,
+        help="Path to the validation dataset. Accepted format:"
+        "1) a single data path, 2) multiple datasets in the"
+        "form: dataset1-weight dataset1-path dataset2-weight "
+        "dataset2-path ...",
+    )
+    group.add_argument(
+        "--test-data-path",
+        nargs="*",
+        default=None,
+        help="Path to the test dataset. Accepted format:"
+        "1) a single data path, 2) multiple datasets in the"
+        "form: dataset1-weight dataset1-path dataset2-weight "
+        "dataset2-path ...",
+    )
+    group.add_argument(
+        "--data-cache-path",
+        default=None,
+        help="Path to a directory to hold cached index files.",
+    )
+
+    group.add_argument(
+        "--vocab-size",
+        type=int,
+        default=None,
+        help="Size of vocab before EOD or padding.",
+    )
+    group.add_argument(
+        "--vocab-file", type=str, default=None, help="Path to the vocab file."
+    )
+    group.add_argument(
+        "--merge-file", type=str, default=None, help="Path to the BPE merge file."
+    )
+    group.add_argument(
+        "--vocab-extra-ids",
+        type=int,
+        default=0,
+        help="Number of additional vocabulary tokens. "
+        "They are used for span masking in the T5 model",
+    )
+    group.add_argument(
+        "--seq-length",
+        type=int,
+        default=None,
+        help="Maximum sequence length to process.",
+    )
+    group.add_argument(
+        "--encoder-seq-length",
+        type=int,
+        default=None,
+        help="Maximum encoder sequence length to process."
+        "This should be exclusive of --seq-length",
+    )
+    group.add_argument(
+        "--decoder-seq-length",
+        type=int,
+        default=None,
+        help="Maximum decoder sequence length to process.",
+    )
+    group.add_argument(
+        "--retriever-seq-length",
+        type=int,
+        default=256,
+        help="Maximum sequence length for the biencoder model for retriever",
+    )
+    group.add_argument(
+        "--sample-rate",
+        type=float,
+        default=1.0,
+        help="sample rate for training data. Supposed to be 0  < sample_rate < 1",
+    )
+    group.add_argument(
+        "--mask-prob",
+        type=float,
+        default=0.15,
+        help="Probability of replacing a token with mask.",
+    )
+    group.add_argument(
+        "--short-seq-prob",
+        type=float,
+        default=0.1,
+        help="Probability of producing a short sequence.",
+    )
+    group.add_argument("--mmap-warmup", action="store_true", help="Warm up mmap files.")
+    group.add_argument(
+        "--num-workers", type=int, default=2, help="Dataloader number of workers."
+    )
+    group.add_argument(
+        "--tokenizer-type",
+        type=str,
+        default=None,
+        choices=[
+            "BertWordPieceLowerCase",
+            "BertWordPieceCase",
+            "GPT2BPETokenizer",
+            "SentencePieceTokenizer",
+            "GPTSentencePieceTokenizer",
+            "HFTokenizer",
+            "NullTokenizer",
+            "Llama2Tokenizer",
+        ],
+        help="What type of tokenizer to use.",
+    )
+    group.add_argument(
+        "--tokenizer-model",
+        type=str,
+        default=None,
+        help="Sentencepiece tokenizer model.",
+    )
+    group.add_argument(
+        "--trust-remote-code",
+        action="store_true",
+        default=False,
+        help="To run HFTokenizer model from local path.",
+    )
+    group.add_argument(
+        "--data-impl",
+        type=str,
+        default="infer",
+        choices=["mmap", "infer"],
+        help="Implementation of indexed datasets.",
+    )
+    group.add_argument(
+        "--reset-position-ids",
+        action="store_true",
+        help="Reset posistion ids after end-of-document token.",
+    )
+    group.add_argument(
+        "--reset-attention-mask",
+        action="store_true",
+        help="Reset self attention maske after end-of-document token.",
+    )
+    group.add_argument(
+        "--eod-mask-loss",
+        action="store_true",
+        help="Mask loss for the end of document tokens.",
+    )
+    group.add_argument(
+        "--train-data-exact-num-epochs",
+        type=int,
+        default=None,
+        help="When building the train dataset, force it to be "
+        "an exact number of epochs of the raw data",
+    )
+    group.add_argument(
+        "--return-data-index",
+        action="store_true",
+        help="Return the index of data sample.",
+    )
+    group.add_argument(
+        "--data-efficiency-curriculum-learning",
+        action="store_true",
+        help="Use DeepSpeed data efficiency library curriculum learning feature.",
+    )
+    group.add_argument(
+        "--train-idx-path",
+        type=str,
+        default=None,
+        help="Force to use certain index file.",
+    )
+    group.add_argument(
+        "--train-desc-path",
+        type=str,
+        default=None,
+        help="Force to use certain index file.",
+    )
+    group.add_argument(
+        "--train-doc-idx-path",
+        type=str,
+        default=None,
+        help="Force to use certain index file.",
+    )
+    group.add_argument(
+        "--train-sample-idx-path",
+        type=str,
+        default=None,
+        help="Force to use certain index file.",
+    )
+    group.add_argument(
+        "--train-shuffle-idx-path",
+        type=str,
+        default=None,
+        help="Force to use certain index file.",
+    )
+    group.add_argument(
+        "--repeated-dataloader",
+        action="store_true",
+        help="Once all the data has been loaded, reuse the DataLoader.",
+    )
+    group.add_argument("--multiprocessing-context", type=str, default="fork")
     return parser
 
 
 def _add_autoresume_args(parser):
-    group = parser.add_argument_group(title='autoresume')
+    group = parser.add_argument_group(title="autoresume")
 
-    group.add_argument('--adlr-autoresume', action='store_true',
-                       help='Enable autoresume on adlr cluster.')
-    group.add_argument('--adlr-autoresume-interval', type=int, default=1000,
-                       help='Intervals over which check for autoresume'
-                       'termination signal')
+    group.add_argument(
+        "--adlr-autoresume",
+        action="store_true",
+        help="Enable autoresume on adlr cluster.",
+    )
+    group.add_argument(
+        "--adlr-autoresume-interval",
+        type=int,
+        default=1000,
+        help="Intervals over which check for autoresumetermination signal",
+    )
 
     return parser
 
 
 def _add_biencoder_args(parser):
-    group = parser.add_argument_group(title='biencoder')
+    group = parser.add_argument_group(title="biencoder")
 
     # network size
-    group.add_argument('--ict-head-size', type=int, default=None,
-                       help='Size of block embeddings to be used in ICT and '
-                        'REALM (paper default: 128)')
-    group.add_argument('--biencoder-projection-dim', type=int, default=0,
-                       help='Size of projection head used in biencoder (paper'
-                        ' default: 128)')
-    group.add_argument('--biencoder-shared-query-context-model', action='store_true',
-                        help='Whether to share the parameters of the query '
-                        'and context models or not')
+    group.add_argument(
+        "--ict-head-size",
+        type=int,
+        default=None,
+        help="Size of block embeddings to be used in ICT and "
+        "REALM (paper default: 128)",
+    )
+    group.add_argument(
+        "--biencoder-projection-dim",
+        type=int,
+        default=0,
+        help="Size of projection head used in biencoder (paper default: 128)",
+    )
+    group.add_argument(
+        "--biencoder-shared-query-context-model",
+        action="store_true",
+        help="Whether to share the parameters of the query and context models or not",
+    )
 
     # checkpointing
-    group.add_argument('--ict-load', type=str, default=None,
-                       help='Directory containing an ICTBertModel checkpoint')
-    group.add_argument('--bert-load', type=str, default=None,
-                       help='Directory containing an BertModel checkpoint '
-                       '(needed to start ICT and REALM)')
+    group.add_argument(
+        "--ict-load",
+        type=str,
+        default=None,
+        help="Directory containing an ICTBertModel checkpoint",
+    )
+    group.add_argument(
+        "--bert-load",
+        type=str,
+        default=None,
+        help="Directory containing an BertModel checkpoint "
+        "(needed to start ICT and REALM)",
+    )
 
     # data
-    group.add_argument('--titles-data-path', type=str, default=None,
-                       help='Path to titles dataset used for ICT')
-    group.add_argument('--query-in-block-prob', type=float, default=0.1,
-                       help='Probability of keeping query in block for '
-                       'ICT dataset')
-    group.add_argument('--use-one-sent-docs', action='store_true',
-                       help='Whether to use one sentence documents in ICT')
-    group.add_argument('--evidence-data-path', type=str, default=None,
-                       help='Path to Wikipedia Evidence frm DPR paper')
+    group.add_argument(
+        "--titles-data-path",
+        type=str,
+        default=None,
+        help="Path to titles dataset used for ICT",
+    )
+    group.add_argument(
+        "--query-in-block-prob",
+        type=float,
+        default=0.1,
+        help="Probability of keeping query in block for ICT dataset",
+    )
+    group.add_argument(
+        "--use-one-sent-docs",
+        action="store_true",
+        help="Whether to use one sentence documents in ICT",
+    )
+    group.add_argument(
+        "--evidence-data-path",
+        type=str,
+        default=None,
+        help="Path to Wikipedia Evidence frm DPR paper",
+    )
 
     # training
-    group.add_argument('--retriever-report-topk-accuracies', nargs='+', type=int,
-                        default=[], help="Which top-k accuracies to report "
-                        "(e.g. '1 5 20')")
-    group.add_argument('--retriever-score-scaling', action='store_true',
-                       help='Whether to scale retriever scores by inverse '
-                        'square root of hidden size')
+    group.add_argument(
+        "--retriever-report-topk-accuracies",
+        nargs="+",
+        type=int,
+        default=[],
+        help="Which top-k accuracies to report (e.g. '1 5 20')",
+    )
+    group.add_argument(
+        "--retriever-score-scaling",
+        action="store_true",
+        help="Whether to scale retriever scores by inverse square root of hidden size",
+    )
 
     # faiss index
-    group.add_argument('--block-data-path', type=str, default=None,
-                       help='Where to save/load BlockData to/from')
-    group.add_argument('--embedding-path', type=str, default=None,
-                       help='Where to save/load Open-Retrieval Embedding'
-                        ' data to/from')
+    group.add_argument(
+        "--block-data-path",
+        type=str,
+        default=None,
+        help="Where to save/load BlockData to/from",
+    )
+    group.add_argument(
+        "--embedding-path",
+        type=str,
+        default=None,
+        help="Where to save/load Open-Retrieval Embedding data to/from",
+    )
 
     # indexer
-    group.add_argument('--indexer-batch-size', type=int, default=128,
-                       help='How large of batches to use when doing indexing '
-                       'jobs')
-    group.add_argument('--indexer-log-interval', type=int, default=1000,
-                       help='After how many batches should the indexer '
-                       'report progress')
+    group.add_argument(
+        "--indexer-batch-size",
+        type=int,
+        default=128,
+        help="How large of batches to use when doing indexing jobs",
+    )
+    group.add_argument(
+        "--indexer-log-interval",
+        type=int,
+        default=1000,
+        help="After how many batches should the indexer report progress",
+    )
     return parser
 
 
@@ -1386,67 +2542,147 @@ def _add_vision_args(parser):
     group = parser.add_argument_group(title="vision")
 
     # general vision arguements
-    group.add_argument('--num-classes', type=int, default=1000,
-                       help='num of classes in vision classificaiton task')
-    group.add_argument('--img-h', type=int, default=224,
-                       help='Image height for vision classification task')
-    group.add_argument('--img-w', type=int, default=224,
-                       help='Image height for vision classification task')
-    group.add_argument('--num-channels', type=int, default=3,
-                       help='Number of channels in input image data')
-    group.add_argument('--patch-dim', type=int, default=16,
-                       help='patch dimension')
-    group.add_argument('--classes-fraction', type=float, default=1.0,
-                       help='training with fraction of classes.')
-    group.add_argument('--data-per-class-fraction', type=float, default=1.0,
-                       help='training with fraction of data per class.')
-    group.add_argument('--no-data-sharding', action='store_false',
-                       help='Disable data sharding.',
-                       dest='data_sharding')
-    group.add_argument('--head-lr-mult', type=float, default=1.0,
-                       help='learning rate multiplier for head during finetuning')
+    group.add_argument(
+        "--num-classes",
+        type=int,
+        default=1000,
+        help="num of classes in vision classificaiton task",
+    )
+    group.add_argument(
+        "--img-h",
+        type=int,
+        default=224,
+        help="Image height for vision classification task",
+    )
+    group.add_argument(
+        "--img-w",
+        type=int,
+        default=224,
+        help="Image height for vision classification task",
+    )
+    group.add_argument(
+        "--num-channels",
+        type=int,
+        default=3,
+        help="Number of channels in input image data",
+    )
+    group.add_argument("--patch-dim", type=int, default=16, help="patch dimension")
+    group.add_argument(
+        "--classes-fraction",
+        type=float,
+        default=1.0,
+        help="training with fraction of classes.",
+    )
+    group.add_argument(
+        "--data-per-class-fraction",
+        type=float,
+        default=1.0,
+        help="training with fraction of data per class.",
+    )
+    group.add_argument(
+        "--no-data-sharding",
+        action="store_false",
+        help="Disable data sharding.",
+        dest="data_sharding",
+    )
+    group.add_argument(
+        "--head-lr-mult",
+        type=float,
+        default=1.0,
+        help="learning rate multiplier for head during finetuning",
+    )
 
     # pretraining type and backbone selection`
-    group.add_argument('--vision-pretraining', action='store_true',
-                       help='flag to indicate vision pretraining')
-    group.add_argument('--vision-pretraining-type', type=str, default='classify',
-                       choices=['classify', 'inpaint', 'dino'],
-                       help='pretraining objectives')
-    group.add_argument('--vision-backbone-type', type=str, default='vit',
-                       choices=['vit', 'mit', 'swin'],
-                       help='backbone types types')
-    group.add_argument('--swin-backbone-type', type=str, default='tiny',
-                       choices=['tiny', 'base', 'h3'],
-                       help='pretraining objectives')
+    group.add_argument(
+        "--vision-pretraining",
+        action="store_true",
+        help="flag to indicate vision pretraining",
+    )
+    group.add_argument(
+        "--vision-pretraining-type",
+        type=str,
+        default="classify",
+        choices=["classify", "inpaint", "dino"],
+        help="pretraining objectives",
+    )
+    group.add_argument(
+        "--vision-backbone-type",
+        type=str,
+        default="vit",
+        choices=["vit", "mit", "swin"],
+        help="backbone types types",
+    )
+    group.add_argument(
+        "--swin-backbone-type",
+        type=str,
+        default="tiny",
+        choices=["tiny", "base", "h3"],
+        help="pretraining objectives",
+    )
 
     # inpainting arguments
-    group.add_argument('--mask-type', type=str, default='random',
-                       choices=['random', 'row'],
-                       help='mask types')
-    group.add_argument('--mask-factor', type=float, default=1.0,
-                       help='mask size scaling parameter')
+    group.add_argument(
+        "--mask-type",
+        type=str,
+        default="random",
+        choices=["random", "row"],
+        help="mask types",
+    )
+    group.add_argument(
+        "--mask-factor", type=float, default=1.0, help="mask size scaling parameter"
+    )
 
     # dino arguments
-    group.add_argument('--iter-per-epoch', type=int, default=1250,
-                       help='iterations per epoch')
-    group.add_argument('--dino-local-img-size', type=int, default=96,
-                       help='Image size for vision classification task')
-    group.add_argument('--dino-local-crops-number', type=int, default=10,
-                       help='Number of local crops')
-    group.add_argument('--dino-head-hidden-size', type=int, default=2048,
-                       help='Hidden dimension size in dino head')
-    group.add_argument('--dino-bottleneck-size', type=int, default=256,
-                       help='Bottle neck dimension in dino head ')
-    group.add_argument('--dino-freeze-last-layer', type=float, default=1,
-                       help='Freezing last layer weights')
-    group.add_argument('--dino-norm-last-layer', action='store_true',
-                       help='Disable Norm in last layer.')
-    group.add_argument('--dino-warmup-teacher-temp', type=float, default=0.04,
-                       help='warump teacher temperature')
-    group.add_argument('--dino-teacher-temp', type=float, default=0.07,
-                       help='teacher temperature')
-    group.add_argument('--dino-warmup-teacher-temp-epochs', type=int, default=30,
-                       help='warmup teacher temperaure epochs')
+    group.add_argument(
+        "--iter-per-epoch", type=int, default=1250, help="iterations per epoch"
+    )
+    group.add_argument(
+        "--dino-local-img-size",
+        type=int,
+        default=96,
+        help="Image size for vision classification task",
+    )
+    group.add_argument(
+        "--dino-local-crops-number", type=int, default=10, help="Number of local crops"
+    )
+    group.add_argument(
+        "--dino-head-hidden-size",
+        type=int,
+        default=2048,
+        help="Hidden dimension size in dino head",
+    )
+    group.add_argument(
+        "--dino-bottleneck-size",
+        type=int,
+        default=256,
+        help="Bottle neck dimension in dino head ",
+    )
+    group.add_argument(
+        "--dino-freeze-last-layer",
+        type=float,
+        default=1,
+        help="Freezing last layer weights",
+    )
+    group.add_argument(
+        "--dino-norm-last-layer",
+        action="store_true",
+        help="Disable Norm in last layer.",
+    )
+    group.add_argument(
+        "--dino-warmup-teacher-temp",
+        type=float,
+        default=0.04,
+        help="warump teacher temperature",
+    )
+    group.add_argument(
+        "--dino-teacher-temp", type=float, default=0.07, help="teacher temperature"
+    )
+    group.add_argument(
+        "--dino-warmup-teacher-temp-epochs",
+        type=int,
+        default=30,
+        help="warmup teacher temperaure epochs",
+    )
 
     return parser
 
@@ -1454,83 +2690,187 @@ def _add_vision_args(parser):
 def _add_zero_args(parser):
     """Text generate arguments."""
 
-    group = parser.add_argument_group('ZeRO configurations', 'configurations')
+    group = parser.add_argument_group("ZeRO configurations", "configurations")
     group.add_argument("--zero-stage", type=int, default=1.0)
-    group.add_argument('--zero-reduce-scatter', action='store_true',
-                       help='Use reduce scatter if specified')
-    group.add_argument('--zero-contigious-gradients', action='store_true',
-                       help='Use contigious memory optimizaiton if specified')
+    group.add_argument(
+        "--zero-reduce-scatter",
+        action="store_true",
+        help="Use reduce scatter if specified",
+    )
+    group.add_argument(
+        "--zero-contigious-gradients",
+        action="store_true",
+        help="Use contigious memory optimizaiton if specified",
+    )
     group.add_argument("--zero-reduce-bucket-size", type=int, default=0.0)
     group.add_argument("--zero-allgather-bucket-size", type=int, default=0.0)
-    group.add_argument('--remote-device', type=str, default='none', choices=['none', 'cpu', 'nvme'],
-                      help='Remote device for ZeRO-3 initialized parameters.')
-    group.add_argument('--use-pin-memory', action='store_true',
-                     help='Use pinned CPU memory for ZeRO-3 initialized model parameters.')
+    group.add_argument(
+        "--remote-device",
+        type=str,
+        default="none",
+        choices=["none", "cpu", "nvme"],
+        help="Remote device for ZeRO-3 initialized parameters.",
+    )
+    group.add_argument(
+        "--use-pin-memory",
+        action="store_true",
+        help="Use pinned CPU memory for ZeRO-3 initialized model parameters.",
+    )
+    group.add_argument("--use-mics", action="store_true", help="Use MiCS")
     return parser
 
+
 def _add_memoryopt_args(parser):
     """Memory optimization arguments."""
 
-    group = parser.add_argument_group('Memory optimizations', 'configurations')
-    group.add_argument("--scattered-embeddings", action='store_true',
-                       help='Save memory by scattering embedding activations. '
-                            'Introduces dropout differences across MP configurations.')
-    group.add_argument("--split-transformers", action='store_true',
-                       help='Save memory by splitting transformer layers into two parts, '
-                       'allowing for more frequent activation checkpoint savings.')
-    group.add_argument("--memory-centric-tiled-linear", action="store_true",
-                       help='Save memory by tiling with deepspeed.zero.TiledLinear.')
-    group.add_argument("--tile-factor", type=int, default=1,
-                       help='Make all linear layers the same size of [hidden/tile_factor, hidden/tile_factor]. '
-                            'Must be enabled with --memory-centric-tiled-linear. '
-                            'Example A: if tile_factor=1, the qkv layer [hidden, 3* hidden] would be converted into [1,3] tiles of size [hidden,hidden]. '
-                            'Example B: if tile_factor=2, the intermediate layer [4*hidden, hidden] will be converted into [8, 2] tiles of size [hidden/2, hidden/2]. '
-                            'Default is 1.')
+    group = parser.add_argument_group("Memory optimizations", "configurations")
+    group.add_argument(
+        "--scattered-embeddings",
+        action="store_true",
+        help="Save memory by scattering embedding activations. "
+        "Introduces dropout differences across MP configurations.",
+    )
+    group.add_argument(
+        "--split-transformers",
+        action="store_true",
+        help="Save memory by splitting transformer layers into two parts, "
+        "allowing for more frequent activation checkpoint savings.",
+    )
+    group.add_argument(
+        "--memory-centric-tiled-linear",
+        action="store_true",
+        help="Save memory by tiling with deepspeed.zero.TiledLinear.",
+    )
+    group.add_argument(
+        "--tile-factor",
+        type=int,
+        default=1,
+        help="Make all linear layers the same size of [hidden/tile_factor, hidden/tile_factor]. "
+        "Must be enabled with --memory-centric-tiled-linear. "
+        "Example A: if tile_factor=1, the qkv layer [hidden, 3* hidden] would be converted into [1,3] tiles of size [hidden,hidden]. "
+        "Example B: if tile_factor=2, the intermediate layer [4*hidden, hidden] will be converted into [8, 2] tiles of size [hidden/2, hidden/2]. "
+        "Default is 1.",
+    )
 
     return parser
 
+
 def _add_activation_checkpoint_args(parser):
-    group = parser.add_argument_group('Activation Checkpointing',
-                                      'Checkpointing Configurations')
-    group.add_argument('--deepspeed-activation-checkpointing', action='store_true',
-                       help='uses activation checkpointing from deepspeed')
-    group.add_argument('--partition-activations', action='store_true',
-                       help='partition Activations across GPUs before checkpointing.')
-    group.add_argument('--contigious-checkpointing', action='store_true',
-                       help='Contigious memory checkpointing for activatoins.')
-    group.add_argument('--checkpoint-in-cpu', action='store_true',
-                       help='Move the activation checkpoints to CPU.')
-    group.add_argument('--synchronize-each-layer', action='store_true',
-                       help='does a synchronize at the beginning and end of each checkpointed layer.')
-    group.add_argument('--profile-backward', action='store_true',
-                       help='Enables backward pass profiling for checkpointed layers.')
+    group = parser.add_argument_group(
+        "Activation Checkpointing", "Checkpointing Configurations"
+    )
+    group.add_argument(
+        "--deepspeed-activation-checkpointing",
+        action="store_true",
+        help="uses activation checkpointing from deepspeed",
+    )
+    group.add_argument(
+        "--partition-activations",
+        action="store_true",
+        help="partition Activations across GPUs before checkpointing.",
+    )
+    group.add_argument(
+        "--contigious-checkpointing",
+        action="store_true",
+        help="Contigious memory checkpointing for activatoins.",
+    )
+    group.add_argument(
+        "--checkpoint-in-cpu",
+        action="store_true",
+        help="Move the activation checkpoints to CPU.",
+    )
+    group.add_argument(
+        "--synchronize-each-layer",
+        action="store_true",
+        help="does a synchronize at the beginning and end of each checkpointed layer.",
+    )
+    group.add_argument(
+        "--profile-backward",
+        action="store_true",
+        help="Enables backward pass profiling for checkpointed layers.",
+    )
     return parser
 
 
 def _add_distillation_args(parser):
-    group = parser.add_argument_group('Knowledge distillation',
-                                      'Distillation Configurations')
-    
-    group.add_argument('--num-layers-teacher', type=int, default=None,
-                       help='Number of the teacher transformer layers.')                  
-    group.add_argument('--num-experts-teacher', type=int, nargs='+', default=[1,],
-                        help='number of teacher experts list, MoE related.')
-    group.add_argument('--hidden-size-teacher', type=int, default=None,
-                       help='Tansformer teacher hidden size.')
-    group.add_argument('--num-attention-heads-teacher', type=int, default=None,
-                       help='Number of teacher transformer attention heads.') 
-
-    group.add_argument('--mos', action='store_true',
-                       help='Enable Mixture-of-Students via knolwedge distillation.')
-    group.add_argument('--kd', action='store_true',
-                       help='Enable knolwedge distillation.')
-    group.add_argument('--kd-alpha-ce', default=1, type=float)
-    group.add_argument('--kd-beta-ce', default=1, type=float)
-    group.add_argument('--kd-temp', default=1.0, type=float)
-    group.add_argument('--reset-iteration', action='store_true',
-                    help='Reset the iteration count.')
-    
-    group.add_argument('--load-teacher', type=str, default=None,
-                       help='Directory containing a teacher model checkpoint.')
+    group = parser.add_argument_group(
+        "Knowledge distillation", "Distillation Configurations"
+    )
+    group.add_argument(
+        "--num-layers-teacher",
+        type=int,
+        default=None,
+        help="Number of the teacher transformer layers.",
+    )
+    group.add_argument(
+        "--num-experts-teacher",
+        type=int,
+        nargs="+",
+        default=[
+            1,
+        ],
+        help="number of teacher experts list, MoE related.",
+    )
+    group.add_argument(
+        "--hidden-size-teacher",
+        type=int,
+        default=None,
+        help="Tansformer teacher hidden size.",
+    )
+    group.add_argument(
+        "--num-attention-heads-teacher",
+        type=int,
+        default=None,
+        help="Number of teacher transformer attention heads.",
+    )
+    group.add_argument(
+        "--mos",
+        action="store_true",
+        help="Enable Mixture-of-Students via knolwedge distillation.",
+    )
+    group.add_argument(
+        "--kd", action="store_true", help="Enable knolwedge distillation."
+    )
+    group.add_argument("--kd-alpha-ce", default=1, type=float)
+    group.add_argument("--kd-beta-ce", default=1, type=float)
+    group.add_argument("--kd-temp", default=1.0, type=float)
+    group.add_argument(
+        "--reset-iteration", action="store_true", help="Reset the iteration count."
+    )
+    group.add_argument(
+        "--load-teacher",
+        type=str,
+        default=None,
+        help="Directory containing a teacher model checkpoint.",
+    )
+
+    return parser
+
+
+def _add_profiler_args(parser):
+    group = parser.add_argument_group(title="profiling configuration")
+
+    group.add_argument(
+        "--profile",
+        type=str,
+        default=None,
+        choices=["pt", "pt-full"],
+        help="Enable profiling, pt-full gives call stack compared to pt",
+    )
+
+    group.add_argument(
+        "--profile_steps",
+        type=str,
+        default="2,3",
+        help="Which steps to profile. Format: <start step>,<end step>",
+    )
+
+    group.add_argument(
+        "--profile-ranks",
+        type=int,
+        nargs="+",
+        default=None,
+        help="Which ranks to profile. Format: 0 1 2 3",
+    )
 
     return parser
diff --git a/megatron/checkpointing.py b/megatron/checkpointing.py
index 3e4d20035e3..7a58d8b100a 100644
--- a/megatron/checkpointing.py
+++ b/megatron/checkpointing.py
@@ -8,13 +8,18 @@
 import numpy as np
 from deepspeed.accelerator import get_accelerator
 import torch
+import ezpz as ez
+import logging
+import torch.distributed as tdist
+
+import yaml
+from pathlib import Path
 
 from megatron import update_num_microbatches, get_tokenizer
 from megatron.core import mpu, tensor_parallel
 from .global_vars import get_args
-from .utils import (unwrap_model,
-                    print_rank_0,
-                    is_rank_0)
+from .utils import (unwrap_model, print_rank_0, is_rank_0)
+from .utils import PerfTrace, Profile
 
 from deepspeed.checkpoint import (
     ORIGINAL_VOCAB_SIZE,
@@ -24,14 +29,21 @@
     UNIVERSAL_CHECKPOINT_VERSION_VALUE,
 )
 
+RANK = ez.get_rank()
+WORLD_SIZE = ez.get_world_size()
+DEVICE = ez.get_torch_device()
+log = logging.getLogger(__name__)
+log.setLevel("INFO") if RANK == 0 else log.setLevel("CRITICAL")
+
 _CHECKPOINT_VERSION = None
 
+dlp = Profile("CHECKPOINT")
+
 
 def set_checkpoint_version(value):
     global _CHECKPOINT_VERSION
     if _CHECKPOINT_VERSION is not None:
-        assert _CHECKPOINT_VERSION == value, \
-            "checkpoint versions do not match"
+        assert _CHECKPOINT_VERSION == value, "checkpoint versions do not match"
     _CHECKPOINT_VERSION = value
 
 
@@ -55,51 +67,56 @@ def _compare(arg_name, old_arg_name=None, default=None):
         else:
             checkpoint_value = getattr(checkpoint_args, ckpt_arg_name)
         args_value = getattr(args, arg_name)
-        error_message = '{} value from checkpoint ({}) is not equal to the ' \
-                        'input argument value ({}).'.format(
-                            arg_name, checkpoint_value, args_value)
+        error_message = (
+            "{} value from checkpoint ({}) is not equal to the "
+            "input argument value ({}).".format(arg_name, checkpoint_value, args_value)
+        )
         assert checkpoint_value == args_value, error_message
 
     if not args.mos and not args.kd:
-        _compare('num_layers')
-    _compare('hidden_size')
-    _compare('num_attention_heads')
-    _compare('num_key_value_heads')
-    _compare('add_position_embedding', default=True)
+        _compare("num_layers")
+    _compare("hidden_size")
+    _compare("num_attention_heads")
+    _compare("num_key_value_heads")
+    _compare("add_position_embedding", default=True)
     if args.vocab_file:
-        _compare('max_position_embeddings')
+        _compare("max_position_embeddings")
         if not args.universal_checkpoint:
-            _compare('make_vocab_size_divisible_by')
-            _compare('padded_vocab_size')
-        _compare('tokenizer_type')
+            _compare("make_vocab_size_divisible_by")
+            _compare("padded_vocab_size")
+        _compare("tokenizer_type")
     if args.data_parallel_random_init:
-        _compare('data_parallel_random_init')
+        _compare("data_parallel_random_init")
     if get_checkpoint_version() < 3.0 and not args.universal_checkpoint:
-        _compare('tensor_model_parallel_size',      
-                 old_arg_name='model_parallel_size')
+        _compare("tensor_model_parallel_size", old_arg_name="model_parallel_size")
     if get_checkpoint_version() >= 3.0 and not args.universal_checkpoint:
-        _compare('tensor_model_parallel_size')
-        _compare('pipeline_model_parallel_size')
+        _compare("tensor_model_parallel_size")
+        _compare("pipeline_model_parallel_size")
 
 
 def ensure_directory_exists(filename):
     """Build filename's path if it does not already exists."""
     dirname = os.path.dirname(filename)
-    os.makedirs(dirname, exist_ok = True)
+    os.makedirs(dirname, exist_ok=True)
 
 
-def get_checkpoint_name(checkpoints_path, iteration, release=False,
-                        pipeline_parallel=None,
-                        tensor_rank=None, pipeline_rank=None):
+def get_checkpoint_name(
+    checkpoints_path,
+    iteration,
+    release=False,
+    pipeline_parallel=None,
+    tensor_rank=None,
+    pipeline_rank=None,
+):
     """Determine the directory name for this rank's checkpoint."""
     if release:
-        directory = 'release'
+        directory = "release"
     else:
-        directory = 'iter_{:07d}'.format(iteration)
+        directory = "iter_{:07d}".format(iteration)
 
     # Use both the tensor and pipeline MP rank.
     if pipeline_parallel is None:
-        pipeline_parallel = (mpu.get_pipeline_model_parallel_world_size() > 1)
+        pipeline_parallel = mpu.get_pipeline_model_parallel_world_size() > 1
     if tensor_rank is None:
         tensor_rank = mpu.get_tensor_model_parallel_rank()
     if pipeline_rank is None:
@@ -109,18 +126,21 @@ def get_checkpoint_name(checkpoints_path, iteration, release=False,
     # optimizer, then the optimizer's path must additionally include the
     # data parallel rank.
     if not pipeline_parallel:
-        common_path = os.path.join(checkpoints_path, directory,
-                            f'mp_rank_{tensor_rank:02d}')
+        common_path = os.path.join(
+            checkpoints_path, directory, f"mp_rank_{tensor_rank:02d}"
+        )
     else:
-        common_path = os.path.join(checkpoints_path, directory,
-                        f'mp_rank_{tensor_rank:02d}_{pipeline_rank:03d}')
+        common_path = os.path.join(
+            checkpoints_path,
+            directory,
+            f"mp_rank_{tensor_rank:02d}_{pipeline_rank:03d}",
+        )
 
     return os.path.join(common_path, "model_optim_rng.pt")
 
 
 def get_distributed_optimizer_checkpoint_name(model_checkpoint_name):
-    return os.path.join(os.path.dirname(model_checkpoint_name),
-                        "distrib_optim.pt")
+    return os.path.join(os.path.dirname(model_checkpoint_name), "distrib_optim.pt")
 
 
 def find_checkpoint_rank_0(checkpoints_path, iteration, release=False):
@@ -133,16 +153,26 @@ def find_checkpoint_rank_0(checkpoints_path, iteration, release=False):
     """
 
     # Look for checkpoint with no pipelining
-    filename = get_checkpoint_name(checkpoints_path, iteration, release,
-                                   pipeline_parallel=False,
-                                   tensor_rank=0, pipeline_rank=0)
+    filename = get_checkpoint_name(
+        checkpoints_path,
+        iteration,
+        release,
+        pipeline_parallel=False,
+        tensor_rank=0,
+        pipeline_rank=0,
+    )
     if os.path.isfile(filename):
         return filename
 
     # Look for checkpoint with pipelining
-    filename = get_checkpoint_name(checkpoints_path, iteration, release,
-                                   pipeline_parallel=True,
-                                   tensor_rank=0, pipeline_rank=0)
+    filename = get_checkpoint_name(
+        checkpoints_path,
+        iteration,
+        release,
+        pipeline_parallel=True,
+        tensor_rank=0,
+        pipeline_rank=0,
+    )
     if os.path.isfile(filename):
         return filename
 
@@ -150,29 +180,31 @@ def find_checkpoint_rank_0(checkpoints_path, iteration, release=False):
 
 
 def get_checkpoint_tracker_filename(checkpoints_path):
-
     """Tracker file rescords the latest chckpoint during
     training to restart from."""
-    return os.path.join(checkpoints_path, 'latest_checkpointed_iteration.txt')
+    return os.path.join(checkpoints_path, "latest_checkpointed_iteration.txt")
 
 
+@dlp.log
 def read_metadata(tracker_filename):
     # Read the tracker file and either set the iteration or
     # mark it as a release checkpoint.
     iteration = 0
     release = False
-    with open(tracker_filename, 'r') as f:
+    with open(tracker_filename, "r") as f:
         metastring = f.read().strip()
         try:
             iteration = int(metastring)
         except ValueError:
-            release = metastring == 'release'
+            release = metastring == "release"
             if not release:
-                print_rank_0('ERROR: Invalid metadata file {}. Exiting'.format(
-                    tracker_filename))
+                print_rank_0(
+                    "ERROR: Invalid metadata file {}. Exiting".format(tracker_filename)
+                )
                 sys.exit()
-    assert iteration > 0 or release, 'error parsing metadata file {}'.format(
-        tracker_filename)
+    assert iteration > 0 or release, "error parsing metadata file {}".format(
+        tracker_filename
+    )
 
     # Get the max iteration retrieved across the ranks.
     if torch.distributed.is_initialized():
@@ -184,10 +216,14 @@ def read_metadata(tracker_filename):
         # If not, print a warning and chose the maximum
         # iteration across all ranks.
         if iteration != max_iter:
-            print('WARNING: on rank {} found iteration {} in the '
-                  'metadata while max iteration across the ranks '
-                  'is {}, replacing it with max iteration.'.format(
-                      torch.distributed.get_rank(), iteration, max_iter), flush=True)
+            print(
+                "WARNING: on rank {} found iteration {} in the "
+                "metadata while max iteration across the ranks "
+                "is {}, replacing it with max iteration.".format(
+                    torch.distributed.get_rank(), iteration, max_iter
+                ),
+                flush=True,
+            )
     else:
         # When loading a checkpoint outside of training (for example,
         # when editing it), we might not have torch distributed
@@ -196,42 +232,52 @@ def read_metadata(tracker_filename):
     return max_iter, release
 
 
+@dlp.log
 def get_rng_state():
-    """ collect rng state across data parallel ranks """
+    """collect rng state across data parallel ranks"""
     args = get_args()
     rng_state = {
-        'random_rng_state': random.getstate(),
-        'np_rng_state': np.random.get_state(),
-        'torch_rng_state': torch.get_rng_state(),
-        'cuda_rng_state': get_accelerator().get_rng_state(),
-        'rng_tracker_states': tensor_parallel.get_cuda_rng_tracker().get_states()}
+        "random_rng_state": random.getstate(),
+        "np_rng_state": np.random.get_state(),
+        "torch_rng_state": torch.get_rng_state(),
+        "cuda_rng_state": get_accelerator().get_rng_state(),
+        "rng_tracker_states": tensor_parallel.get_cuda_rng_tracker().get_states(),
+    }
 
     rng_state_list = None
-    if torch.distributed.is_initialized() and \
-            mpu.get_data_parallel_world_size() > 1 and \
-            args.data_parallel_random_init:
-        rng_state_list = \
-            [None for i in range(mpu.get_data_parallel_world_size())]
+    if (
+        torch.distributed.is_initialized()
+        and mpu.get_data_parallel_world_size() > 1
+        and args.data_parallel_random_init
+    ):
+        rng_state_list = [None for i in range(mpu.get_data_parallel_world_size())]
         torch.distributed.all_gather_object(
-            rng_state_list,
-            rng_state,
-            group=mpu.get_data_parallel_group())
+            rng_state_list, rng_state, group=mpu.get_data_parallel_group()
+        )
     else:
         rng_state_list = [rng_state]
 
     return rng_state_list
 
 
+@dlp.log
 def save_checkpoint(iteration, model, optimizer, opt_param_scheduler):
     """Save a model checkpoint."""
     args = get_args()
+    assert args is not None
+    args_iter = args.iteration
+    if args_iter != iteration:
+        log.warning(f"{args.iteration=} != {iteration} passed to 'save_checkpoint'")
+
+    save_lr_state_dict()
 
     # Only rank zero of the data parallel writes to the disk.
     if not args.deepspeed:
         model = unwrap_model(model)
 
-    print_rank_0('saving checkpoint at iteration {:7d} to {}'.format(
-        iteration, args.save))
+    print_rank_0(
+        "saving checkpoint at iteration {:7d} to {}".format(iteration, args.save)
+    )
 
     # Collect rng state across data parallel ranks.
     rng_state = get_rng_state()
@@ -241,40 +287,44 @@ def save_checkpoint(iteration, model, optimizer, opt_param_scheduler):
 
     # Save distributed optimizer's custom parameter state.
     if args.use_distributed_optimizer:
-        optim_checkpoint_name = \
-            get_distributed_optimizer_checkpoint_name(checkpoint_name)
+        optim_checkpoint_name = get_distributed_optimizer_checkpoint_name(
+            checkpoint_name
+        )
         ensure_directory_exists(optim_checkpoint_name)
         optimizer.save_parameter_state(optim_checkpoint_name)
 
     # Collect args, model, RNG.
-    if not torch.distributed.is_initialized() \
-       or mpu.get_data_parallel_rank() == 0 or args.deepspeed:
+    if (
+        not torch.distributed.is_initialized()
+        or mpu.get_data_parallel_rank() == 0
+        or args.deepspeed
+    ):
 
         # Arguments, iteration, and model.
         state_dict = {}
-        state_dict['args'] = args
-        state_dict['checkpoint_version'] = 3.0
-        state_dict['iteration'] = iteration
-        state_dict['tokens'] = args.consumed_train_tokens
+        state_dict["args"] = args
+        state_dict["checkpoint_version"] = 3.0
+        state_dict["iteration"] = iteration
+        state_dict["tokens"] = args.consumed_train_tokens
         state_dict[UNIVERSAL_CHECKPOINT_INFO] = _universal_checkpoint_info(model)
 
         # DeepSpeed saves the model/optimizer/scheduler
         if not args.deepspeed:
             if len(model) == 1:
-                state_dict['model'] = model[0].state_dict_for_save_checkpoint()
+                state_dict["model"] = model[0].state_dict_for_save_checkpoint()
             else:
                 for i in range(len(model)):
                     mpu.set_virtual_pipeline_model_parallel_rank(i)
-                    state_dict['model%d' % i] = \
-                        model[i].state_dict_for_save_checkpoint()
+                    state_dict["model%d" % i] = model[
+                        i
+                    ].state_dict_for_save_checkpoint()
 
             # Optimizer stuff.
             if not args.no_save_optim:
                 if optimizer is not None:
-                    state_dict['optimizer'] = optimizer.state_dict()
+                    state_dict["optimizer"] = optimizer.state_dict()
                 if opt_param_scheduler is not None:
-                    state_dict['opt_param_scheduler'] = \
-                        opt_param_scheduler.state_dict()
+                    state_dict["opt_param_scheduler"] = opt_param_scheduler.state_dict()
 
         # RNG states.
         if not args.no_save_rng:
@@ -286,12 +336,18 @@ def save_checkpoint(iteration, model, optimizer, opt_param_scheduler):
             torch.save(state_dict, checkpoint_name)
 
     if args.deepspeed:
-        #megatron model uses state_dict_for_save_checkpointing instead of the standard state_dict
-        #state_dict is used by deepspeed for module saving so it needs to point to the right function
+        # megatron model uses state_dict_for_save_checkpointing instead of the standard state_dict
+        # state_dict is used by deepspeed for module saving so it needs to point to the right function
         if args.no_pipeline_parallel:
             original_state_dict = model[0].module.state_dict
-            def state_dict_for_save_checkpoint_deepspeed(destination=None, prefix='', keep_vars=False):
-                return model[0].module.state_dict_for_save_checkpoint(prefix=prefix, keep_vars=keep_vars)
+
+            def state_dict_for_save_checkpoint_deepspeed(
+                destination=None, prefix="", keep_vars=False
+            ):
+                return model[0].module.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+
             model[0].module.state_dict = state_dict_for_save_checkpoint_deepspeed
 
         # Saving is a collective communication
@@ -300,6 +356,11 @@ def state_dict_for_save_checkpoint_deepspeed(destination=None, prefix='', keep_v
         # Trim off the filename and mp_rank_* directory.
         for _ in range(3):
             checkpoint_name = os.path.dirname(checkpoint_name)
+        # try:
+        #    model[0].save_checkpoint(checkpoint_name, client_state=state_dict)
+        # except Exception:
+        #   import ezpz
+        #    ezpz.utils.breakpoint(0)
         model[0].save_checkpoint(checkpoint_name, client_state=state_dict)
 
         if args.no_pipeline_parallel:
@@ -309,13 +370,16 @@ def state_dict_for_save_checkpoint_deepspeed(destination=None, prefix='', keep_v
     if torch.distributed.is_initialized():
         torch.distributed.barrier()
 
-    print_rank_0('  successfully saved checkpoint at iteration {:7d} to {}' \
-                 .format(iteration, args.save))
+    print_rank_0(
+        "  successfully saved checkpoint at iteration {:7d} to {}".format(
+            iteration, args.save
+        )
+    )
 
     # And update the latest iteration
     if is_rank_0():
         tracker_filename = get_checkpoint_tracker_filename(args.save)
-        with open(tracker_filename, 'w') as f:
+        with open(tracker_filename, "w") as f:
             f.write(str(iteration))
 
     # Wait so everyone is done (not necessary)
@@ -323,25 +387,30 @@ def state_dict_for_save_checkpoint_deepspeed(destination=None, prefix='', keep_v
         torch.distributed.barrier()
 
 
+@dlp.log
 def _transpose_first_dim(t, num_splits, num_splits_first, model):
     input_shape = t.size()
     # We use a self_attention module but the values extracted aren't
     # specific to self attention so should work for cross attention as well
-    while hasattr(model, 'module'):
+    while hasattr(model, "module"):
         model = model.module
     attention_module = model.language_model.encoder.layers[0].self_attention
-    #attention_module = model.language_model.encoder.layers[0].attention
+    # attention_module = model.language_model.encoder.layers[0].attention
     hidden_size_per_attention_head = attention_module.hidden_size_per_attention_head
-    num_attention_heads_per_partition = attention_module.num_attention_heads_per_partition
+    num_attention_heads_per_partition = (
+        attention_module.num_attention_heads_per_partition
+    )
     if num_splits_first:
         """[num_splits * np * hn, h]
         -->(view) [num_splits, np, hn, h]
         -->(tranpose) [np, num_splits, hn, h]
-        -->(view) [np * num_splits * hn, h] """
+        -->(view) [np * num_splits * hn, h]"""
 
-        intermediate_shape = \
-            (num_splits, num_attention_heads_per_partition,
-             hidden_size_per_attention_head) + input_shape[1:]
+        intermediate_shape = (
+            num_splits,
+            num_attention_heads_per_partition,
+            hidden_size_per_attention_head,
+        ) + input_shape[1:]
 
         t = t.view(*intermediate_shape)
         t = t.transpose(0, 1).contiguous()
@@ -349,12 +418,13 @@ def _transpose_first_dim(t, num_splits, num_splits_first, model):
         """[np * hn * num_splits, h]
         -->(view) [np, hn, num_splits, h]
         -->(tranpose) [np, num_splits, hn, h]
-        -->(view) [np * num_splits * hn, h] """
+        -->(view) [np * num_splits * hn, h]"""
 
-        intermediate_shape = \
-            (num_attention_heads_per_partition,
-             hidden_size_per_attention_head, num_splits) +\
-             input_shape[1:]
+        intermediate_shape = (
+            num_attention_heads_per_partition,
+            hidden_size_per_attention_head,
+            num_splits,
+        ) + input_shape[1:]
 
         t = t.view(*intermediate_shape)
         t = t.transpose(1, 2).contiguous()
@@ -362,16 +432,17 @@ def _transpose_first_dim(t, num_splits, num_splits_first, model):
 
     return t
 
+
 def fix_query_key_value_ordering(model, checkpoint_version):
     """Fix up query/key/value matrix ordering if checkpoint
     version is smaller than 2.0
     """
     if checkpoint_version < 2.0:
         if isinstance(model, list):
-            assert len(model)==1
+            assert len(model) == 1
             model = model[0]
         for name, param in model.named_parameters():
-            if name.endswith(('.query_key_value.weight', '.query_key_value.bias')):
+            if name.endswith((".query_key_value.weight", ".query_key_value.bias")):
                 if checkpoint_version == 0:
                     fixed_param = _transpose_first_dim(param.data, 3, True, model)
                 elif checkpoint_version == 1.0:
@@ -380,7 +451,7 @@ def fix_query_key_value_ordering(model, checkpoint_version):
                     print_rank_0(f"Invalid checkpoint version {checkpoint_version}.")
                     sys.exit()
                 param.data.copy_(fixed_param)
-            if name.endswith(('.key_value.weight', '.key_value.bias')):
+            if name.endswith((".key_value.weight", ".key_value.bias")):
                 if checkpoint_version == 0:
                     fixed_param = _transpose_first_dim(param.data, 2, True, model)
                 elif checkpoint_version == 1.0:
@@ -389,12 +460,15 @@ def fix_query_key_value_ordering(model, checkpoint_version):
                     print_rank_0(f"Invalid checkpoint version {checkpoint_version}.")
                     sys.exit()
                 param.data.copy_(fixed_param)
-        print_rank_0(" succesfully fixed query-key-values ordering for"
-                    " checkpoint version {}".format(checkpoint_version))
+        print_rank_0(
+            " succesfully fixed query-key-values ordering for"
+            " checkpoint version {}".format(checkpoint_version)
+        )
 
 
+@dlp.log
 def _load_base_checkpoint(load_dir, rank0=False):
-    """ Load the base state_dict from the given directory
+    """Load the base state_dict from the given directory
 
     If rank0 is true, just loads rank 0 checkpoint, ignoring arguments.
     """
@@ -405,10 +479,12 @@ def _load_base_checkpoint(load_dir, rank0=False):
     # If no tracker file, return nothing
     if not os.path.isfile(tracker_filename):
         if not rank0:
-            print_rank_0('WARNING: could not find the metadata file {} '.format(
-                tracker_filename))
-            print_rank_0('    will not load any checkpoints and will start from '
-                         'random')
+            print_rank_0(
+                "WARNING: could not find the metadata file {} ".format(tracker_filename)
+            )
+            print_rank_0(
+                "    will not load any checkpoints and will start from " "random"
+            )
         return None, False
 
     # Otherwise, read the tracker file and either set the iteration or
@@ -421,34 +497,39 @@ def _load_base_checkpoint(load_dir, rank0=False):
     else:
         checkpoint_name = get_checkpoint_name(load_dir, iteration, release)
         if release:
-            print_rank_0(f' loading release checkpoint from {load_dir}')
+            print_rank_0(f" loading release checkpoint from {load_dir}")
         else:
-            print_rank_0(f' loading checkpoint from {load_dir} at iteration {iteration}')
+            print_rank_0(
+                f" loading checkpoint from {load_dir} at iteration {iteration}"
+            )
 
     # Load the checkpoint.
     try:
-        state_dict = torch.load(checkpoint_name, map_location='cpu')
+        state_dict = torch.load(checkpoint_name, map_location="cpu")
     except ModuleNotFoundError:
         from megatron.fp16_deprecated import loss_scaler
         # For backward compatibility.
         if not rank0:
-            print_rank_0(' > deserializing using the old code structure ...')
-        sys.modules['fp16.loss_scaler'] = sys.modules[
-            'megatron.fp16_deprecated.loss_scaler']
-        sys.modules['megatron.fp16.loss_scaler'] = sys.modules[
-            'megatron.fp16_deprecated.loss_scaler']
-        state_dict = torch.load(checkpoint_name, map_location='cpu')
-        sys.modules.pop('fp16.loss_scaler', None)
-        sys.modules.pop('megatron.fp16.loss_scaler', None)
+            print_rank_0(" > deserializing using the old code structure ...")
+        sys.modules["fp16.loss_scaler"] = sys.modules[
+            "megatron.fp16_deprecated.loss_scaler"
+        ]
+        sys.modules["megatron.fp16.loss_scaler"] = sys.modules[
+            "megatron.fp16_deprecated.loss_scaler"
+        ]
+        state_dict = torch.load(checkpoint_name, map_location="cpu")
+        sys.modules.pop("fp16.loss_scaler", None)
+        sys.modules.pop("megatron.fp16.loss_scaler", None)
     except BaseException as e:
-        print_rank_0('could not load the checkpoint')
+        print_rank_0("could not load the checkpoint")
         print_rank_0(e)
         sys.exit()
 
     return state_dict, release
 
 
-def load_args_from_checkpoint(args, load_arg='load'):
+@dlp.log
+def load_args_from_checkpoint(args, load_arg="load"):
     """Set required arguments from the checkpoint specified in the
     arguments.
 
@@ -464,27 +545,35 @@ def load_args_from_checkpoint(args, load_arg='load'):
     load_dir = getattr(args, load_arg)
 
     if load_dir is None:
-        print_rank_0('No load directory specified, using provided arguments.')
+        print_rank_0("No load directory specified, using provided arguments.")
         return args
 
     state_dict, release = _load_base_checkpoint(load_dir, rank0=True)
 
     # Args.
     if not state_dict:
-        print_rank_0('Checkpoint not found to provide arguments, using provided arguments.')
+        print_rank_0(
+            "Checkpoint not found to provide arguments, using provided arguments."
+        )
         return args
 
-    if 'args' not in state_dict:
-        print_rank_0('Checkpoint provided does not have arguments saved, using provided arguments.')
+    if "args" not in state_dict:
+        print_rank_0(
+            "Checkpoint provided does not have arguments saved, using provided arguments."
+        )
         return args
 
-    checkpoint_args = state_dict['args']
-    checkpoint_version = state_dict.get('checkpoint_version', 0)
-    args.iteration = state_dict['iteration']
+    checkpoint_args = state_dict["args"]
+    checkpoint_version = state_dict.get("checkpoint_version", 0)
+    args.iteration = state_dict["iteration"]
 
     # One-off conversion for foundation models
-    if hasattr(checkpoint_args, 'disable_bias_linear'):
-        setattr(checkpoint_args, 'add_bias_linear', not getattr(checkpoint_args, 'disable_bias_linear'))
+    if hasattr(checkpoint_args, "disable_bias_linear"):
+        setattr(
+            checkpoint_args,
+            "add_bias_linear",
+            not getattr(checkpoint_args, "disable_bias_linear"),
+        )
 
     def _set_arg(arg_name, old_arg_name=None, force=False):
         if not force and getattr(args, arg_name, None) is not None:
@@ -501,59 +590,128 @@ def _set_arg(arg_name, old_arg_name=None, force=False):
         else:
             print_rank_0(f"Checkpoint did not provide arguments {arg_name}")
 
-    _set_arg('num_layers')
-    _set_arg('hidden_size')
-    _set_arg('ffn_hidden_size')
-    _set_arg('seq_length')
-    _set_arg('num_attention_heads')
-    _set_arg('num_key_value_heads')
-    _set_arg('kv_channels')
-    _set_arg('max_position_embeddings')
-    _set_arg('add_position_embedding', force=True)
-    _set_arg('use_rotary_position_embeddings', force=True)
-    _set_arg('rotary_percent', force=True)
-    _set_arg('add_bias_linear', force=True)
-    _set_arg('swiglu', force=True)
-    _set_arg('untie_embeddings_and_output_weights', force=True)
-    _set_arg('apply_layernorm_1p', force=True)
-    _set_arg('tokenizer_type')
-    _set_arg('padded_vocab_size')
+    _set_arg("num_layers")
+    _set_arg("hidden_size")
+    _set_arg("ffn_hidden_size")
+    _set_arg("seq_length")
+    _set_arg("num_attention_heads")
+    _set_arg("num_key_value_heads")
+    _set_arg("kv_channels")
+    _set_arg("max_position_embeddings")
+    _set_arg("add_position_embedding", force=True)
+    _set_arg("use_rotary_position_embeddings", force=True)
+    _set_arg("rotary_percent", force=True)
+    _set_arg("add_bias_linear", force=True)
+    _set_arg("swiglu", force=True)
+    _set_arg("untie_embeddings_and_output_weights", force=True)
+    _set_arg("apply_layernorm_1p", force=True)
+    _set_arg("tokenizer_type")
+    _set_arg("padded_vocab_size")
     if checkpoint_version < 3.0:
-        _set_arg('tensor_model_parallel_size',
-                 'model_parallel_size')
+        _set_arg("tensor_model_parallel_size", "model_parallel_size")
     else:
-        _set_arg('tensor_model_parallel_size', force=True)
-        _set_arg('pipeline_model_parallel_size', force=True)
-        _set_arg('virtual_pipeline_model_parallel_size', force=True)
-        _set_arg('num_layers_per_virtual_pipeline_stage')
+        _set_arg("tensor_model_parallel_size", force=True)
+        _set_arg("pipeline_model_parallel_size", force=True)
+        _set_arg("virtual_pipeline_model_parallel_size", force=True)
+        _set_arg("num_layers_per_virtual_pipeline_stage")
     return args, checkpoint_args
 
 
-def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', strict=True, load_only_weights=False):
+@dlp.log
+def load_lr_state_dict(strict: bool = False) -> dict:
+    """Load {iteration, lr} from .yaml file when restoring from checkpoint."""
+    args = get_args()
+    assert args is not None
+    lr_state_dict_fp = Path(args.load).joinpath(
+        f"lr_state_dict_{RANK}_of_{WORLD_SIZE}.yaml"
+    )
+    lr_state_dict = {}
+    if lr_state_dict_fp.is_file():
+        with lr_state_dict_fp.open("r") as f:
+            lr_state_dict = yaml.safe_load(f)
+        args.lr = lr_state_dict["lr"]
+    else:
+        if strict:
+            raise FileNotFoundError(f"{lr_state_dict_fp=}.is_file() is False")
+        log.info(
+            f"Unable to load lr_state_dict from {lr_state_dict_fp=}, "
+            f"but strict=False. Returning empty dictionary: {lr_state_dict=}"
+        )
+    return lr_state_dict
+
+
+@dlp.log
+def save_lr_state_dict() -> None:
+    """Save {iteration, lr} to .yaml file for safe-keeping.
+
+    Make sure we're only saving from RANK == 0.
+    """
+    if RANK != 0:
+        return None
+    args = get_args()
+    assert args is not None
+    outdir = getattr(args, "save", None)
+    assert outdir is not None
+    lr_state_dict_fp = Path(args.save).joinpath("lr_state_dict.yaml")
+    lr_state_dict_fp.parent.mkdir(parents=True, exist_ok=True)
+    log.info(f"Saving lr_state_dict to {lr_state_dict_fp.as_posix()}")
+    with lr_state_dict_fp.open("w") as f:
+        yaml.dump({"iteration": args.iteration, "lr": args.lr}, f)
+
+
+@dlp.log
+def load_checkpoint(
+    model,
+    optimizer,
+    opt_param_scheduler,
+    load_arg: str = "load",
+    strict: bool = True,
+    load_only_weights: bool = False,
+    strict_lr_state_dict: bool = False,
+):
     """Load a model checkpoint and return the iteration.
     strict (bool): whether to strictly enforce that the keys in
         :attr:`state_dict` of the checkpoint match the names of
         parameters and buffers in model.
     """
     args = get_args()
+    assert args is not None
     load_dir = getattr(args, load_arg)
-
+    lr_state_dict = {}
+    lr_tensor = torch.tensor(args.lr, requires_grad=False, device=DEVICE)
+    if RANK == 0:
+        lr_state_dict = load_lr_state_dict(strict=strict_lr_state_dict)
+        if len(lr_state_dict.keys()) > 0 and "lr" in lr_state_dict:
+            lr_tensor = torch.tensor(
+                lr_state_dict["lr"],
+                requires_grad=False,
+                device=DEVICE,
+            )
+    tdist.broadcast(lr_tensor, 0)
+    args.lr = lr_tensor.item()
     if args.deepspeed:
         if args.finetune:
-            loaded_dir, state_dict = model[0].load_checkpoint(load_dir,
-                load_module_strict=strict, load_optimizer_states=False,
-                load_lr_scheduler_states=False, load_module_only=True,
-                tag=args.load_tag)
+            loaded_dir, state_dict = model[0].load_checkpoint(
+                load_dir,
+                load_module_strict=strict,
+                load_optimizer_states=False,
+                load_lr_scheduler_states=False,
+                load_module_only=True,
+                tag=args.load_tag,
+            )
         else:
-            loaded_dir, state_dict = model[0].load_checkpoint(load_dir,
-                load_module_strict=strict, tag=args.load_tag)
+            loaded_dir, state_dict = model[0].load_checkpoint(
+                load_dir, load_module_strict=strict, tag=args.load_tag
+            )
         if loaded_dir is None:
-            print_rank_0('WARNING: could not find the metadata file {} '.format(
-                load_dir))
-            print_rank_0('    will not load any checkpoints and will start from '
-                        'random')
+            print_rank_0(
+                "WARNING: could not find the metadata file {} ".format(load_dir)
+            )
+            print_rank_0(
+                "    will not load any checkpoints and will start from " "random"
+            )
             return 0
-        release = False        
+        release = False
     else:
         model = unwrap_model(model)
 
@@ -570,10 +728,10 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
 
             # Iteration defaults to 0.
             return 0
-    checkpoint_name = get_checkpoint_name(load_dir, state_dict['iteration'], release)
+    checkpoint_name = get_checkpoint_name(load_dir, state_dict["iteration"], release)
 
     # Set checkpoint version.
-    set_checkpoint_version(state_dict.get('checkpoint_version', 0))
+    set_checkpoint_version(state_dict.get("checkpoint_version", 0))
 
     # Set iteration.
     if args.finetune or release or args.reset_iteration or load_only_weights:
@@ -582,16 +740,17 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
         model[0].global_steps = 0
     else:
         try:
-            iteration = state_dict['iteration']
-            if 'tokens' in state_dict:
-                args.consumed_train_tokens = state_dict['tokens']
+            iteration = state_dict["iteration"]
+            if "tokens" in state_dict:
+                args.consumed_train_tokens = state_dict["tokens"]
         except KeyError:
             try:  # Backward compatible with older checkpoints
-                iteration = state_dict['total_iters']
+                iteration = state_dict["total_iters"]
             except KeyError:
-                print_rank_0('A metadata file exists but unable to load '
-                             'iteration from checkpoint {}, exiting'.format(
-                                 checkpoint_name))
+                print_rank_0(
+                    "A metadata file exists but unable to load "
+                    "iteration from checkpoint {}, exiting".format(checkpoint_name)
+                )
                 sys.exit()
 
     # Check arguments.
@@ -599,29 +758,31 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
     if not load_only_weights and not reset_train_valid_samples:
         assert args.consumed_train_samples == 0
         assert args.consumed_valid_samples == 0
-        if 'args' in state_dict and not args.finetune:
-            checkpoint_args = state_dict['args']
+        if "args" in state_dict and not args.finetune:
+            checkpoint_args = state_dict["args"]
             check_checkpoint_args(checkpoint_args)
-            args.consumed_train_samples = getattr(checkpoint_args,
-                                                'consumed_train_samples', 0)
+            args.consumed_train_samples = getattr(
+                checkpoint_args, "consumed_train_samples", 0
+            )
             update_num_microbatches(consumed_samples=args.consumed_train_samples)
-            args.consumed_valid_samples = getattr(checkpoint_args,
-                                                'consumed_valid_samples', 0)
+            args.consumed_valid_samples = getattr(
+                checkpoint_args, "consumed_valid_samples", 0
+            )
         else:
-            print_rank_0('could not find arguments in the checkpoint ...')
+            print_rank_0("could not find arguments in the checkpoint ...")
 
     # Model.
     if not args.deepspeed:
         if len(model) == 1:
-            model[0].load_state_dict(state_dict['model'], strict=strict)
+            model[0].load_state_dict(state_dict["model"], strict=strict)
         else:
             for i in range(len(model)):
                 mpu.set_virtual_pipeline_model_parallel_rank(i)
-                model[i].load_state_dict(state_dict['model%d' % i], strict=strict)
+                model[i].load_state_dict(state_dict["model%d" % i], strict=strict)
 
     # Fix up query/key/value matrix ordering if needed.
     checkpoint_version = get_checkpoint_version()
-    print_rank_0(f' checkpoint version {checkpoint_version}')
+    print_rank_0(f" checkpoint version {checkpoint_version}")
     fix_query_key_value_ordering(model, checkpoint_version)
 
     # Optimizer.
@@ -630,30 +791,35 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
             try:
                 # Load state dict.
                 if optimizer is not None:
-                    optimizer.load_state_dict(state_dict['optimizer'])
+                    optimizer.load_state_dict(state_dict["optimizer"])
 
                 # Load distributed optimizer's custom parameter state.
                 if args.use_distributed_optimizer:
                     tracker_filename = get_checkpoint_tracker_filename(load_dir)
                     iteration, release = read_metadata(tracker_filename)
-                    model_checkpoint_name = \
-                        get_checkpoint_name(load_dir, iteration, release)
-                    optim_checkpoint_name = \
-                        get_distributed_optimizer_checkpoint_name(
-                            model_checkpoint_name)
+                    model_checkpoint_name = get_checkpoint_name(
+                        load_dir, iteration, release
+                    )
+                    optim_checkpoint_name = get_distributed_optimizer_checkpoint_name(
+                        model_checkpoint_name
+                    )
                     optimizer.load_parameter_state(optim_checkpoint_name)
 
                 # Load scheduler.
                 if opt_param_scheduler is not None:
-                    if 'lr_scheduler' in state_dict: # backward compatbility
-                        opt_param_scheduler.load_state_dict(state_dict['lr_scheduler'])
+                    if "lr_scheduler" in state_dict:  # backward compatbility
+                        opt_param_scheduler.load_state_dict(state_dict["lr_scheduler"])
                     else:
-                        opt_param_scheduler.load_state_dict(state_dict['opt_param_scheduler'])
+                        opt_param_scheduler.load_state_dict(
+                            state_dict["opt_param_scheduler"]
+                        )
             except KeyError:
-                print_rank_0('Unable to load optimizer from checkpoint {}. '
-                            'Specify --no-load-optim or --finetune to prevent '
-                            'attempting to load the optimizer state, '
-                            'exiting ...'.format(checkpoint_name))
+                print_rank_0(
+                    "Unable to load optimizer from checkpoint {}. "
+                    "Specify --no-load-optim or --finetune to prevent "
+                    "attempting to load the optimizer state, "
+                    "exiting ...".format(checkpoint_name)
+                )
                 sys.exit()
         else:
             if (args.fp16 or args.bf16) and optimizer is not None:
@@ -662,36 +828,40 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
     # rng states.
     if not release and not args.finetune and not args.no_load_rng:
         try:
-            if 'rng_state' in state_dict:
+            if "rng_state" in state_dict:
                 # access rng_state for data parallel rank
                 if args.data_parallel_random_init:
-                    rng_state = state_dict['rng_state'][mpu.get_data_parallel_rank()]
+                    rng_state = state_dict["rng_state"][mpu.get_data_parallel_rank()]
                 else:
-                    rng_state = state_dict['rng_state'][0]
-                random.setstate(rng_state['random_rng_state'])
-                np.random.set_state(rng_state['np_rng_state'])
-                torch.set_rng_state(rng_state['torch_rng_state'])
-                get_accelerator().set_rng_state(rng_state['cuda_rng_state'])
+                    rng_state = state_dict["rng_state"][0]
+                random.setstate(rng_state["random_rng_state"])
+                np.random.set_state(rng_state["np_rng_state"])
+                torch.set_rng_state(rng_state["torch_rng_state"])
+                get_accelerator().set_rng_state(rng_state["cuda_rng_state"])
                 # Check for empty states array
-                if not rng_state['rng_tracker_states']:
+                if not rng_state["rng_tracker_states"]:
                     raise KeyError
                 tensor_parallel.get_cuda_rng_tracker().set_states(
-                    rng_state['rng_tracker_states'])
+                    rng_state["rng_tracker_states"]
+                )
             else:  # backward compatability
-                random.setstate(state_dict['random_rng_state'])
-                np.random.set_state(state_dict['np_rng_state'])
-                torch.set_rng_state(state_dict['torch_rng_state'])
-                get_accelerator().set_rng_state(state_dict['cuda_rng_state'])
+                random.setstate(state_dict["random_rng_state"])
+                np.random.set_state(state_dict["np_rng_state"])
+                torch.set_rng_state(state_dict["torch_rng_state"])
+                get_accelerator().set_rng_state(state_dict["cuda_rng_state"])
                 # Check for empty states array
-                if not state_dict['rng_tracker_states']:
+                if not state_dict["rng_tracker_states"]:
                     raise KeyError
                 tensor_parallel.get_cuda_rng_tracker().set_states(
-                    state_dict['rng_tracker_states'])
+                    state_dict["rng_tracker_states"]
+                )
         except KeyError:
-            print_rank_0('Unable to load rng state from checkpoint {}. '
-                         'Specify --no-load-rng or --finetune to prevent '
-                         'attempting to load the rng state, '
-                         'exiting ...'.format(checkpoint_name))
+            print_rank_0(
+                "Unable to load rng state from checkpoint {}. "
+                "Specify --no-load-rng or --finetune to prevent "
+                "attempting to load the rng state, "
+                "exiting ...".format(checkpoint_name)
+            )
             sys.exit()
 
         if args.universal_checkpoint:
@@ -709,19 +879,29 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
             # In the case of mp configuration change, we reconfigure the model-parallel-rng states s.t. each
             # tp-rank will have a unique state. In order to ensure that subsequent loads from universal will
             # not cause the model-parallel-rng states to be repeated, we add the iteration number to the base seed.
-            ckp_args = state_dict['args']
-            if ((args.tensor_model_parallel_size != ckp_args.tensor_model_parallel_size)
-                    or (args.pipeline_model_parallel_size != ckp_args.pipeline_model_parallel_size)):
-                print_rank_0(' loading universal checkpoint with modified mp configuration '
-                             '-> reconfigure tp seed')
-                tensor_parallel.model_parallel_reconfigure_tp_seed(args.seed + iteration)
+            ckp_args = state_dict["args"]
+            if (
+                args.tensor_model_parallel_size != ckp_args.tensor_model_parallel_size
+            ) or (
+                args.pipeline_model_parallel_size
+                != ckp_args.pipeline_model_parallel_size
+            ):
+                print_rank_0(
+                    " loading universal checkpoint with modified mp configuration "
+                    "-> reconfigure tp seed"
+                )
+                tensor_parallel.model_parallel_reconfigure_tp_seed(
+                    args.seed + iteration
+                )
 
     # Some utilities want to load a checkpoint without distributed being initialized
     if torch.distributed.is_initialized():
         torch.distributed.barrier()
 
-    print_rank_0(f'  successfully loaded checkpoint from {args.load} '
-                 f'at iteration {iteration}')
+    print_rank_0(
+        f"  successfully loaded checkpoint from {args.load} "
+        f"at iteration {iteration}"
+    )
 
     # from .utils import dump_weights, dump_position_embed_weights
     # dump_weights(f'{args.universal_checkpoint=}', iteration, model, optimizer)
@@ -730,8 +910,10 @@ def load_checkpoint(model, optimizer, opt_param_scheduler, load_arg='load', stri
     return iteration
 
 
-def load_biencoder_checkpoint(model, only_query_model=False,
-        only_context_model=False, custom_load_path=None):
+@dlp.log
+def load_biencoder_checkpoint(
+    model, only_query_model=False, only_context_model=False, custom_load_path=None
+):
     """
     selectively load retrieval models for indexing/retrieving
     from saved checkpoints
@@ -744,31 +926,34 @@ def load_biencoder_checkpoint(model, only_query_model=False,
     load_path = custom_load_path if custom_load_path is not None else args.load
 
     tracker_filename = get_checkpoint_tracker_filename(load_path)
-    with open(tracker_filename, 'r') as f:
+    with open(tracker_filename, "r") as f:
         iteration = int(f.read().strip())
 
-    checkpoint_name = get_checkpoint_name(load_path, iteration,
-                                          args.use_distributed_optimizer,
-                                          release=False)
+    checkpoint_name = get_checkpoint_name(
+        load_path, iteration, args.use_distributed_optimizer, release=False
+    )
 
     if mpu.get_data_parallel_rank() == 0:
-        print('global rank {} is loading checkpoint {}'.format(
-            torch.distributed.get_rank(), checkpoint_name))
+        print(
+            "global rank {} is loading checkpoint {}".format(
+                torch.distributed.get_rank(), checkpoint_name
+            )
+        )
 
-    state_dict = torch.load(checkpoint_name, map_location='cpu')
-    ret_state_dict = state_dict['model']
+    state_dict = torch.load(checkpoint_name, map_location="cpu")
+    ret_state_dict = state_dict["model"]
 
     if only_query_model:
-        ret_state_dict.pop('context_model')
+        ret_state_dict.pop("context_model")
     if only_context_model:
-        ret_state_dict.pop('query_model')
+        ret_state_dict.pop("query_model")
 
     assert len(model) == 1
     model[0].load_state_dict(ret_state_dict)
     torch.distributed.barrier()
 
     if mpu.get_data_parallel_rank() == 0:
-        print(' successfully loaded {}'.format(checkpoint_name))
+        print(" successfully loaded {}".format(checkpoint_name))
 
     return model
 
diff --git a/megatron/core/__init__.py b/megatron/core/__init__.py
index a10f04d164e..010adce64c8 100644
--- a/megatron/core/__init__.py
+++ b/megatron/core/__init__.py
@@ -7,9 +7,4 @@
 # Alias parallel_state as mpu, its legacy name
 mpu = parallel_state
 
-__all__ = [
-    "parallel_state",
-    "tensor_parallel",
-    "utils",
-    "ModelParallelConfig"
-]
+__all__ = ["parallel_state", "tensor_parallel", "utils", "ModelParallelConfig"]
diff --git a/megatron/core/enums.py b/megatron/core/enums.py
index cf1452b23e4..46e7d3b766a 100644
--- a/megatron/core/enums.py
+++ b/megatron/core/enums.py
@@ -2,6 +2,7 @@
 
 import enum
 
+
 class ModelType(enum.Enum):
     encoder_or_decoder = 1
     encoder_and_decoder = 2
diff --git a/megatron/core/fusions/fused_bias_dropout.py b/megatron/core/fusions/fused_bias_dropout.py
index 5c0d49c972c..a790e392490 100644
--- a/megatron/core/fusions/fused_bias_dropout.py
+++ b/megatron/core/fusions/fused_bias_dropout.py
@@ -3,6 +3,7 @@
 import torch
 from typing import Tuple, Optional
 
+
 def _bias_dropout_add_func(x, bias, residual, prob, training):
     # type: (Tensor, Optional[Tensor], Tensor, float, bool) -> Tensor
     # NOTE: Previously, the argument `bias` used to be passed as
@@ -16,28 +17,29 @@ def _bias_dropout_add_func(x, bias, residual, prob, training):
     out = residual + out
     return out
 
+
 def get_bias_dropout_add(training, fused):
 
     def unfused_bias_dropout_add(x_with_bias, residual, prob):
-        x, bias = x_with_bias # unpack
+        x, bias = x_with_bias  # unpack
         return _bias_dropout_add_func(x, bias, residual, prob, training)
 
     @torch.jit.script
     def bias_dropout_add_fused_train(
         x_with_bias: Tuple[torch.Tensor, Optional[torch.Tensor]],
         residual: torch.Tensor,
-        prob: float
+        prob: float,
     ) -> torch.Tensor:
-        x, bias = x_with_bias # unpack
+        x, bias = x_with_bias  # unpack
         return _bias_dropout_add_func(x, bias, residual, prob, True)
 
     @torch.jit.script
     def bias_dropout_add_fused_inference(
         x_with_bias: Tuple[torch.Tensor, Optional[torch.Tensor]],
         residual: torch.Tensor,
-        prob: float
+        prob: float,
     ) -> torch.Tensor:
-        x, bias = x_with_bias # unpack
+        x, bias = x_with_bias  # unpack
         return _bias_dropout_add_func(x, bias, residual, prob, False)
 
     if fused:
diff --git a/megatron/core/fusions/fused_bias_gelu.py b/megatron/core/fusions/fused_bias_gelu.py
index 29222db024e..ac632705b46 100644
--- a/megatron/core/fusions/fused_bias_gelu.py
+++ b/megatron/core/fusions/fused_bias_gelu.py
@@ -11,10 +11,12 @@
 # actual gelu is:
 # x * 0.5 * (1.0 + torch.erf(x * 0.70710678))
 
+
 @torch.jit.script
 def bias_gelu(bias, y):
     x = bias + y
-    return  x * 0.5 * (1.0 + torch.tanh(0.79788456 * x * (1 + 0.044715 * x * x)))
+    return x * 0.5 * (1.0 + torch.tanh(0.79788456 * x * (1 + 0.044715 * x * x)))
+
 
 # gradient of tanh approximation of gelu
 # gradient of actual gelu is:
@@ -24,10 +26,14 @@ def bias_gelu_back(g, bias, y):
     x = bias + y
     tanh_out = torch.tanh(0.79788456 * x * (1 + 0.044715 * x * x))
     # sqrt(2/pi) * 3 * 0.044715 -> 0.1070322243
-    ff = 0.5 * x * ((1 - tanh_out * tanh_out) * (0.79788456 + 0.1070322243 * x * x)) + 0.5 * (1 + tanh_out)
-    return ff*g
+    ff = 0.5 * x * (
+        (1 - tanh_out * tanh_out) * (0.79788456 + 0.1070322243 * x * x)
+    ) + 0.5 * (1 + tanh_out)
+    return ff * g
+
 
 class GeLUFunction(torch.autograd.Function):
+
     @staticmethod
     # bias is an optional argument
     def forward(ctx, input, bias):
@@ -40,4 +46,5 @@ def backward(ctx, grad_output):
         tmp = bias_gelu_back(grad_output, bias, input)
         return tmp, tmp
 
+
 bias_gelu_impl = GeLUFunction.apply
diff --git a/megatron/core/fusions/fused_layer_norm.py b/megatron/core/fusions/fused_layer_norm.py
index ae0c3b987af..37f7e95109f 100644
--- a/megatron/core/fusions/fused_layer_norm.py
+++ b/megatron/core/fusions/fused_layer_norm.py
@@ -10,12 +10,14 @@
 
 try:
     from apex.contrib.layer_norm.layer_norm import FastLayerNormFN
+
     HAVE_PERSIST_LAYER_NORM = True
 except:
     HAVE_PERSIST_LAYER_NORM = False
 
 try:
     from apex.normalization.fused_layer_norm import FusedLayerNormAffineFunction
+
     HAVE_FUSED_LAYER_NORM = True
 except:
     HAVE_FUSED_LAYER_NORM = False
@@ -23,10 +25,14 @@
 
 class FusedLayerNorm(torch.nn.Module):
 
-  def __init__(self, hidden_size, eps=1e-5,
-               persist_layer_norm=True,
-               sequence_parallel=False,
-               zero_centered_gamma=False):
+    def __init__(
+        self,
+        hidden_size,
+        eps=1e-5,
+        persist_layer_norm=True,
+        sequence_parallel=False,
+        zero_centered_gamma=False,
+    ):
         super().__init__()
 
         self.zero_centered_gamma = zero_centered_gamma
@@ -34,15 +40,38 @@ def __init__(self, hidden_size, eps=1e-5,
         # List of hiddens sizes supported in the persistent layer norm kernel
         # If the hidden size is not supported, fall back to the non-persistent
         # kernel.
-        persist_ln_hidden_sizes = [1024, 1536, 2048, 2304, 3072, 3840, 4096,
-            5120, 6144, 8192, 10240, 12288, 12800, 15360, 16384, 18432, 20480,
-            24576, 25600, 30720, 32768, 40960, 49152, 65536]
+        persist_ln_hidden_sizes = [
+            1024,
+            1536,
+            2048,
+            2304,
+            3072,
+            3840,
+            4096,
+            5120,
+            6144,
+            8192,
+            10240,
+            12288,
+            12800,
+            15360,
+            16384,
+            18432,
+            20480,
+            24576,
+            25600,
+            30720,
+            32768,
+            40960,
+            49152,
+            65536,
+        ]
         if hidden_size not in persist_ln_hidden_sizes or not HAVE_PERSIST_LAYER_NORM:
             persist_layer_norm = False
 
         if not persist_layer_norm and not HAVE_FUSED_LAYER_NORM:
             # TODO: Add pytorch only layer norm
-            raise ValueError(f'Apex must currently be installed to use megatron core.')
+            raise ValueError(f"Apex must currently be installed to use megatron core.")
 
         if isinstance(hidden_size, numbers.Integral):
             hidden_size = (hidden_size,)
@@ -55,35 +84,36 @@ def __init__(self, hidden_size, eps=1e-5,
         self.sequence_parallel = sequence_parallel
 
         # set sequence parallelism flag on weight and bias parameters
-        setattr(self.weight, 'sequence_parallel', self.sequence_parallel)
-        setattr(self.bias, 'sequence_parallel', self.sequence_parallel)
-
+        setattr(self.weight, "sequence_parallel", self.sequence_parallel)
+        setattr(self.bias, "sequence_parallel", self.sequence_parallel)
 
-  def reset_parameters(self):
+    def reset_parameters(self):
 
-    if self.zero_centered_gamma:
-        init.zeros_(self.weight)
-        init.zeros_(self.bias)
-    else:
-        init.ones_(self.weight)
-        init.zeros_(self.bias)
+        if self.zero_centered_gamma:
+            init.zeros_(self.weight)
+            init.zeros_(self.bias)
+        else:
+            init.ones_(self.weight)
+            init.zeros_(self.bias)
 
-  def forward(self, input):
+    def forward(self, input):
 
-    weight = self.weight + 1 if self.zero_centered_gamma else self.weight
+        weight = self.weight + 1 if self.zero_centered_gamma else self.weight
 
-    if self.persist_layer_norm:
-        output = FastLayerNormFN.apply(input, weight, self.bias, self.eps)
+        if self.persist_layer_norm:
+            output = FastLayerNormFN.apply(input, weight, self.bias, self.eps)
 
-        # Apex's fast layer norm function outputs a 'view' tensor (i.e., has
-        # a populated '_base' field). This will result in schedule.py's
-        # deallocate_output_tensor() throwing an error, so a viewless tensor is
-        # created to prevent this.
-        output = make_viewless_tensor(inp = output,
-                                      requires_grad = input.requires_grad,
-                                      keep_graph = True)
+            # Apex's fast layer norm function outputs a 'view' tensor (i.e., has
+            # a populated '_base' field). This will result in schedule.py's
+            # deallocate_output_tensor() throwing an error, so a viewless tensor is
+            # created to prevent this.
+            output = make_viewless_tensor(
+                inp=output, requires_grad=input.requires_grad, keep_graph=True
+            )
 
-    else:
-        output = FusedLayerNormAffineFunction.apply(input, weight, self.bias, self.hidden_size, self.eps)
+        else:
+            output = FusedLayerNormAffineFunction.apply(
+                input, weight, self.bias, self.hidden_size, self.eps
+            )
 
-    return output
+        return output
diff --git a/megatron/core/fusions/fused_softmax.py b/megatron/core/fusions/fused_softmax.py
index bd31f934d7f..91afb44c224 100644
--- a/megatron/core/fusions/fused_softmax.py
+++ b/megatron/core/fusions/fused_softmax.py
@@ -81,9 +81,7 @@ def forward(ctx, inputs, scale):
 
         scale_t = torch.tensor([scale])
 
-        softmax_results = scaled_softmax_cuda.forward(
-            inputs, scale_t[0]
-        )
+        softmax_results = scaled_softmax_cuda.forward(inputs, scale_t[0])
         ctx.save_for_backward(softmax_results, scale_t)
         return softmax_results
 
@@ -157,7 +155,7 @@ def is_kernel_available(self, mask, b, np, sq, sk):
             and self.input_in_float16  # input must be fp16
             and 16 < sk <= 4096  # sk must be 16 ~ 2048
             and sq % 4 == 0  # sq must be divisor of 4
-            and sk % 4 == 0  # sk must be divisor of 4 
+            and sk % 4 == 0  # sk must be divisor of 4
             and attn_batches % 4 == 0  # np * b must be divisor of 4
         ):
             if 0 <= sk <= 4096:
diff --git a/megatron/core/model_parallel_config.py b/megatron/core/model_parallel_config.py
index 441e5a892d0..f267407fb3f 100644
--- a/megatron/core/model_parallel_config.py
+++ b/megatron/core/model_parallel_config.py
@@ -5,6 +5,7 @@
 
 import torch
 
+
 @dataclass
 class ModelParallelConfig:
     """Base configuration for Megatron Core
@@ -70,7 +71,7 @@ class ModelParallelConfig:
     enable_autocast (bool): If true runs the forward step function inside torch.autocast context. Default is False.
 
     autocast_dtype (torch.dtype): dtype to pass to torch.amp.autocast when enabled. Default is pipeline_dtype.
-    
+
     variable_seq_lengths (bool, default=False): Support for variable sequence lengths across microbatches. Setting this
         communicates the size of tensors during pipeline parallelism communication, because of this extra overhead it
         should only be set if the sequence length varies by microbatch within a global batch.
@@ -128,7 +129,7 @@ class ModelParallelConfig:
     # Optimizations
     gradient_accumulation_fusion: bool = False
     async_tensor_model_parallel_allreduce: bool = False
-    
+
     # Pipeline Parallel
     pipeline_dtype: torch.dtype = None
     grad_scale_func: Callable = None
@@ -146,19 +147,23 @@ class ModelParallelConfig:
     param_sync_func: Callable = None
 
     def __post_init__(self):
-        """ Python dataclass method that is used to modify attributes after initialization.
-            See https://docs.python.org/3/library/dataclasses.html#post-init-processing for more details.
+        """Python dataclass method that is used to modify attributes after initialization.
+        See https://docs.python.org/3/library/dataclasses.html#post-init-processing for more details.
         """
         if self.sequence_parallel:
             if self.tensor_model_parallel_size <= 1:
-                raise ValueError("Can not use sequence paralllelism without tensor parallelism")
+                raise ValueError(
+                    "Can not use sequence paralllelism without tensor parallelism"
+                )
             if self.async_tensor_model_parallel_allreduce:
                 # sequence_parallelism already does this async
                 self.async_tensor_model_parallel_allreduce = False
 
         if self.pipeline_model_parallel_size > 1:
             if self.pipeline_dtype is None:
-                raise ValueError("When using pipeline parallelism, pipeline_dtype must be specified")
+                raise ValueError(
+                    "When using pipeline parallelism, pipeline_dtype must be specified"
+                )
 
         if self.autocast_dtype is None:
             self.autocast_dtype = self.params_dtype
diff --git a/megatron/core/models/gpt/gpt_embedding.py b/megatron/core/models/gpt/gpt_embedding.py
index 0a06dd719f9..b3fd9be6354 100644
--- a/megatron/core/models/gpt/gpt_embedding.py
+++ b/megatron/core/models/gpt/gpt_embedding.py
@@ -7,6 +7,8 @@
 from megatron.core.transformer.module import MegatronModule
 from megatron.core.transformer.transformer_config import TransformerConfig
 
+from megatron.core.utils import init_method_normal
+
 
 class GPTEmbedding(MegatronModule):
     """Language model embeddings.
@@ -19,7 +21,9 @@ class GPTEmbedding(MegatronModule):
         embedding_dropout_prob float): dropout probability for embeddings
     """
 
-    def __init__(self, config: TransformerConfig, vocab_size: int, max_sequence_length: int):
+    def __init__(
+        self, config: TransformerConfig, vocab_size: int, max_sequence_length: int
+    ):
         super().__init__(config=config)
 
         self.config: TransformerConfig = config
@@ -30,15 +34,18 @@ def __init__(self, config: TransformerConfig, vocab_size: int, max_sequence_leng
         self.word_embeddings = tensor_parallel.VocabParallelEmbedding(
             num_embeddings=self.vocab_size,
             embedding_dim=self.config.hidden_size,
-            init_method=self.config.init_method,
-            config=self.config
+            # init_method=self.config.init_method,
+            init_method=self.config.world_embedding_init_method,
+            config=self.config,
         )
         # @jcasper are these keys needed?
-        self._word_embeddings_key = 'word_embeddings'
+        self._word_embeddings_key = "word_embeddings"
 
         # Position embedding (serial).
-        self.position_embeddings = torch.nn.Embedding(self.max_sequence_length, self.config.hidden_size)
-        self._position_embeddings_key = 'position_embeddings'
+        self.position_embeddings = torch.nn.Embedding(
+            self.max_sequence_length, self.config.hidden_size
+        )
+        self._position_embeddings_key = "position_embeddings"
 
         # Initialize the position embeddings.
         if self.config.perform_initialization:
@@ -77,14 +84,16 @@ def forward(self, input_ids, position_ids):
 
         return embeddings
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load."""
 
         state_dict_ = {}
-        state_dict_[self._word_embeddings_key] = self.word_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
-        state_dict_[self._position_embeddings_key] = self.position_embeddings.state_dict(
+        state_dict_[self._word_embeddings_key] = self.word_embeddings.state_dict(
             prefix=prefix, keep_vars=keep_vars
         )
+        state_dict_[self._position_embeddings_key] = (
+            self.position_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+        )
 
         return state_dict_
 
@@ -98,8 +107,8 @@ def load_state_dict(self, state_dict, strict=True):
             # for backward compatibility.
             state_dict_ = {}
             for key in state_dict.keys():
-                if 'word_embeddings' in key:
-                    state_dict_[key.split('word_embeddings.')[1]] = state_dict[key]
+                if "word_embeddings" in key:
+                    state_dict_[key.split("word_embeddings.")[1]] = state_dict[key]
         self.word_embeddings.load_state_dict(state_dict_, strict=strict)
 
         # Position embedding.
@@ -109,6 +118,6 @@ def load_state_dict(self, state_dict, strict=True):
             # for backward compatibility.
             state_dict_ = {}
             for key in state_dict.keys():
-                if 'position_embeddings' in key:
-                    state_dict_[key.split('position_embeddings.')[1]] = state_dict[key]
+                if "position_embeddings" in key:
+                    state_dict_[key.split("position_embeddings.")[1]] = state_dict[key]
         self.position_embeddings.load_state_dict(state_dict_, strict=strict)
diff --git a/megatron/core/models/gpt/gpt_model.py b/megatron/core/models/gpt/gpt_model.py
index ae51db69790..17323a88501 100644
--- a/megatron/core/models/gpt/gpt_model.py
+++ b/megatron/core/models/gpt/gpt_model.py
@@ -60,7 +60,9 @@ def __init__(
         # Embeddings.
         if self.pre_process:
             self.embedding = GPTEmbedding(
-                config=self.config, vocab_size=self.vocab_size, max_sequence_length=self.max_sequence_length,
+                config=self.config,
+                vocab_size=self.vocab_size,
+                max_sequence_length=self.max_sequence_length,
             )
 
         # Transformer.
@@ -81,20 +83,24 @@ def __init__(
                 bias=False,
                 skip_bias_add=False,
                 gather_output=not self.parallel_output,
-                skip_weight_param_allocation=self.pre_process and self.share_embeddings_and_output_weights)
+                skip_weight_param_allocation=self.pre_process
+                and self.share_embeddings_and_output_weights,
+            )
 
-        if self.share_embeddings_and_output_weights and (self.pre_process or self.post_process):
+        if self.share_embeddings_and_output_weights and (
+            self.pre_process or self.post_process
+        ):
             self.initialize_last_stage_with_word_embeddings()
 
     def set_input_tensor(self, input_tensor):
-        """ See megatron.model.transformer.set_input_tensor()"""
+        """See megatron.model.transformer.set_input_tensor()"""
 
         # This is usually handled in schedules.py but some inference code still
         # gives us non-lists or None
         if not isinstance(input_tensor, list):
             input_tensor = [input_tensor]
 
-        assert len(input_tensor) == 1, 'input_tensor should only be length 1 for gpt'
+        assert len(input_tensor) == 1, "input_tensor should only be length 1 for gpt"
         self.decoder.set_input_tensor(input_tensor[0])
 
     def forward(
@@ -108,7 +114,9 @@ def forward(
 
         # Encoder embedding.
         if self.pre_process:
-            decoder_input = self.embedding(input_ids=input_ids, position_ids=position_ids)
+            decoder_input = self.embedding(
+                input_ids=input_ids, position_ids=position_ids
+            )
         else:
             # intermediate stage of pipeline
             # encoder will get hidden_states from encoder.input_tensor
@@ -116,7 +124,9 @@ def forward(
 
         # Run encoder.
         hidden_states = self.decoder(
-            hidden_states=decoder_input, attention_mask=attention_mask, inference_params=inference_params
+            hidden_states=decoder_input,
+            attention_mask=attention_mask,
+            inference_params=inference_params,
         )
 
         if not self.post_process:
@@ -153,7 +163,9 @@ def initialize_last_stage_with_word_embeddings(self):
         # when we are using pipeline parallelism and sharing word
         # embeddings. Nothing to do if we aren't sharing weights or aren't using
         # pipeline parallelism.
-        if not self.share_embeddings_and_output_weights or (self.pre_process and self.post_process):
+        if not self.share_embeddings_and_output_weights or (
+            self.pre_process and self.post_process
+        ):
             return
 
         if self.post_process and not self.pre_process:
@@ -181,7 +193,9 @@ def initialize_last_stage_with_word_embeddings(self):
         if torch.distributed.is_initialized():
             if parallel_state.is_rank_in_embedding_group():
                 weight = self.shared_embedding_or_output_weight()
-                torch.distributed.all_reduce(weight.data, group=parallel_state.get_embedding_group())
+                torch.distributed.all_reduce(
+                    weight.data, group=parallel_state.get_embedding_group()
+                )
 
         elif not getattr(GPTModel, "embedding_warning_printed", False):
             logging.getLogger(__name__).warning(
@@ -194,7 +208,7 @@ def initialize_last_stage_with_word_embeddings(self):
             GPTModel.embedding_warning_printed = True
 
     # TODO: add distributed checkpointing
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         pass
         # """For easy load."""
 
diff --git a/megatron/core/package_info.py b/megatron/core/package_info.py
index 73fbf09e7bd..3e4faeebe31 100644
--- a/megatron/core/package_info.py
+++ b/megatron/core/package_info.py
@@ -4,20 +4,20 @@
 MAJOR = 0
 MINOR = 2
 PATCH = 0
-PRE_RELEASE = ''
+PRE_RELEASE = ""
 
 # Use the following formatting: (major, minor, patch, pre-release)
 VERSION = (MAJOR, MINOR, PATCH, PRE_RELEASE)
 
-__shortversion__ = '.'.join(map(str, VERSION[:3]))
-__version__ = '.'.join(map(str, VERSION[:3])) + ''.join(VERSION[3:])
+__shortversion__ = ".".join(map(str, VERSION[:3]))
+__version__ = ".".join(map(str, VERSION[:3])) + "".join(VERSION[3:])
 
-__package_name__ = 'megatron_core'
-__contact_names__ = 'NVIDIA'
-__contact_emails__ = 'nemo-toolkit@nvidia.com' # use NeMo Email
-__homepage__ = 'https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/' # use NeMo homepage
-__repository_url__ = 'https://github.com/NVIDIA/Megatron-LM/megatron/core'
-__download_url__ = 'https://github.com/NVIDIA/Megatron-LM/releases'
-__description__ = 'Megatron Core - a library for efficient and scalable training of transformer based models'
-__license__ = 'BSD-3'
-__keywords__ = 'deep learning, machine learning, gpu, NLP, NLU, language, transformer, nvidia, pytorch, torch'
+__package_name__ = "megatron_core"
+__contact_names__ = "NVIDIA"
+__contact_emails__ = "nemo-toolkit@nvidia.com"  # use NeMo Email
+__homepage__ = "https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/"  # use NeMo homepage
+__repository_url__ = "https://github.com/NVIDIA/Megatron-LM/megatron/core"
+__download_url__ = "https://github.com/NVIDIA/Megatron-LM/releases"
+__description__ = "Megatron Core - a library for efficient and scalable training of transformer based models"
+__license__ = "BSD-3"
+__keywords__ = "deep learning, machine learning, gpu, NLP, NLU, language, transformer, nvidia, pytorch, torch"
diff --git a/megatron/core/parallel_state.py b/megatron/core/parallel_state.py
index 819760e98bd..cae60de40b5 100644
--- a/megatron/core/parallel_state.py
+++ b/megatron/core/parallel_state.py
@@ -143,30 +143,42 @@ def initialize_model_parallel(
 
     enable_ds_sequence_parallel = sequence_parallel_size > 1
     if enable_ds_sequence_parallel:
-        assert tensor_model_parallel_size == 1 and pipeline_model_parallel_size == 1, \
-        'DeepSpeed\'s sequence parallel does not work with tensor parallel or pipeline parallel'
+        assert (
+            tensor_model_parallel_size == 1 and pipeline_model_parallel_size == 1
+        ), "DeepSpeed's sequence parallel does not work with tensor parallel or pipeline parallel"
 
         if world_size % sequence_parallel_size != 0:
             raise RuntimeError(
                 f"world_size ({world_size}) is not divisible by sequence_parallel_size {sequence_parallel_size})"
             )
 
-    data_parallel_size: int = world_size // (tensor_model_parallel_size * pipeline_model_parallel_size * sequence_parallel_size)
+    data_parallel_size: int = world_size // (
+        tensor_model_parallel_size
+        * pipeline_model_parallel_size
+        * sequence_parallel_size
+    )
     sequence_data_parallel_size: int = sequence_parallel_size * data_parallel_size
 
     num_tensor_model_parallel_groups: int = world_size // tensor_model_parallel_size
     num_pipeline_model_parallel_groups: int = world_size // pipeline_model_parallel_size
     num_data_parallel_groups: int = world_size // data_parallel_size
     num_sequence_parallel_groups: int = world_size // sequence_parallel_size
-    num_sequence_data_parallel_groups: int = world_size // sequence_parallel_size // data_parallel_size
+    num_sequence_data_parallel_groups: int = (
+        world_size // sequence_parallel_size // data_parallel_size
+    )
 
     if virtual_pipeline_model_parallel_size is not None:
         if not pipeline_model_parallel_size > 2:
-            raise RuntimeError("pipeline-model-parallel size should be greater than 2 with " "interleaved schedule")
+            raise RuntimeError(
+                "pipeline-model-parallel size should be greater than 2 with "
+                "interleaved schedule"
+            )
         global _VIRTUAL_PIPELINE_MODEL_PARALLEL_RANK
         global _VIRTUAL_PIPELINE_MODEL_PARALLEL_WORLD_SIZE
         _VIRTUAL_PIPELINE_MODEL_PARALLEL_RANK = 0
-        _VIRTUAL_PIPELINE_MODEL_PARALLEL_WORLD_SIZE = virtual_pipeline_model_parallel_size
+        _VIRTUAL_PIPELINE_MODEL_PARALLEL_WORLD_SIZE = (
+            virtual_pipeline_model_parallel_size
+        )
 
     if pipeline_model_parallel_split_rank is not None:
         global _PIPELINE_MODEL_PARALLEL_SPLIT_RANK
@@ -178,7 +190,7 @@ def initialize_model_parallel(
     global _DATA_PARALLEL_GROUP
     global _DATA_PARALLEL_GROUP_GLOO
     global _DATA_PARALLEL_GLOBAL_RANKS
-    assert _DATA_PARALLEL_GROUP is None, 'data parallel group is already initialized'
+    assert _DATA_PARALLEL_GROUP is None, "data parallel group is already initialized"
     all_data_parallel_group_ranks = []
     for i in range(pipeline_model_parallel_size):
         start_rank = i * num_pipeline_model_parallel_groups
@@ -204,24 +216,26 @@ def initialize_model_parallel(
 
     # Build the sequence parallel groups.
     global _SEQUENCE_PARALLEL_GROUP
-    assert _SEQUENCE_PARALLEL_GROUP is None, \
-        'sequence parallel group is already initialized'
+    assert (
+        _SEQUENCE_PARALLEL_GROUP is None
+    ), "sequence parallel group is already initialized"
     for i in range(num_sequence_parallel_groups):
-        ranks = range(i * sequence_parallel_size,
-                      (i + 1) * sequence_parallel_size)
+        ranks = range(i * sequence_parallel_size, (i + 1) * sequence_parallel_size)
         group = torch.distributed.new_group(ranks)
         if rank in ranks:
             _SEQUENCE_PARALLEL_GROUP = group
 
     # Build the sequence data parallel groups.
     global _SEQUENCE_DATA_PARALLEL_GROUP
-    assert _SEQUENCE_DATA_PARALLEL_GROUP is None, \
-        'sequence data parallel group is already initialized'
+    assert (
+        _SEQUENCE_DATA_PARALLEL_GROUP is None
+    ), "sequence data parallel group is already initialized"
     all_data_sequence_parallel_group_ranks = []
     if enable_ds_sequence_parallel:
         for i in range(num_sequence_data_parallel_groups):
-            ranks = range(i * sequence_data_parallel_size,
-                        (i + 1) * sequence_data_parallel_size)
+            ranks = range(
+                i * sequence_data_parallel_size, (i + 1) * sequence_data_parallel_size
+            )
             group = torch.distributed.new_group(ranks)
             all_data_sequence_parallel_group_ranks.append(list(ranks))
             if rank in ranks:
@@ -231,36 +245,54 @@ def initialize_model_parallel(
 
     # Build the model-parallel groups.
     global _MODEL_PARALLEL_GROUP
-    assert _MODEL_PARALLEL_GROUP is None, 'model parallel group is already initialized'
-    num_model_parallel_groups = sequence_data_parallel_size if enable_ds_sequence_parallel else data_parallel_size
-    model_parallel_group_ranks = all_data_sequence_parallel_group_ranks if enable_ds_sequence_parallel else all_data_parallel_group_ranks
+    assert _MODEL_PARALLEL_GROUP is None, "model parallel group is already initialized"
+    num_model_parallel_groups = (
+        sequence_data_parallel_size
+        if enable_ds_sequence_parallel
+        else data_parallel_size
+    )
+    model_parallel_group_ranks = (
+        all_data_sequence_parallel_group_ranks
+        if enable_ds_sequence_parallel
+        else all_data_parallel_group_ranks
+    )
     for i in range(num_model_parallel_groups):
-        ranks = [parallel_group_ranks[i] for parallel_group_ranks in model_parallel_group_ranks]
+        ranks = [
+            parallel_group_ranks[i]
+            for parallel_group_ranks in model_parallel_group_ranks
+        ]
         group = torch.distributed.new_group(ranks)
         if rank in ranks:
             _MODEL_PARALLEL_GROUP = group
 
     # Build the tensor model-parallel groups.
     global _TENSOR_MODEL_PARALLEL_GROUP
-    assert _TENSOR_MODEL_PARALLEL_GROUP is None, 'tensor model parallel group is already initialized'
+    assert (
+        _TENSOR_MODEL_PARALLEL_GROUP is None
+    ), "tensor model parallel group is already initialized"
     for i in range(num_tensor_model_parallel_groups):
-        ranks = range(i * tensor_model_parallel_size, (i + 1) * tensor_model_parallel_size)
+        ranks = range(
+            i * tensor_model_parallel_size, (i + 1) * tensor_model_parallel_size
+        )
         group = torch.distributed.new_group(ranks)
         if rank in ranks:
             _TENSOR_MODEL_PARALLEL_GROUP = group
 
-
     # Build the pipeline model-parallel groups and embedding groups
     # (first and last rank in each pipeline model-parallel group).
     global _PIPELINE_MODEL_PARALLEL_GROUP
     global _PIPELINE_GLOBAL_RANKS
-    assert _PIPELINE_MODEL_PARALLEL_GROUP is None, 'pipeline model parallel group is already initialized'
+    assert (
+        _PIPELINE_MODEL_PARALLEL_GROUP is None
+    ), "pipeline model parallel group is already initialized"
     global _EMBEDDING_GROUP
     global _EMBEDDING_GLOBAL_RANKS
-    assert _EMBEDDING_GROUP is None, 'embedding group is already initialized'
+    assert _EMBEDDING_GROUP is None, "embedding group is already initialized"
     global _POSITION_EMBEDDING_GROUP
     global _POSITION_EMBEDDING_GLOBAL_RANKS
-    assert _POSITION_EMBEDDING_GROUP is None, 'position embedding group is already initialized'
+    assert (
+        _POSITION_EMBEDDING_GROUP is None
+    ), "position embedding group is already initialized"
     for i in range(num_pipeline_model_parallel_groups):
         ranks = range(i, world_size, num_pipeline_model_parallel_groups)
         group = torch.distributed.new_group(ranks)
@@ -274,9 +306,19 @@ def initialize_model_parallel(
             position_embedding_ranks = [ranks[0]]
             if pipeline_model_parallel_split_rank is not None:
                 if ranks[pipeline_model_parallel_split_rank] not in embedding_ranks:
-                    embedding_ranks = [ranks[0], ranks[pipeline_model_parallel_split_rank], ranks[-1]]
-                if ranks[pipeline_model_parallel_split_rank] not in position_embedding_ranks:
-                    position_embedding_ranks = [ranks[0], ranks[pipeline_model_parallel_split_rank]]
+                    embedding_ranks = [
+                        ranks[0],
+                        ranks[pipeline_model_parallel_split_rank],
+                        ranks[-1],
+                    ]
+                if (
+                    ranks[pipeline_model_parallel_split_rank]
+                    not in position_embedding_ranks
+                ):
+                    position_embedding_ranks = [
+                        ranks[0],
+                        ranks[pipeline_model_parallel_split_rank],
+                    ]
         else:
             embedding_ranks = ranks
             position_embedding_ranks = ranks
@@ -295,8 +337,9 @@ def initialize_model_parallel(
 
     # Build the FP8 groups.
     global _AMAX_REDUCTION_GROUP
-    assert _AMAX_REDUCTION_GROUP is None, \
-        'FP8 amax reduction group is already initialized'
+    assert (
+        _AMAX_REDUCTION_GROUP is None
+    ), "FP8 amax reduction group is already initialized"
     if use_fp8:
         amax_group_size: int = tensor_model_parallel_size * data_parallel_size
         num_amax_groups: int = world_size // amax_group_size
@@ -322,84 +365,101 @@ def is_unitialized():
 
 def model_parallel_is_initialized():
     """Check if model and data parallel groups are initialized."""
-    if _TENSOR_MODEL_PARALLEL_GROUP is None or _PIPELINE_MODEL_PARALLEL_GROUP is None or _DATA_PARALLEL_GROUP is None:
+    if (
+        _TENSOR_MODEL_PARALLEL_GROUP is None
+        or _PIPELINE_MODEL_PARALLEL_GROUP is None
+        or _DATA_PARALLEL_GROUP is None
+    ):
         return False
     return True
 
+
 def sequence_parallel_is_initialized():
     """Check if sequence and data parallel groups are initialized."""
-    if _SEQUENCE_PARALLEL_GROUP is None or \
-        _DATA_PARALLEL_GROUP is None:
+    if _SEQUENCE_PARALLEL_GROUP is None or _DATA_PARALLEL_GROUP is None:
         return False
     return True
 
+
 def sequence_data_parallel_is_initialized():
     """Check if sequence data parallel groups are initialized."""
     if _SEQUENCE_DATA_PARALLEL_GROUP is None:
         return False
     return True
 
+
 def get_model_parallel_group():
     """Get the model parallel group the caller rank belongs to."""
-    assert _MODEL_PARALLEL_GROUP is not None, 'model parallel group is not initialized'
+    assert _MODEL_PARALLEL_GROUP is not None, "model parallel group is not initialized"
     return _MODEL_PARALLEL_GROUP
 
 
 def get_tensor_model_parallel_group(check_initialized=True):
     """Get the tensor model parallel group the caller rank belongs to."""
     if check_initialized:
-        assert _TENSOR_MODEL_PARALLEL_GROUP is not None, 'tensor model parallel group is not initialized'
+        assert (
+            _TENSOR_MODEL_PARALLEL_GROUP is not None
+        ), "tensor model parallel group is not initialized"
     return _TENSOR_MODEL_PARALLEL_GROUP
 
 
 def get_pipeline_model_parallel_group():
     """Get the pipeline model parallel group the caller rank belongs to."""
-    assert _PIPELINE_MODEL_PARALLEL_GROUP is not None, 'pipeline_model parallel group is not initialized'
+    assert (
+        _PIPELINE_MODEL_PARALLEL_GROUP is not None
+    ), "pipeline_model parallel group is not initialized"
     return _PIPELINE_MODEL_PARALLEL_GROUP
 
+
 def get_sequence_parallel_group():
     """Get the sequence parallel group the caller rank belongs to."""
-    assert _SEQUENCE_PARALLEL_GROUP is not None, \
-        'sequence parallel group is not initialized'
+    assert (
+        _SEQUENCE_PARALLEL_GROUP is not None
+    ), "sequence parallel group is not initialized"
     return _SEQUENCE_PARALLEL_GROUP
 
 
 def get_sequence_data_parallel_group():
     """Get the sequence parallel group the caller rank belongs to."""
-    assert _SEQUENCE_DATA_PARALLEL_GROUP is not None, \
-        'sequence data parallel group is not initialized'
+    assert (
+        _SEQUENCE_DATA_PARALLEL_GROUP is not None
+    ), "sequence data parallel group is not initialized"
     return _SEQUENCE_DATA_PARALLEL_GROUP
 
 
 def get_data_parallel_group():
     """Get the data parallel group the caller rank belongs to."""
-    assert _DATA_PARALLEL_GROUP is not None, 'data parallel group is not initialized'
+    assert _DATA_PARALLEL_GROUP is not None, "data parallel group is not initialized"
     return _DATA_PARALLEL_GROUP
 
 
 def get_data_parallel_group_gloo():
     """Get the data parallel group-gloo the caller rank belongs to."""
-    assert _DATA_PARALLEL_GROUP_GLOO is not None, \
-        'data parallel group-gloo is not initialized'
+    assert (
+        _DATA_PARALLEL_GROUP_GLOO is not None
+    ), "data parallel group-gloo is not initialized"
     return _DATA_PARALLEL_GROUP_GLOO
 
 
 def get_embedding_group():
     """Get the embedding group the caller rank belongs to."""
-    assert _EMBEDDING_GROUP is not None, 'embedding group is not initialized'
+    assert _EMBEDDING_GROUP is not None, "embedding group is not initialized"
     return _EMBEDDING_GROUP
 
 
 def get_position_embedding_group():
     """Get the position embedding group the caller rank belongs to."""
-    assert _POSITION_EMBEDDING_GROUP is not None, 'position embedding group is not initialized'
+    assert (
+        _POSITION_EMBEDDING_GROUP is not None
+    ), "position embedding group is not initialized"
     return _POSITION_EMBEDDING_GROUP
 
 
 def get_amax_reduction_group():
     """Get the FP8 amax reduction group the caller rank belongs to."""
-    assert _AMAX_REDUCTION_GROUP is not None, \
-        'FP8 amax reduction group is not initialized'
+    assert (
+        _AMAX_REDUCTION_GROUP is not None
+    ), "FP8 amax reduction group is not initialized"
     return _AMAX_REDUCTION_GROUP
 
 
@@ -408,26 +468,31 @@ def set_tensor_model_parallel_world_size(world_size):
     global _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
     _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE = world_size
 
+
 def set_sequence_parallel_world_size(world_size):
     """Set the sequence  parallel size"""
     global _SEQUENCE_PARALLEL_WORLD_SIZE
     _SEQUENCE_PARALLEL_WORLD_SIZE = world_size
 
+
 def set_sequence_data_parallel_world_size(world_size):
     """Set the sequence  parallel size"""
     global _SEQUENCE_DATA_PARALLEL_WORLD_SIZE
     _SEQUENCE_DATA_PARALLEL_WORLD_SIZE = world_size
 
+
 def set_pipeline_model_parallel_world_size(world_size):
     """Set the pipeline model parallel size"""
     global _MPU_PIPELINE_MODEL_PARALLEL_WORLD_SIZE
     _MPU_PIPELINE_MODEL_PARALLEL_WORLD_SIZE = world_size
 
+
 def set_virtual_pipeline_model_parallel_world_size(world_size):
     """Set the pipeline model parallel size"""
     global _VIRTUAL_PIPELINE_MODEL_PARALLEL_WORLD_SIZE
     _VIRTUAL_PIPELINE_MODEL_PARALLEL_WORLD_SIZE = world_size
 
+
 def set_virtual_pipeline_model_parallel_world_size(world_size):
     """Set the virtual pipeline model parallel size"""
     global _VIRTUAL_PIPELINE_MODEL_PARALLEL_WORLD_SIZE
@@ -441,10 +506,14 @@ def get_tensor_model_parallel_world_size():
         return _MPU_TENSOR_MODEL_PARALLEL_WORLD_SIZE
     return torch.distributed.get_world_size(group=get_tensor_model_parallel_group())
 
+
 def get_model_parallel_world_size():
-    assert get_pipeline_model_parallel_world_size() == 1, "legacy get_model_parallel_world_size is only supported if PP is disabled"
+    assert (
+        get_pipeline_model_parallel_world_size() == 1
+    ), "legacy get_model_parallel_world_size is only supported if PP is disabled"
     return get_tensor_model_parallel_world_size()
 
+
 def get_sequence_parallel_world_size():
     """Return world size for the sequence parallel group."""
     global _SEQUENCE_PARALLEL_WORLD_SIZE
@@ -452,6 +521,7 @@ def get_sequence_parallel_world_size():
         return _SEQUENCE_PARALLEL_WORLD_SIZE
     return torch.distributed.get_world_size(group=get_sequence_parallel_group())
 
+
 def get_sequence_data_parallel_world_size():
     """Return world size for the sequence parallel group."""
     global _SEQUENCE_DATA_PARALLEL_WORLD_SIZE
@@ -459,6 +529,7 @@ def get_sequence_data_parallel_world_size():
         return _SEQUENCE_DATA_PARALLEL_WORLD_SIZE
     return torch.distributed.get_world_size(group=get_sequence_data_parallel_group())
 
+
 def get_pipeline_model_parallel_world_size():
     """Return world size for the pipeline model parallel group."""
     global _MPU_PIPELINE_MODEL_PARALLEL_WORLD_SIZE
@@ -474,7 +545,9 @@ def set_tensor_model_parallel_rank(rank):
 
 
 def get_model_parallel_rank():
-    assert get_pipeline_model_parallel_world_size() == 1, "legacy get_model_parallel_rank is only supported if PP is disabled"
+    assert (
+        get_pipeline_model_parallel_world_size() == 1
+    ), "legacy get_model_parallel_rank is only supported if PP is disabled"
     return get_tensor_model_parallel_rank()
 
 
@@ -554,12 +627,18 @@ def is_pipeline_first_stage(ignore_virtual=False):
 def is_pipeline_last_stage(ignore_virtual=False):
     """Return True if in the last pipeline model-parallel stage, False otherwise."""
     if not ignore_virtual:
-        virtual_pipeline_model_parallel_world_size = get_virtual_pipeline_model_parallel_world_size()
-        if virtual_pipeline_model_parallel_world_size is not None and get_virtual_pipeline_model_parallel_rank() != (
-            virtual_pipeline_model_parallel_world_size - 1
+        virtual_pipeline_model_parallel_world_size = (
+            get_virtual_pipeline_model_parallel_world_size()
+        )
+        if (
+            virtual_pipeline_model_parallel_world_size is not None
+            and get_virtual_pipeline_model_parallel_rank()
+            != (virtual_pipeline_model_parallel_world_size - 1)
         ):
             return False
-    return get_pipeline_model_parallel_rank() == (get_pipeline_model_parallel_world_size() - 1)
+    return get_pipeline_model_parallel_rank() == (
+        get_pipeline_model_parallel_world_size() - 1
+    )
 
 
 def is_rank_in_embedding_group(ignore_virtual=False):
@@ -620,7 +699,9 @@ def is_pipeline_stage_at_split():
     stage executes encoder block for a model with both encoder and
     decoder."""
     rank = get_pipeline_model_parallel_rank()
-    return is_pipeline_stage_before_split(rank) and is_pipeline_stage_after_split(rank + 1)
+    return is_pipeline_stage_before_split(rank) and is_pipeline_stage_after_split(
+        rank + 1
+    )
 
 
 def get_virtual_pipeline_model_parallel_rank():
@@ -666,28 +747,36 @@ def get_sequence_parallel_src_rank():
 def get_data_parallel_src_rank():
     """Calculate the global rank corresponding to the first local rank
     in the data parallel group."""
-    assert _DATA_PARALLEL_GLOBAL_RANKS is not None, "Data parallel group is not initialized"
+    assert (
+        _DATA_PARALLEL_GLOBAL_RANKS is not None
+    ), "Data parallel group is not initialized"
     return _DATA_PARALLEL_GLOBAL_RANKS[0]
 
 
 def get_pipeline_model_parallel_first_rank():
     """Return the global rank of the first process in the pipeline for the
     current tensor parallel group"""
-    assert _PIPELINE_GLOBAL_RANKS is not None, "Pipeline parallel group is not initialized"
+    assert (
+        _PIPELINE_GLOBAL_RANKS is not None
+    ), "Pipeline parallel group is not initialized"
     return _PIPELINE_GLOBAL_RANKS[0]
 
 
 def get_pipeline_model_parallel_last_rank():
     """Return the global rank of the last process in the pipeline for the
     current tensor parallel group"""
-    assert _PIPELINE_GLOBAL_RANKS is not None, "Pipeline parallel group is not initialized"
+    assert (
+        _PIPELINE_GLOBAL_RANKS is not None
+    ), "Pipeline parallel group is not initialized"
     last_rank_local = get_pipeline_model_parallel_world_size() - 1
     return _PIPELINE_GLOBAL_RANKS[last_rank_local]
 
 
 def get_pipeline_model_parallel_next_rank():
     """Return the global rank that follows the caller in the pipeline"""
-    assert _PIPELINE_GLOBAL_RANKS is not None, "Pipeline parallel group is not initialized"
+    assert (
+        _PIPELINE_GLOBAL_RANKS is not None
+    ), "Pipeline parallel group is not initialized"
     rank_in_pipeline = get_pipeline_model_parallel_rank()
     world_size = get_pipeline_model_parallel_world_size()
     return _PIPELINE_GLOBAL_RANKS[(rank_in_pipeline + 1) % world_size]
@@ -695,7 +784,9 @@ def get_pipeline_model_parallel_next_rank():
 
 def get_pipeline_model_parallel_prev_rank():
     """Return the global rank that preceeds the caller in the pipeline"""
-    assert _PIPELINE_GLOBAL_RANKS is not None, "Pipeline parallel group is not initialized"
+    assert (
+        _PIPELINE_GLOBAL_RANKS is not None
+    ), "Pipeline parallel group is not initialized"
     rank_in_pipeline = get_pipeline_model_parallel_rank()
     world_size = get_pipeline_model_parallel_world_size()
     return _PIPELINE_GLOBAL_RANKS[(rank_in_pipeline - 1) % world_size]
@@ -714,13 +805,13 @@ def get_data_parallel_rank():
 def _set_global_memory_buffer():
     """Initialize global buffer"""
     global _GLOBAL_MEMORY_BUFFER
-    assert _GLOBAL_MEMORY_BUFFER is None, 'global memory buffer is already initialized'
+    assert _GLOBAL_MEMORY_BUFFER is None, "global memory buffer is already initialized"
     _GLOBAL_MEMORY_BUFFER = GlobalMemoryBuffer()
 
 
 def get_global_memory_buffer():
     """Return the global GlobalMemoryBuffer object"""
-    assert _GLOBAL_MEMORY_BUFFER is not None, 'global memory buffer is not initialized'
+    assert _GLOBAL_MEMORY_BUFFER is not None, "global memory buffer is not initialized"
     return _GLOBAL_MEMORY_BUFFER
 
 
diff --git a/megatron/core/pipeline_parallel/deepspeed_zbh1_engine.py b/megatron/core/pipeline_parallel/deepspeed_zbh1_engine.py
new file mode 100644
index 00000000000..f2206380b75
--- /dev/null
+++ b/megatron/core/pipeline_parallel/deepspeed_zbh1_engine.py
@@ -0,0 +1,116 @@
+from megatron.core.tensor_parallel.weight_grad_store import WeightGradStore
+
+from deepspeed.runtime.pipe.engine import PipelineEngine
+from deepspeed.utils.timer import BACKWARD_MICRO_TIMER, BACKWARD_GLOBAL_TIMER, BACKWARD_INNER_MICRO_TIMER, BACKWARD_INNER_GLOBAL_TIMER
+from deepspeed.runtime.utils import PartitionedTensor
+from deepspeed.accelerator import get_accelerator
+
+import torch
+from torch.cuda.amp import custom_bwd
+from packaging import version
+
+
+from megatron.core.parallel_state import (
+    get_tensor_model_parallel_world_size,
+    get_tensor_model_parallel_group,
+    get_global_memory_buffer,
+)
+
+
+def _exec_backward_only_pass(self, buffer_id):
+    assert self.optimizer is not None, (
+        "must provide optimizer during " "init in order to use backward"
+    )
+
+    self.mem_status("BEFORE BWD ONLY", reset_max=True)
+    from megatron.core.tensor_parallel.layers import LinearWithGradAccumulationAndAsyncCommunication
+
+    WeightGradStore.set_combine_bw(False)
+    # The last stage just runs backward on the loss using DeepSpeed's typical
+    # mechanisms.
+    if self.is_last_stage():
+        super(PipelineEngine, self).backward(self.loss)
+        WeightGradStore.flush()
+        self.mem_status("AFTER BWD ONLY")
+
+        WeightGradStore.set_combine_bw(True)
+        return
+
+    outputs = self.pipe_buffers["outputs"][buffer_id]
+
+    if self.wall_clock_breakdown():
+        self.timers(BACKWARD_MICRO_TIMER).start()
+        self.timers(BACKWARD_GLOBAL_TIMER).start()
+        self.timers(BACKWARD_INNER_MICRO_TIMER).start()
+        self.timers(BACKWARD_INNER_GLOBAL_TIMER).start()
+
+    # Reconstruct if we previously partitioned the output. We must be
+    # careful to also restore the computational graph of the tensors we partitioned.
+    if self.is_pipe_partitioned:
+        if self.is_grad_partitioned:
+            if self.pipe_partition_output_meta_cache is None:
+                self.pipe_partition_output_meta_cache = outputs[0].to("cpu")
+            part_output = PartitionedTensor.from_meta(
+                meta=self.pipe_partition_output_meta_cache,
+                local_part=outputs[1],
+                group=self.grid.get_slice_parallel_group(),
+            )
+            self.pipe_buffers["output_tensors"][buffer_id].data = part_output.full()
+            outputs = (self.pipe_buffers["output_tensors"][buffer_id], *outputs[2:])
+        else:
+            # Already restored from partition
+            self.pipe_buffers["output_tensors"][buffer_id].data = outputs[0]
+            outputs = (self.pipe_buffers["output_tensors"][buffer_id], *outputs[1:])
+
+    grad_tensors = self.grad_layer
+    if self.is_grad_partitioned:
+        if self.grad_partition_grad_layer_meta_cache is None:
+            self.grad_partition_grad_layer_meta_cache = self.grad_layer[0].to("cpu")
+        part_grad = PartitionedTensor.from_meta(
+            meta=self.grad_partition_grad_layer_meta_cache,
+            local_part=self.grad_layer[1],
+            group=self.grid.get_slice_parallel_group(),
+        )
+        grad_tensors = (part_grad.full(), *grad_tensors[2:])
+        part_grad = None
+
+    if self.using_bf16_optimizer and not self.is_last_stage():
+        # manually call because we don't call optimizer.backward()
+        self.optimizer.clear_lp_grads()
+
+    # This handles either a single tensor or tuple of tensors.
+
+    if isinstance(outputs, tuple):
+        out_tensors = [t for t in outputs if t.is_floating_point()]
+        assert len(out_tensors) == len(grad_tensors)
+        torch.autograd.backward(tensors=out_tensors, grad_tensors=grad_tensors)
+    else:
+        torch.autograd.backward(tensors=(outputs,), grad_tensors=(grad_tensors,))
+
+    WeightGradStore.flush()
+
+    if self.using_bf16_optimizer and not self.is_last_stage():
+        # manually call because we don't call optimizer.backward()
+        self.optimizer.update_hp_grads(clear_lp_grads=False)
+
+    # Free up the memory from the output of forward()
+    self.pipe_buffers["output_tensors"][buffer_id] = None
+    self.pipe_buffers["outputs"][buffer_id] = None
+    grad_tensors = None
+
+    WeightGradStore.set_combine_bw(True)
+
+    if self.wall_clock_breakdown():
+        self.timers(BACKWARD_INNER_MICRO_TIMER).stop()
+        self.timers(BACKWARD_INNER_GLOBAL_TIMER).stop()
+        self.timers(BACKWARD_MICRO_TIMER).stop()
+        self.timers(BACKWARD_GLOBAL_TIMER).stop()
+
+
+def _exec_weight_pass(self):
+    if self.using_bf16_optimizer:
+        # manually call because we don't call optimizer.backward()
+        self.optimizer.clear_lp_grads()
+    WeightGradStore.pop()
+    if self.using_bf16_optimizer:
+        self.optimizer.update_hp_grads(clear_lp_grads=False)
diff --git a/megatron/core/pipeline_parallel/deepspeed_zbh1_schedule.py b/megatron/core/pipeline_parallel/deepspeed_zbh1_schedule.py
new file mode 100644
index 00000000000..1801f1ae804
--- /dev/null
+++ b/megatron/core/pipeline_parallel/deepspeed_zbh1_schedule.py
@@ -0,0 +1,150 @@
+from deepspeed.runtime.pipe.schedule import PipeSchedule, PipeInstruction, BufferOpInstruction, LoadMicroBatch, RecvActivation, SendActivation, RecvGrad, SendGrad, ForwardPass, BackwardPass, ReduceGrads, ReduceTiedGrads, OptimizerStep
+from megatron import get_args
+
+
+class ZeroBubbleH1Pipeline(PipeSchedule):
+    """A schedule for training a batch using hybrid parallelism.
+
+    Pipeline parallelism is extracted through gradient accumulation and thus
+    convergence follows that of a data parallel approach with the same batch
+    size.
+    """
+
+    def steps(self):
+        num_warmup_microbatches = self.stages - self.stage_id
+
+        forward = 0
+        backward = 0
+        weight = 0
+
+        # F section
+        for _ in range(num_warmup_microbatches - 1):
+            if forward == self.micro_batches:
+                continue
+            forward_id = self.get_buffer_id(forward)
+            forward += 1
+
+            cmds = []
+            if not self.is_first_stage:
+                cmds.append(RecvActivation(forward_id))
+            if self.is_first_stage or self.is_last_stage:
+                cmds.append(LoadMicroBatch(forward_id))
+            cmds.append(ForwardPass(forward_id))
+            if not self.is_last_stage:
+                cmds.append(SendActivation(forward_id))
+            yield cmds
+
+        # FB section
+        for _ in range(self.stage_id):
+            if forward == self.micro_batches:
+                continue
+            forward_id = self.get_buffer_id(forward)
+            backward_id = self.get_buffer_id(backward)
+            forward += 1
+            backward += 1
+
+            cmds = []
+            if not self.is_first_stage:
+                cmds.append(RecvActivation(forward_id))
+            if self.is_first_stage or self.is_last_stage:
+                cmds.append(LoadMicroBatch(forward_id))
+            cmds.append(ForwardPass(forward_id))
+            if not self.is_last_stage:
+                cmds.append(RecvGrad(backward_id))
+                cmds.append(SendActivation(forward_id))
+            cmds.append(BackwardOnlyPass(backward_id))
+            if not self.is_first_stage:
+                cmds.append(SendGrad(backward_id))
+            yield cmds
+
+        # FBW section
+        while forward < self.micro_batches:
+            forward_id = self.get_buffer_id(forward)
+            backward_id = self.get_buffer_id(backward)
+            forward += 1
+            backward += 1
+            weight += 1
+
+            cmds = []
+            if not self.is_first_stage:
+                cmds.append(RecvActivation(forward_id))
+            if self.is_first_stage or self.is_last_stage:
+                cmds.append(LoadMicroBatch(forward_id))
+            cmds.append(ForwardPass(forward_id))
+            if not self.is_last_stage:
+                cmds.append(RecvGrad(backward_id))
+                cmds.append(SendActivation(forward_id))
+            if self.is_first_stage:
+                cmds.append(BackwardPass(backward_id))
+            elif forward == self.micro_batches:
+                cmds.append(BackwardOnlyPass(backward_id))
+                cmds.append(SendGrad(backward_id))
+                cmds.append(WeightPass())
+            else:
+                if get_args().enable_zbh1_exact_semantics:
+                    cmds.append(BackwardOnlyPass(backward_id))
+                    cmds.append(SendGrad(backward_id))
+                    cmds.append(WeightPass())
+                else:
+                    cmds.append(BackwardPass(backward_id))
+                    cmds.append(SendGrad(backward_id))
+            yield cmds
+
+        # BW section
+        while backward < self.micro_batches:
+            backward_id = self.get_buffer_id(backward)
+            backward += 1
+            weight += 1
+
+            cmds = []
+            if not self.is_last_stage:
+                cmds.append(RecvGrad(backward_id))
+            if self.is_first_stage:
+                cmds.append(BackwardPass(backward_id))
+            else:
+                cmds.append(BackwardOnlyPass(backward_id))
+                cmds.append(SendGrad(backward_id))
+                cmds.append(WeightPass())
+            yield cmds
+
+        # W section
+        while weight < self.micro_batches:
+            weight += 1
+            yield [WeightPass()]
+
+        yield [ReduceTiedGrads(), ReduceGrads(), OptimizerStep()]
+
+    def get_buffer_id(self, microbatch_id):
+        num_warmup_microbatches = self.stages - self.stage_id
+        return microbatch_id % num_warmup_microbatches
+
+
+##Additional Instruction classes
+class BackwardOnlyPass(BufferOpInstruction):
+    """Compute a backward pass and accumulate gradients.
+
+    Roughly:
+
+    .. code-block:: python
+
+        outputs = buffers['outputs'][buffer_id]
+        gradients = buffers['gradients'][buffer_id]
+        torch.autograd.backward(tensors=outputs,
+                                grad_tensors=gradients, inputs = input_tensor)
+    """
+
+    pass
+
+
+class WeightPass(PipeInstruction):
+    """Compute a weight pass and accumulate gradients.
+
+    Roughly:
+
+    .. code-block:: python
+
+        torch.autograd.backward(tensors=outputs,
+                                grad_tensors=gradients, inputs = model.parameters())
+    """
+
+    pass
diff --git a/megatron/core/pipeline_parallel/p2p_communication.py b/megatron/core/pipeline_parallel/p2p_communication.py
index b23f6c84b3f..5fda68f688b 100644
--- a/megatron/core/pipeline_parallel/p2p_communication.py
+++ b/megatron/core/pipeline_parallel/p2p_communication.py
@@ -16,12 +16,16 @@
 
 from megatron.core import ModelParallelConfig
 from deepspeed.accelerator import get_accelerator
+from megatron.utils import Profile
 
+dlp = Profile("PIPELINE")
 # Types
 Shape = Union[List[int], torch.Size]
 
-def _communicate_shapes(tensor_send_next, tensor_send_prev,
-                        recv_prev, recv_next, config):
+
+def _communicate_shapes(
+    tensor_send_next, tensor_send_prev, recv_prev, recv_next, config
+):
     """Communicate tensor shapes between stages. Used to communicate
     tensor shapes before the actual tensor communication happens.
     This is required when the sequence lengths across micro batches
@@ -45,49 +49,63 @@ def _communicate_shapes(tensor_send_next, tensor_send_prev,
     send_prev_shape_tensor = None
     send_next_shape_tensor = None
     if recv_prev:
-        recv_prev_shape_tensor = torch.empty((3),
-                                             device=get_accelerator().current_device(),
-                                             dtype=torch.int64)
+        recv_prev_shape_tensor = torch.empty(
+            (3), device=get_accelerator().current_device(), dtype=torch.int64
+        )
     if recv_next:
-        recv_next_shape_tensor = torch.empty((3),
-                                             device=get_accelerator().current_device(),
-                                             dtype=torch.int64)
+        recv_next_shape_tensor = torch.empty(
+            (3), device=get_accelerator().current_device(), dtype=torch.int64
+        )
     if tensor_send_prev is not None:
-        send_prev_shape_tensor = torch.tensor(tensor_send_prev.size(),
-                                              device=get_accelerator().current_device(),
-                                              dtype=torch.int64)
+        send_prev_shape_tensor = torch.tensor(
+            tensor_send_prev.size(),
+            device=get_accelerator().current_device(),
+            dtype=torch.int64,
+        )
     if tensor_send_next is not None:
-        send_next_shape_tensor = torch.tensor(tensor_send_next.size(),
-                                              device=get_accelerator().current_device(),
-                                              dtype=torch.int64)
+        send_next_shape_tensor = torch.tensor(
+            tensor_send_next.size(),
+            device=get_accelerator().current_device(),
+            dtype=torch.int64,
+        )
 
     if config.use_ring_exchange_p2p:
-        torch.distributed.ring_exchange(tensor_send_prev=send_prev_shape_tensor,
-                                        tensor_recv_prev=recv_prev_shape_tensor,
-                                        tensor_send_next=send_next_shape_tensor,
-                                        tensor_recv_next=recv_next_shape_tensor,
-                                        group=get_pipeline_model_parallel_group())
+        torch.distributed.ring_exchange(
+            tensor_send_prev=send_prev_shape_tensor,
+            tensor_recv_prev=recv_prev_shape_tensor,
+            tensor_send_next=send_next_shape_tensor,
+            tensor_recv_next=recv_next_shape_tensor,
+            group=get_pipeline_model_parallel_group(),
+        )
     else:
         ops = []
         if send_prev_shape_tensor is not None:
             send_prev_op = torch.distributed.P2POp(
-                torch.distributed.isend, send_prev_shape_tensor,
-                get_pipeline_model_parallel_prev_rank())
+                torch.distributed.isend,
+                send_prev_shape_tensor,
+                get_pipeline_model_parallel_prev_rank(),
+            )
             ops.append(send_prev_op)
         if recv_prev_shape_tensor is not None:
             recv_prev_op = torch.distributed.P2POp(
-                torch.distributed.irecv, recv_prev_shape_tensor,
-                get_pipeline_model_parallel_prev_rank())
+                torch.distributed.irecv,
+                recv_prev_shape_tensor,
+                get_pipeline_model_parallel_prev_rank(),
+            )
             ops.append(recv_prev_op)
         if send_next_shape_tensor is not None:
             send_next_op = torch.distributed.P2POp(
-                torch.distributed.isend, send_next_shape_tensor,
-                get_pipeline_model_parallel_next_rank())
+                torch.distributed.isend,
+                send_next_shape_tensor,
+                get_pipeline_model_parallel_next_rank(),
+            )
             ops.append(send_next_op)
         if recv_next_shape_tensor is not None:
             recv_next_op = torch.distributed.P2POp(
-                torch.distributed.irecv, recv_next_shape_tensor,
-                get_pipeline_model_parallel_next_rank())
+                torch.distributed.irecv,
+                recv_next_shape_tensor,
+                get_pipeline_model_parallel_next_rank(),
+            )
             ops.append(recv_next_op)
         if len(ops) > 0:
             reqs = torch.distributed.batch_isend_irecv(ops)
@@ -108,36 +126,47 @@ def _communicate_shapes(tensor_send_next, tensor_send_prev,
 
     return recv_prev_shape, recv_next_shape
 
-def _batched_p2p_ops(*,
-                     tensor_send_prev: Optional[torch.Tensor],
-                     tensor_recv_prev: Optional[torch.Tensor],
-                     tensor_send_next: Optional[torch.Tensor],
-                     tensor_recv_next: Optional[torch.Tensor],
-                     group: torch.distributed.ProcessGroup):
+
+def _batched_p2p_ops(
+    *,
+    tensor_send_prev: Optional[torch.Tensor],
+    tensor_recv_prev: Optional[torch.Tensor],
+    tensor_send_next: Optional[torch.Tensor],
+    tensor_recv_next: Optional[torch.Tensor],
+    group: torch.distributed.ProcessGroup
+):
     ops = []
     if tensor_send_prev is not None:
         send_prev_op = torch.distributed.P2POp(
-            torch.distributed.isend, tensor_send_prev,
+            torch.distributed.isend,
+            tensor_send_prev,
             get_pipeline_model_parallel_prev_rank(),
-            group)
+            group,
+        )
         ops.append(send_prev_op)
     if tensor_recv_prev is not None:
         recv_prev_op = torch.distributed.P2POp(
-            torch.distributed.irecv, tensor_recv_prev,
+            torch.distributed.irecv,
+            tensor_recv_prev,
             get_pipeline_model_parallel_prev_rank(),
-            group)
+            group,
+        )
         ops.append(recv_prev_op)
     if tensor_send_next is not None:
         send_next_op = torch.distributed.P2POp(
-            torch.distributed.isend, tensor_send_next,
+            torch.distributed.isend,
+            tensor_send_next,
             get_pipeline_model_parallel_next_rank(),
-            group)
+            group,
+        )
         ops.append(send_next_op)
     if tensor_recv_next is not None:
         recv_next_op = torch.distributed.P2POp(
-            torch.distributed.irecv, tensor_recv_next,
+            torch.distributed.irecv,
+            tensor_recv_next,
             get_pipeline_model_parallel_next_rank(),
-            group)
+            group,
+        )
         ops.append(recv_next_op)
     if len(ops) > 0:
         reqs = torch.distributed.batch_isend_irecv(ops)
@@ -145,12 +174,15 @@ def _batched_p2p_ops(*,
         reqs = []
     return reqs
 
-def _p2p_ops(*,
-             tensor_send_prev: Optional[torch.Tensor],
-             tensor_recv_prev: Optional[torch.Tensor],
-             tensor_send_next: Optional[torch.Tensor],
-             tensor_recv_next: Optional[torch.Tensor],
-             group: torch.distributed.ProcessGroup):
+
+def _p2p_ops(
+    *,
+    tensor_send_prev: Optional[torch.Tensor],
+    tensor_recv_prev: Optional[torch.Tensor],
+    tensor_send_next: Optional[torch.Tensor],
+    tensor_recv_next: Optional[torch.Tensor],
+    group: torch.distributed.ProcessGroup
+):
     reqs = []
     rank = get_pipeline_model_parallel_rank()
     if get_pipeline_model_parallel_rank() % 2 == 0:
@@ -220,13 +252,17 @@ def _p2p_ops(*,
             reqs.append(send_prev_req)
     return reqs
 
-def _communicate(*, tensor_send_next: Optional[torch.Tensor],
-                 tensor_send_prev: Optional[torch.Tensor],
-                 recv_prev: bool,
-                 recv_next: bool,
-                 tensor_shape: Shape,
-                 config: ModelParallelConfig,
-                 wait_on_reqs: bool = True) -> Tuple[torch.Tensor, torch.Tensor]:
+
+def _communicate(
+    *,
+    tensor_send_next: Optional[torch.Tensor],
+    tensor_send_prev: Optional[torch.Tensor],
+    recv_prev: bool,
+    recv_next: bool,
+    tensor_shape: Shape,
+    config: ModelParallelConfig,
+    wait_on_reqs: bool = True
+) -> Tuple[torch.Tensor, torch.Tensor]:
     """Communicate tensors between stages. Used as helper method in other
     communication methods that are used in megatron/schedules.py.
 
@@ -269,9 +305,9 @@ def _communicate(*, tensor_send_next: Optional[torch.Tensor],
         recv_prev_shape = tensor_shape
         recv_next_shape = tensor_shape
     else:
-        recv_prev_shape, recv_next_shape = \
-            _communicate_shapes(tensor_send_next, tensor_send_prev,
-                                recv_prev, recv_next, config)
+        recv_prev_shape, recv_next_shape = _communicate_shapes(
+            tensor_send_next, tensor_send_prev, recv_prev, recv_next, config
+        )
 
     if recv_prev:
         if config.pipeline_dtype is None:
@@ -281,10 +317,12 @@ def _communicate(*, tensor_send_next: Optional[torch.Tensor],
                 "tensor_shape must be specified if recv_prev is True. "
                 "Common tensor_shape is (seq_length, micro_batch_size, hidden_size)"
             )
-        tensor_recv_prev = torch.empty(recv_prev_shape,
-                                       requires_grad=True,
-                                       device=get_accelerator().current_device(),
-                                       dtype=config.pipeline_dtype)
+        tensor_recv_prev = torch.empty(
+            recv_prev_shape,
+            requires_grad=True,
+            device=get_accelerator().current_device(),
+            dtype=config.pipeline_dtype,
+        )
     if recv_next:
         if config.pipeline_dtype is None:
             raise RuntimeError("dtype must be provided if recv_next is True")
@@ -293,16 +331,20 @@ def _communicate(*, tensor_send_next: Optional[torch.Tensor],
                 "tensor_shape must be specified if recv_next is True. "
                 "Common tensor_shape is (seq_length, micro_batch_size, hidden_size)"
             )
-        tensor_recv_next = torch.empty(recv_next_shape,
-                                       requires_grad=True,
-                                       device=get_accelerator().current_device(),
-                                       dtype=config.pipeline_dtype)
+        tensor_recv_next = torch.empty(
+            recv_next_shape,
+            requires_grad=True,
+            device=get_accelerator().current_device(),
+            dtype=config.pipeline_dtype,
+        )
 
     # Send tensors in both the forward and backward directions as appropriate.
     if config.use_ring_exchange_p2p:
+
         def _ring_exchange_wrapper(**kwargs):
             torch.distributed.ring_exchange(**kwargs)
             return []
+
         p2p_func = _ring_exchange_wrapper
     elif config.batch_p2p_comm:
         assert wait_on_reqs
@@ -310,11 +352,13 @@ def _ring_exchange_wrapper(**kwargs):
     else:
         p2p_func = _p2p_ops
 
-    reqs = p2p_func(tensor_send_prev=tensor_send_prev,
-                    tensor_recv_prev=tensor_recv_prev,
-                    tensor_send_next=tensor_send_next,
-                    tensor_recv_next=tensor_recv_next,
-                    group=get_pipeline_model_parallel_group())
+    reqs = p2p_func(
+        tensor_send_prev=tensor_send_prev,
+        tensor_recv_prev=tensor_recv_prev,
+        tensor_send_next=tensor_send_next,
+        tensor_recv_next=tensor_recv_next,
+        group=get_pipeline_model_parallel_group(),
+    )
 
     if wait_on_reqs and len(reqs) > 0:
         for req in reqs:
@@ -329,9 +373,9 @@ def _ring_exchange_wrapper(**kwargs):
     return tensor_recv_prev, tensor_recv_next, reqs
 
 
-def recv_forward(tensor_shape: Shape,
-                 config: ModelParallelConfig) -> torch.Tensor:
-    """ Receive tensor from previous rank in pipeline (forward receive).
+@dlp.log
+def recv_forward(tensor_shape: Shape, config: ModelParallelConfig) -> torch.Tensor:
+    """Receive tensor from previous rank in pipeline (forward receive).
 
 
     See _communicate for argument details.
@@ -341,21 +385,22 @@ def recv_forward(tensor_shape: Shape,
         input_tensor = None
     else:
         if config.timers is not None:
-            config.timers('forward-recv', log_level=2).start()
+            config.timers("forward-recv", log_level=2).start()
         input_tensor, _, _ = _communicate(
             tensor_send_next=None,
             tensor_send_prev=None,
             recv_prev=True,
             recv_next=False,
             tensor_shape=tensor_shape,
-            config=config)
+            config=config,
+        )
         if config.timers is not None:
-            config.timers('forward-recv').stop()
+            config.timers("forward-recv").stop()
     return input_tensor
 
 
-def recv_backward(tensor_shape: Shape,
-                  config: ModelParallelConfig) -> torch.Tensor:
+@dlp.log
+def recv_backward(tensor_shape: Shape, config: ModelParallelConfig) -> torch.Tensor:
     """Receive tensor from next rank in pipeline (backward receive).
 
     See _communicate for argument details.
@@ -364,21 +409,22 @@ def recv_backward(tensor_shape: Shape,
         output_tensor_grad = None
     else:
         if config.timers is not None:
-            config.timers('backward-recv', log_level=2).start()
+            config.timers("backward-recv", log_level=2).start()
         _, output_tensor_grad, _ = _communicate(
             tensor_send_next=None,
             tensor_send_prev=None,
             recv_prev=False,
             recv_next=True,
             tensor_shape=tensor_shape,
-            config=config)
+            config=config,
+        )
         if config.timers is not None:
-            config.timers('backward-recv').stop()
+            config.timers("backward-recv").stop()
     return output_tensor_grad
 
 
-def send_forward(output_tensor: torch.Tensor,
-                 config: ModelParallelConfig) -> None:
+@dlp.log
+def send_forward(output_tensor: torch.Tensor, config: ModelParallelConfig) -> None:
     """Send tensor to next rank in pipeline (forward send).
 
     See _communicate for argument details.
@@ -386,41 +432,44 @@ def send_forward(output_tensor: torch.Tensor,
 
     if not core.parallel_state.is_pipeline_last_stage():
         if config.timers is not None:
-            config.timers('forward-send', log_level=2).start()
+            config.timers("forward-send", log_level=2).start()
         _communicate(
             tensor_send_next=output_tensor,
             tensor_send_prev=None,
             recv_prev=False,
             recv_next=False,
             tensor_shape=None,
-            config=config)
+            config=config,
+        )
         if config.timers is not None:
-            config.timers('forward-send').stop()
+            config.timers("forward-send").stop()
 
 
-def send_backward(input_tensor_grad: torch.Tensor,
-                  config: ModelParallelConfig) -> None:
+@dlp.log
+def send_backward(input_tensor_grad: torch.Tensor, config: ModelParallelConfig) -> None:
     """Send tensor to previous rank in pipeline (backward send).
 
     See _communicate for argument details.
     """
     if not core.parallel_state.is_pipeline_first_stage():
         if config.timers is not None:
-            config.timers('backward-send', log_level=2).start()
+            config.timers("backward-send", log_level=2).start()
         _communicate(
             tensor_send_next=None,
             tensor_send_prev=input_tensor_grad,
             recv_prev=False,
             recv_next=False,
             tensor_shape=None,
-            config=config)
+            config=config,
+        )
         if config.timers is not None:
-            config.timers('backward-send').stop()
+            config.timers("backward-send").stop()
 
 
-def send_forward_recv_backward(output_tensor: torch.Tensor,
-                               tensor_shape: Shape,
-                               config: ModelParallelConfig) -> torch.Tensor:
+@dlp.log
+def send_forward_recv_backward(
+    output_tensor: torch.Tensor, tensor_shape: Shape, config: ModelParallelConfig
+) -> torch.Tensor:
     """Batched send and recv with next rank in pipeline.
 
     See _communicate for argument details.
@@ -429,22 +478,24 @@ def send_forward_recv_backward(output_tensor: torch.Tensor,
         output_tensor_grad = None
     else:
         if config.timers is not None:
-            config.timers('forward-send-backward-recv', log_level=2).start()
-        _, output_tensor_grad,_ = _communicate(
+            config.timers("forward-send-backward-recv", log_level=2).start()
+        _, output_tensor_grad, _ = _communicate(
             tensor_send_next=output_tensor,
             tensor_send_prev=None,
             recv_prev=False,
             recv_next=True,
             tensor_shape=tensor_shape,
-            config=config)
+            config=config,
+        )
         if config.timers is not None:
-            config.timers('forward-send-backward-recv').stop()
+            config.timers("forward-send-backward-recv").stop()
     return output_tensor_grad
 
 
-def send_backward_recv_forward(input_tensor_grad: torch.Tensor,
-                               tensor_shape: Shape,
-                               config: ModelParallelConfig) -> torch.Tensor:
+@dlp.log
+def send_backward_recv_forward(
+    input_tensor_grad: torch.Tensor, tensor_shape: Shape, config: ModelParallelConfig
+) -> torch.Tensor:
     """Batched send and recv with previous rank in pipeline.
 
     See _communicate for argument details.
@@ -453,30 +504,34 @@ def send_backward_recv_forward(input_tensor_grad: torch.Tensor,
         input_tensor = None
     else:
         if config.timers is not None:
-            config.timers('backward-send-forward-recv', log_level=2).start()
+            config.timers("backward-send-forward-recv", log_level=2).start()
         input_tensor, _, _ = _communicate(
             tensor_send_next=None,
             tensor_send_prev=input_tensor_grad,
             recv_prev=True,
             recv_next=False,
             tensor_shape=tensor_shape,
-            config=config)
+            config=config,
+        )
         if config.timers is not None:
-            config.timers('backward-send-forward-recv').stop()
+            config.timers("backward-send-forward-recv").stop()
     return input_tensor
 
 
-def send_forward_recv_forward(output_tensor: torch.Tensor,
-                              recv_prev: bool,
-                              tensor_shape: Shape,
-                              config: ModelParallelConfig,
-                              overlap_p2p_comm: bool = False) -> torch.Tensor:
+@dlp.log
+def send_forward_recv_forward(
+    output_tensor: torch.Tensor,
+    recv_prev: bool,
+    tensor_shape: Shape,
+    config: ModelParallelConfig,
+    overlap_p2p_comm: bool = False,
+) -> torch.Tensor:
     """Batched recv from previous rank and send to next rank in pipeline.
 
     See _communicate for argument details.
     """
     if config.timers is not None:
-        config.timers('forward-send-forward-recv', log_level=2).start()
+        config.timers("forward-send-forward-recv", log_level=2).start()
     input_tensor, _, wait_handles = _communicate(
         tensor_send_next=output_tensor,
         tensor_send_prev=None,
@@ -484,25 +539,29 @@ def send_forward_recv_forward(output_tensor: torch.Tensor,
         recv_next=False,
         tensor_shape=tensor_shape,
         wait_on_reqs=(not overlap_p2p_comm),
-        config=config)
+        config=config,
+    )
     if config.timers is not None:
-        config.timers('forward-send-forward-recv').stop()
+        config.timers("forward-send-forward-recv").stop()
     if overlap_p2p_comm:
         return input_tensor, wait_handles
     return input_tensor
 
 
-def send_backward_recv_backward(input_tensor_grad: torch.Tensor,
-                                recv_next: bool,
-                                tensor_shape: Shape,
-                                config: ModelParallelConfig,
-                                overlap_p2p_comm: bool = False) -> torch.Tensor:
+@dlp.log
+def send_backward_recv_backward(
+    input_tensor_grad: torch.Tensor,
+    recv_next: bool,
+    tensor_shape: Shape,
+    config: ModelParallelConfig,
+    overlap_p2p_comm: bool = False,
+) -> torch.Tensor:
     """Batched recv from next rank and send to previous rank in pipeline.
 
     See _communicate for argument details.
     """
     if config.timers is not None:
-        config.timers('backward-send-backward-recv', log_level=2).start()
+        config.timers("backward-send-backward-recv", log_level=2).start()
     _, output_tensor_grad, wait_handles = _communicate(
         tensor_send_next=None,
         tensor_send_prev=input_tensor_grad,
@@ -510,35 +569,40 @@ def send_backward_recv_backward(input_tensor_grad: torch.Tensor,
         recv_next=recv_next,
         tensor_shape=tensor_shape,
         wait_on_reqs=(not overlap_p2p_comm),
-        config=config)
+        config=config,
+    )
     if config.timers is not None:
-        config.timers('backward-send-backward-recv').stop()
+        config.timers("backward-send-backward-recv").stop()
     if overlap_p2p_comm:
         return output_tensor_grad, wait_handles
     return output_tensor_grad
 
 
+@dlp.log
 def send_forward_backward_recv_forward_backward(
-        output_tensor: torch.Tensor,
-        input_tensor_grad: torch.Tensor,
-        recv_prev: bool,
-        recv_next: bool,
-        tensor_shape: Shape,
-        config: ModelParallelConfig) -> torch.Tensor:
+    output_tensor: torch.Tensor,
+    input_tensor_grad: torch.Tensor,
+    recv_prev: bool,
+    recv_next: bool,
+    tensor_shape: Shape,
+    config: ModelParallelConfig,
+) -> torch.Tensor:
     """Batched send and recv with previous and next ranks in pipeline.
 
     See _communicate for argument details.
     """
     if config.timers is not None:
-        config.timers('forward-backward-send-forward-backward-recv',
-               log_level=2).start()
+        config.timers(
+            "forward-backward-send-forward-backward-recv", log_level=2
+        ).start()
     input_tensor, output_tensor_grad, _ = _communicate(
         tensor_send_next=output_tensor,
         tensor_send_prev=input_tensor_grad,
         recv_prev=recv_prev,
         recv_next=recv_next,
         tensor_shape=tensor_shape,
-        config=config)
+        config=config,
+    )
     if config.timers is not None:
-        config.timers('forward-backward-send-forward-backward-recv').stop()
+        config.timers("forward-backward-send-forward-backward-recv").stop()
     return input_tensor, output_tensor_grad
diff --git a/megatron/core/pipeline_parallel/schedules.py b/megatron/core/pipeline_parallel/schedules.py
index 407bb16d569..5351ed58ab6 100644
--- a/megatron/core/pipeline_parallel/schedules.py
+++ b/megatron/core/pipeline_parallel/schedules.py
@@ -3,6 +3,7 @@
 import contextlib
 from typing import Callable, Iterator, List, Optional, Union
 
+import ezpz
 import torch
 from torch.autograd.variable import Variable
 from torch.nn.parallel.distributed import DistributedDataParallel as torchDDP
@@ -17,10 +18,15 @@
 from megatron.utils import unwrap_model
 from megatron.model import DistributedDataParallel as LocalDDP
 from megatron.model import Float16Module
+from megatron.utils import Profile
 
+dlp = Profile("CORE")
 # Types
 Shape = Union[List[int], torch.Size]
 
+logger = ezpz.get_logger(__name__)
+
+
 def get_forward_backward_func():
     """Retrieves the appropriate forward_backward function given the
     configuration of parallel_state.
@@ -95,7 +101,9 @@ def forward_step(data_iterator, model):
     collect_non_loss_data (optional, bool, default=False): TODO
 
     """
-    pipeline_model_parallel_size = parallel_state.get_pipeline_model_parallel_world_size()
+    pipeline_model_parallel_size = (
+        parallel_state.get_pipeline_model_parallel_world_size()
+    )
     if pipeline_model_parallel_size > 1:
         if parallel_state.get_virtual_pipeline_model_parallel_world_size() is not None:
             forward_backward_func = forward_backward_pipelining_with_interleaving
@@ -105,73 +113,77 @@ def forward_step(data_iterator, model):
         forward_backward_func = forward_backward_no_pipelining
     return forward_backward_func
 
+
 def deallocate_output_tensor(out, deallocate_pipeline_outputs=False):
-    '''Pseudo-deallocate (i.e., set to scalar) the output tensor's '.data' field.
+    """Pseudo-deallocate (i.e., set to scalar) the output tensor's '.data' field.
 
     This method should be called right after the output tensor has been
     sent to the next pipeline stage. At this point, the output tensor is
     only useful for its '.grad_fn' field, and not its '.data'.
-    '''
+    """
     if (out is None) or (not deallocate_pipeline_outputs):
         return
-    assert isinstance(out, torch.Tensor), \
+    assert isinstance(out, torch.Tensor), (
         "expected Tensor, found %s." % type(out).__name__
-    assert out._base is None, \
-        "counter-productive to free a view of another tensor."
+    )
+    assert out._base is None, "counter-productive to free a view of another tensor."
     out.data = torch.empty(
         (1,),
-        device = out.device,
-        dtype = out.dtype,
+        device=out.device,
+        dtype=out.dtype,
     )
 
+
+@dlp.log
 def custom_backward(output, grad_output):
-    '''Directly call C++ autograd engine.
+    """Directly call C++ autograd engine.
 
     To make the 'deallocate_output_tensor' (above) optimization work, the C++
     autograd engine must be called directly, bypassing Pytorch's
     torch.autograd.backward. Pytorch's 'backward' checks that the output and
     grad have the same shape, while C++'s 'backward' does not.
-    '''
+    """
 
-    assert output.numel() == 1, \
+    assert output.numel() == 1, (
         "output should be pseudo-'freed' in schedule, to optimize memory"
-    assert isinstance(output, torch.Tensor), \
-        "output == '%s'." % type(output).__name__
-    assert isinstance(grad_output, (torch.Tensor, type(None))), \
+    )
+    assert isinstance(output, torch.Tensor), "output == '%s'." % type(output).__name__
+    assert isinstance(grad_output, (torch.Tensor, type(None))), (
         "grad_output == '%s'." % type(grad_output).__name__
+    )
 
     # Handle scalar output
     if grad_output is None:
         assert output.numel() == 1, "implicit grad requires scalar output."
         grad_output = torch.ones_like(
             output,
-            memory_format = torch.preserve_format,
+            memory_format=torch.preserve_format,
         )
 
     # Call c++ engine [ see torch/csrc/autograd/python_engine.cpp ]
     Variable._execution_engine.run_backward(
-        tensors = (output,),
-        grad_tensors = (grad_output,),
-        keep_graph = False,
-        create_graph = False,
-        inputs = tuple(),
+        tensors=(output,),
+        grad_tensors=(grad_output,),
+        keep_graph=False,
+        create_graph=False,
+        inputs=tuple(),
         allow_unreachable=True,
         accumulate_grad=True,
     )
 
 
-
-
-
-def forward_step(forward_step_func,
-                 data_iterator,
-                 model,
-                 num_microbatches,
-                 input_tensor,
-                 forward_data_store,
-                 config,
-                 collect_non_loss_data=False,
-                 checkpoint_activations_microbatch=None):
+@dlp.log
+def forward_step(
+    forward_step_func,
+    data_iterator,
+    model,
+    num_microbatches,
+    input_tensor,
+    forward_data_store,
+    config,
+    collect_non_loss_data=False,
+    checkpoint_activations_microbatch=None,
+):
     """Forward step for passed-in model.
 
     If first stage, input tensor is obtained from data_iterator, otherwise
@@ -180,7 +192,7 @@ def forward_step(forward_step_func,
     Returns output tensor."""
     args = get_args()
     if config.timers is not None:
-        config.timers('forward-compute', log_level=2).start()
+        config.timers("forward-compute", log_level=2).start()
 
     unwrap_output_tensor = False
     if not isinstance(input_tensor, list):
@@ -198,7 +210,9 @@ def forward_step(forward_step_func,
         if checkpoint_activations_microbatch is None:
             output_tensor, loss_func = forward_step_func(data_iterator, model)
         else:
-            output_tensor, loss_func = forward_step_func(data_iterator, model, checkpoint_activations_microbatch)
+            output_tensor, loss_func = forward_step_func(
+                data_iterator, model, checkpoint_activations_microbatch
+            )
 
     if parallel_state.is_pipeline_last_stage():
         if not collect_non_loss_data:
@@ -214,21 +228,26 @@ def forward_step(forward_step_func,
             forward_data_store.append(data)
 
     if config.timers is not None:
-        config.timers('forward-compute').stop()
+        config.timers("forward-compute").stop()
 
     # If T5 model (or other model with encoder and decoder)
     # and in decoder stack, then send encoder_hidden_state
     # downstream as well.
     model_type = get_model_type(model)
-    if parallel_state.is_pipeline_stage_after_split() and \
-            model_type == ModelType.encoder_and_decoder:
+    if (
+        parallel_state.is_pipeline_stage_after_split()
+        and model_type == ModelType.encoder_and_decoder
+    ):
         return [output_tensor, input_tensor[-1]]
     if unwrap_output_tensor:
         return output_tensor
     return [output_tensor]
 
 
-def backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config, model=None):
+@dlp.log
+def backward_step(
+    input_tensor, output_tensor, output_tensor_grad, model_type, config, model=None
+):
     """Backward step through passed-in output tensor.
 
     If last stage, output_tensor_grad is None, otherwise gradient of loss
@@ -241,12 +260,20 @@ def backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, c
     # needs to be modified slightly to support arbitrary numbers of skip
     # connections.
     args = get_args()
-    if args.deepspeed:
-        assert model is not None
-
+    assert args is not None
     if config.timers is not None:
-        config.timers('backward-compute', log_level=2).start()
+        config.timers("backward-compute", log_level=2).start()
+    if (to_skip := getattr(args, "train_iters_to_skip", None)) is not None:
+        if config.timers is not None:
+            config.timers("backward-compute").stop()
+        if len(to_skip) > 0 and args.iteration in [int(i) for i in to_skip]:
+            logger.info(f"Caught {args.iteration=} in `iters_to_skip`! Skipping!")
+            return [None]
+    if args.deepspeed:
+        from deepspeed import DeepSpeedEngine
 
+        assert model is not None
+        assert isinstance(model, DeepSpeedEngine)
     # Retain the grad on the input_tensor.
     unwrap_input_tensor_grad = False
     if not isinstance(input_tensor, list):
@@ -255,24 +282,22 @@ def backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, c
     for x in input_tensor:
         if x is not None:
             x.retain_grad()
-
     if not isinstance(output_tensor, list):
         output_tensor = [output_tensor]
     if not isinstance(output_tensor_grad, list):
         output_tensor_grad = [output_tensor_grad]
-
     # Backward pass.
     if args.deepspeed:
         model.backward(output_tensor[0])
     else:
         if output_tensor_grad[0] is None and config.grad_scale_func is not None:
             output_tensor[0] = config.grad_scale_func(output_tensor[0])
-
         if config.deallocate_pipeline_outputs:
             custom_backward(output_tensor[0], output_tensor_grad[0])
         else:
-            torch.autograd.backward(output_tensor[0], grad_tensors=output_tensor_grad[0])
-
+            torch.autograd.backward(
+                output_tensor[0], grad_tensors=output_tensor_grad[0]
+            )
     # Collect the grad of the input_tensor.
     input_tensor_grad = [None]
     if input_tensor is not None:
@@ -282,34 +307,66 @@ def backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, c
                 input_tensor_grad.append(None)
             else:
                 input_tensor_grad.append(x.grad)
-
     # Handle single skip connection if it exists (encoder_hidden_state in
     # model with encoder and decoder).
-    if parallel_state.get_pipeline_model_parallel_world_size() > 1 and \
-            parallel_state.is_pipeline_stage_after_split() and \
-            model_type == ModelType.encoder_and_decoder:
+    if (
+        parallel_state.get_pipeline_model_parallel_world_size() > 1
+        and parallel_state.is_pipeline_stage_after_split()
+        and model_type == ModelType.encoder_and_decoder
+    ):
         if output_tensor_grad[1] is not None:
             input_tensor_grad[-1].add_(output_tensor_grad[1])
     if unwrap_input_tensor_grad:
         input_tensor_grad = input_tensor_grad[0]
 
+    # Add check to see if any NanNs in gradients
+    # if so:
+    # 1. Identify rank, print info to std out
+    # 2. Set NaN values to zero
+    # 3. Proceed with backprop
+    if input_tensor_grad is not None:
+        ezpz.breakpoint(0)
+        if not unwrap_input_tensor_grad:
+            for idx, x in enumerate(input_tensor_grad):
+                if torch.isnan(x).any():
+                    logger.critical(
+                        " ".join(
+                            [
+                                f"[{ezpz.get_hostname()}][{ezpz.get_rank()}] ",
+                                f"NaN detected in input_tensor_grad[{idx}]!! Setting to zero.",
+                            ]
+                        )
+                    )
+                    input_tensor_grad[idx][torch.isnan(x)] = 0.0
+        else:
+            if torch.isnan(input_tensor_grad).any():
+                logger.critical(
+                    " ".join(
+                        [
+                            f"[{ezpz.get_hostname()}][{ezpz.get_rank()}] ",
+                            f"NaN detected in input_tensor_grad!! Setting to zero.",
+                        ]
+                    )
+                )
+                input_tensor_grad[torch.isnan(input_tensor_grad)] = 0.0
     if config.timers is not None:
-        config.timers('backward-compute').stop()
-
+        config.timers("backward-compute").stop()
     return input_tensor_grad
 
 
-def forward_backward_no_pipelining(*,
-                                   forward_step_func,
-                                   data_iterator: Union[Iterator, List[Iterator]],
-                                   model: Union[torch.nn.Module, List[torch.nn.Module]],
-                                   num_microbatches: int,
-                                   seq_length: int, # unused
-                                   micro_batch_size: int, # unused
-                                   decoder_seq_length: int = None, # unused
-                                   forward_only: bool = False,
-                                   collect_non_loss_data: bool = False,
-                                   ):
+@dlp.log
+def forward_backward_no_pipelining(
+    *,
+    forward_step_func,
+    data_iterator: Union[Iterator, List[Iterator]],
+    model: Union[torch.nn.Module, List[torch.nn.Module]],
+    num_microbatches: int,
+    seq_length: int,  # unused
+    micro_batch_size: int,  # unused
+    decoder_seq_length: int = None,  # unused
+    forward_only: bool = False,
+    collect_non_loss_data: bool = False,
+):
     """Run forward and backward passes with no pipeline parallelism
     (no inter-stage communication).
 
@@ -320,12 +377,14 @@ def forward_backward_no_pipelining(*,
     """
 
     if isinstance(model, list):
-        assert len(model) == 1, \
+        assert len(model) == 1, (
             "non-pipeline-parallel schedule does not support model chunking"
+        )
         model = model[0]
     if isinstance(data_iterator, list):
-        assert len(data_iterator) == 1, \
+        assert len(data_iterator) == 1, (
             "non-pipeline-parallel schedule does not support model chunking"
+        )
         data_iterator = data_iterator[0]
 
     config = get_model_config(model)
@@ -337,54 +396,89 @@ def forward_backward_no_pipelining(*,
         no_sync_func = contextlib.nullcontext
 
     args = get_args()
+    assert args is not None
     if args.deepspeed:
+        from deepspeed import DeepSpeedEngine
+
+        assert isinstance(model, DeepSpeedEngine)
         model.set_gradient_accumulation_boundary(False)
 
     model_type = get_model_type(model)
 
     forward_data_store = []
-    input_tensor, output_tensor_grad = None, None
+    input_tensor = None
+    output_tensor_grad = None
     with no_sync_func():
-        for i in range(num_microbatches - 1):
-            output_tensor = forward_step(forward_step_func, data_iterator, model, num_microbatches,
-                                         input_tensor, forward_data_store, config, collect_non_loss_data)
+        for i in dlp.iter(range(num_microbatches - 1)):
+            output_tensor = forward_step(
+                forward_step_func,
+                data_iterator,
+                model,
+                num_microbatches,
+                input_tensor,
+                forward_data_store,
+                config,
+                collect_non_loss_data,
+            )
             if not forward_only:
-                backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config, model)
+                backward_step(
+                    input_tensor,
+                    output_tensor,
+                    output_tensor_grad,
+                    model_type,
+                    config,
+                    model,
+                )
     if args.deepspeed:
         model.set_gradient_accumulation_boundary(True)
 
     # Run computation for last microbatch out of context handler (want to
     # synchronize gradients).
-    output_tensor = forward_step(forward_step_func, data_iterator, model, num_microbatches,
-                                 input_tensor, forward_data_store, config, collect_non_loss_data)
+    output_tensor = forward_step(
+        forward_step_func,
+        data_iterator,
+        model,
+        num_microbatches,
+        input_tensor,
+        forward_data_store,
+        config,
+        collect_non_loss_data,
+    )
 
     if not forward_only:
-        backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config, model)
+        backward_step(
+            input_tensor, output_tensor, output_tensor_grad, model_type, config, model
+        )
 
     return forward_data_store
 
 
-def forward_backward_pipelining_with_interleaving(*,
-                                                  forward_step_func,
-                                                  data_iterator: Union[Iterator, List[Iterator]],
-                                                  model: Union[torch.nn.Module, List[torch.nn.Module]],
-                                                  num_microbatches: int,
-                                                  seq_length: int,
-                                                  micro_batch_size: int,
-                                                  decoder_seq_length: int = None,
-                                                  forward_only: bool = False,
-                                                  collect_non_loss_data: bool = False,
-                                                  ):
+@dlp.log
+def forward_backward_pipelining_with_interleaving(
+    *,
+    forward_step_func,
+    data_iterator: Union[Iterator, List[Iterator]],
+    model: Union[torch.nn.Module, List[torch.nn.Module]],
+    num_microbatches: int,
+    seq_length: int,
+    micro_batch_size: int,
+    decoder_seq_length: int = None,
+    forward_only: bool = False,
+    collect_non_loss_data: bool = False,
+):
     """Run interleaved 1F1B schedule (model split into model chunks), with
     communication between pipeline stages as needed.
 
     Returns dictionary with losses if the last stage, empty dict otherwise."""
-    assert isinstance(model, list), \
+    assert isinstance(model, list), (
         "interleaved pipeline parallelism expected model chunking"
-    assert all(isinstance(chunk, torch.nn.Module) for chunk in model), \
+    )
+    assert all(isinstance(chunk, torch.nn.Module) for chunk in model), (
         "invalid model chunking"
-    assert isinstance(data_iterator, list), \
+    )
+    assert isinstance(data_iterator, list), (
         "interleaved pipeline parallelism expected each model chunk to have a data iterator"
+    )
 
     config = get_model_config(model[0])
     if config.overlap_p2p_comm and config.batch_p2p_comm:
@@ -393,27 +487,32 @@ def forward_backward_pipelining_with_interleaving(*,
     # Disable async grad reductions
     no_sync_func = config.no_sync_func
     if no_sync_func is None and all(isinstance(chunk, torchDDP) for chunk in model):
+
         def multi_no_sync():
             stack = contextlib.ExitStack()
             for chunk in model:
                 stack.enter_context(chunk.no_sync())
             return stack
+
         no_sync_func = multi_no_sync
     if no_sync_func is None:
         no_sync_func = contextlib.nullcontext
     no_sync_context = None
+
     def disable_grad_sync():
         """Disable asynchronous grad reductions"""
         nonlocal no_sync_context
         if no_sync_context is None:
             no_sync_context = no_sync_func()
             no_sync_context.__enter__()
+
     def enable_grad_sync():
         """Enable asynchronous grad reductions"""
         nonlocal no_sync_context
         if no_sync_context is not None:
             no_sync_context.__exit__(None, None, None)
             no_sync_context = None
+
     disable_grad_sync()
 
     # Model chunk IDs with synchronized grads
@@ -429,21 +528,27 @@ def enable_grad_sync():
     pipeline_parallel_rank = parallel_state.get_pipeline_model_parallel_rank()
 
     if num_microbatches % pipeline_parallel_size != 0:
-        msg = f'number of microbatches ({num_microbatches}) is not divisible by '
-        msg += f'pipeline-model-parallel-size ({pipeline_parallel_size}) '
-        msg += 'when using interleaved schedule'
+        msg = f"number of microbatches ({num_microbatches}) is not divisible by "
+        msg += f"pipeline-model-parallel-size ({pipeline_parallel_size}) "
+        msg += "when using interleaved schedule"
         raise RuntimeError(msg)
 
     model_type = get_model_type(model[0])
     if model_type == ModelType.encoder_and_decoder:
-        raise RuntimeError("Interleaving is not supported with an encoder and decoder model.")
+        raise RuntimeError(
+            "Interleaving is not supported with an encoder and decoder model."
+        )
 
     if decoder_seq_length is not None and decoder_seq_length != tensor_shape[0]:
-        raise RuntimeError("Interleaving is not supported with a different decoder sequence length.")
+        raise RuntimeError(
+            "Interleaving is not supported with a different decoder sequence length."
+        )
 
     tensor_shape = (seq_length, micro_batch_size, config.hidden_size)
     if config.sequence_parallel:
-        tensor_shape[0] = tensor_shape[0] // parallel_state.get_tensor_model_parallel_world_size()
+        tensor_shape[0] = (
+            tensor_shape[0] // parallel_state.get_tensor_model_parallel_world_size()
+        )
 
     # Compute number of warmup and remaining microbatches.
     num_model_chunks = len(model)
@@ -462,9 +567,13 @@ def enable_grad_sync():
             num_warmup_microbatches = total_num_microbatches
             all_warmup_microbatches = True
         else:
-            num_warmup_microbatches = (pipeline_parallel_size - pipeline_parallel_rank - 1) * 2
+            num_warmup_microbatches = (
+                pipeline_parallel_size - pipeline_parallel_rank - 1
+            ) * 2
             num_warmup_microbatches += (num_model_chunks - 1) * pipeline_parallel_size
-            num_warmup_microbatches = min(num_warmup_microbatches, total_num_microbatches)
+            num_warmup_microbatches = min(
+                num_warmup_microbatches, total_num_microbatches
+            )
     num_microbatches_remaining = total_num_microbatches - num_warmup_microbatches
 
     # Checkpoint the activations of partial Transformer layers in a number of micro-batches
@@ -486,10 +595,12 @@ def enable_grad_sync():
 
     def get_model_chunk_id(microbatch_id, forward):
         """Helper method to get the model chunk ID given the iteration number."""
-        microbatch_id_in_group = microbatch_id % (pipeline_parallel_size * num_model_chunks)
+        microbatch_id_in_group = microbatch_id % (
+            pipeline_parallel_size * num_model_chunks
+        )
         model_chunk_id = microbatch_id_in_group // pipeline_parallel_size
         if not forward:
-            model_chunk_id = (num_model_chunks - model_chunk_id - 1)
+            model_chunk_id = num_model_chunks - model_chunk_id - 1
         return model_chunk_id
 
     def is_first_microbatch_for_model_chunk(microbatch_id: int) -> bool:
@@ -510,11 +621,13 @@ def is_last_microbatch_for_model_chunk(microbatch_id: int) -> bool:
         microbatch_group_id = microbatch_id // microbatch_group_size
         microbatch_id_in_group = microbatch_id % microbatch_group_size
         if microbatch_group_id == num_microbatch_groups - 1:
-            return microbatch_id_in_group % pipeline_parallel_size == pipeline_parallel_size - 1
+            return (
+                microbatch_id_in_group % pipeline_parallel_size
+                == pipeline_parallel_size - 1
+            )
         else:
             return False
 
-
     def forward_step_helper(microbatch_id, checkpoint_activations_microbatch):
         """Helper method to run forward step with model split into chunks
         (run set_virtual_pipeline_model_parallel_rank() before calling
@@ -529,26 +642,34 @@ def forward_step_helper(microbatch_id, checkpoint_activations_microbatch):
         # pipeline-parallel group.
         if config.param_sync_func is not None:
             param_sync_microbatch_id = microbatch_id + pipeline_parallel_rank
-            if param_sync_microbatch_id < num_microbatches and is_first_microbatch_for_model_chunk(param_sync_microbatch_id):
-                param_sync_chunk_id = get_model_chunk_id(param_sync_microbatch_id, forward=True) + 1
+            if (
+                param_sync_microbatch_id < num_microbatches
+                and is_first_microbatch_for_model_chunk(param_sync_microbatch_id)
+            ):
+                param_sync_chunk_id = (
+                    get_model_chunk_id(param_sync_microbatch_id, forward=True) + 1
+                )
                 if 1 < param_sync_chunk_id < num_model_chunks:
                     config.param_sync_func(model[param_sync_chunk_id].parameters())
 
         # forward step
         if parallel_state.is_pipeline_first_stage():
-            if len(input_tensors[model_chunk_id]) == \
-                    len(output_tensors[model_chunk_id]):
+            if len(input_tensors[model_chunk_id]) == len(
+                output_tensors[model_chunk_id]
+            ):
                 input_tensors[model_chunk_id].append(None)
         input_tensor = input_tensors[model_chunk_id][-1]
-        output_tensor = forward_step(forward_step_func,
-                                     data_iterator[model_chunk_id],
-                                     model[model_chunk_id],
-                                     num_microbatches,
-                                     input_tensor,
-                                     forward_data_store,
-                                     config,
-                                     collect_non_loss_data,
-                                     checkpoint_activations_microbatch)
+        output_tensor = forward_step(
+            forward_step_func,
+            data_iterator[model_chunk_id],
+            model[model_chunk_id],
+            num_microbatches,
+            input_tensor,
+            forward_data_store,
+            config,
+            collect_non_loss_data,
+            checkpoint_activations_microbatch,
+        )
         output_tensors[model_chunk_id].append(output_tensor)
 
         # if forward-only, no need to save tensors for a backward pass
@@ -566,7 +687,9 @@ def backward_step_helper(microbatch_id):
         parallel_state.set_virtual_pipeline_model_parallel_rank(model_chunk_id)
 
         # launch grad synchronization (default)
-        if config.grad_sync_func is None and is_last_microbatch_for_model_chunk(microbatch_id):
+        if config.grad_sync_func is None and is_last_microbatch_for_model_chunk(
+            microbatch_id
+        ):
             enable_grad_sync()
             synchronized_model_chunks.add(model_chunk_id)
 
@@ -576,8 +699,9 @@ def backward_step_helper(microbatch_id):
         input_tensor = input_tensors[model_chunk_id].pop(0)
         output_tensor = output_tensors[model_chunk_id].pop(0)
         output_tensor_grad = output_tensor_grads[model_chunk_id].pop(0)
-        input_tensor_grad = \
-            backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config)
+        input_tensor_grad = backward_step(
+            input_tensor, output_tensor, output_tensor_grad, model_type, config
+        )
 
         # launch grad synchronization (custom grad sync)
         # Note: Asynchronous communication tends to slow down compute.
@@ -586,8 +710,12 @@ def backward_step_helper(microbatch_id):
         # pipeline-parallel group.
         if config.grad_sync_func is not None:
             grad_sync_microbatch_id = microbatch_id - pipeline_parallel_rank
-            if grad_sync_microbatch_id >= 0 and is_last_microbatch_for_model_chunk(grad_sync_microbatch_id):
-                grad_sync_chunk_id = get_model_chunk_id(grad_sync_microbatch_id, forward=False)
+            if grad_sync_microbatch_id >= 0 and is_last_microbatch_for_model_chunk(
+                grad_sync_microbatch_id
+            ):
+                grad_sync_chunk_id = get_model_chunk_id(
+                    grad_sync_microbatch_id, forward=False
+                )
                 enable_grad_sync()
                 config.grad_sync_func(model[grad_sync_chunk_id].parameters())
                 synchronized_model_chunks.add(grad_sync_chunk_id)
@@ -597,29 +725,29 @@ def backward_step_helper(microbatch_id):
 
     # Run warmup forward passes.
     parallel_state.set_virtual_pipeline_model_parallel_rank(0)
-    input_tensors[0].append(
-        p2p_communication.recv_forward(tensor_shape, config))
+    input_tensors[0].append(p2p_communication.recv_forward(tensor_shape, config))
 
     fwd_wait_handles = None
     bwd_wait_handles = None
 
     for k in range(num_warmup_microbatches):
-
         if fwd_wait_handles is not None:
             for req in fwd_wait_handles:
                 req.wait()
 
         # Decide to checkpoint all layers' activations of the current micro-batch
         if max_outstanding_backprops is not None:
-            checkpoint_activations_microbatch = k % max_outstanding_backprops >= \
-                config.num_microbatches_with_partial_activation_checkpoints
+            checkpoint_activations_microbatch = (
+                k % max_outstanding_backprops
+                >= config.num_microbatches_with_partial_activation_checkpoints
+            )
         else:
             checkpoint_activations_microbatch = None
 
         output_tensor = forward_step_helper(k, checkpoint_activations_microbatch)
 
         # Determine if tensor should be received from previous stage.
-        next_forward_model_chunk_id = get_model_chunk_id(k+1, forward=True)
+        next_forward_model_chunk_id = get_model_chunk_id(k + 1, forward=True)
         recv_prev = True
         if parallel_state.is_pipeline_first_stage(ignore_virtual=True):
             if next_forward_model_chunk_id == 0:
@@ -634,46 +762,66 @@ def backward_step_helper(microbatch_id):
         # Send and receive tensors as appropriate (send tensors computed
         # in this iteration; receive tensors for next iteration).
         if not config.overlap_p2p_comm:
-            if k == (num_warmup_microbatches - 1) and not forward_only and \
-                    not all_warmup_microbatches:
+            if (
+                k == (num_warmup_microbatches - 1)
+                and not forward_only
+                and not all_warmup_microbatches
+            ):
                 input_tensor_grad = None
                 recv_next = True
                 if parallel_state.is_pipeline_last_stage(ignore_virtual=True):
                     recv_next = False
-                input_tensor, output_tensor_grad = \
+                input_tensor, output_tensor_grad = (
                     p2p_communication.send_forward_backward_recv_forward_backward(
-                        output_tensor, input_tensor_grad,
-                        recv_prev=recv_prev, recv_next=recv_next,
-                        tensor_shape=tensor_shape, config=config)
-                output_tensor_grads[num_model_chunks-1].append(output_tensor_grad)
-            else:
-                input_tensor = \
-                    p2p_communication.send_forward_recv_forward(
-                        output_tensor, recv_prev=recv_prev,
+                        output_tensor,
+                        input_tensor_grad,
+                        recv_prev=recv_prev,
+                        recv_next=recv_next,
                         tensor_shape=tensor_shape,
-                        config=config)
+                        config=config,
+                    )
+                )
+                output_tensor_grads[num_model_chunks - 1].append(output_tensor_grad)
+            else:
+                input_tensor = p2p_communication.send_forward_recv_forward(
+                    output_tensor,
+                    recv_prev=recv_prev,
+                    tensor_shape=tensor_shape,
+                    config=config,
+                )
             input_tensors[next_forward_model_chunk_id].append(input_tensor)
         else:
-            input_tensor, fwd_wait_handles = \
+            input_tensor, fwd_wait_handles = (
                 p2p_communication.send_forward_recv_forward(
-                    output_tensor, recv_prev=recv_prev,
-                    tensor_shape=tensor_shape, config=config,
-                    overlap_p2p_comm=True)
+                    output_tensor,
+                    recv_prev=recv_prev,
+                    tensor_shape=tensor_shape,
+                    config=config,
+                    overlap_p2p_comm=True,
+                )
+            )
 
-            if k == (num_warmup_microbatches - 1) and not forward_only and \
-                    not all_warmup_microbatches:
+            if (
+                k == (num_warmup_microbatches - 1)
+                and not forward_only
+                and not all_warmup_microbatches
+            ):
                 input_tensor_grad = None
                 recv_next = True
                 if parallel_state.is_pipeline_last_stage(ignore_virtual=True):
                     recv_next = False
 
-                output_tensor_grad, bwd_wait_handles = p2p_communication.send_backward_recv_backward(
-                    input_tensor_grad, recv_next=recv_next,
-                    tensor_shape=tensor_shape,
-                    config=config,
-                    overlap_p2p_comm=True)
+                output_tensor_grad, bwd_wait_handles = (
+                    p2p_communication.send_backward_recv_backward(
+                        input_tensor_grad,
+                        recv_next=recv_next,
+                        tensor_shape=tensor_shape,
+                        config=config,
+                        overlap_p2p_comm=True,
+                    )
+                )
 
-                output_tensor_grads[num_model_chunks-1].append(output_tensor_grad)
+                output_tensor_grads[num_model_chunks - 1].append(output_tensor_grad)
             input_tensors[next_forward_model_chunk_id].append(input_tensor)
 
         deallocate_output_tensor(output_tensor, config.deallocate_pipeline_outputs)
@@ -686,8 +834,8 @@ def backward_step_helper(microbatch_id):
         # Decide to checkpoint all layers' activations of the current micro-batch
         if max_outstanding_backprops is not None:
             checkpoint_activations_microbatch = (
-                forward_k % max_outstanding_backprops >= \
-                config.num_microbatches_with_partial_activation_checkpoints
+                forward_k % max_outstanding_backprops
+                >= config.num_microbatches_with_partial_activation_checkpoints
             )
         else:
             checkpoint_activations_microbatch = None
@@ -699,12 +847,16 @@ def backward_step_helper(microbatch_id):
 
             deallocate_output_tensor(output_tensor, config.deallocate_pipeline_outputs)
 
-            output_tensor = forward_step_helper(forward_k, checkpoint_activations_microbatch)
+            output_tensor = forward_step_helper(
+                forward_k, checkpoint_activations_microbatch
+            )
 
             # Determine if current stage has anything to send in either direction,
             # otherwise set tensor to None.
             forward_model_chunk_id = get_model_chunk_id(forward_k, forward=True)
-            parallel_state.set_virtual_pipeline_model_parallel_rank(forward_model_chunk_id)
+            parallel_state.set_virtual_pipeline_model_parallel_rank(
+                forward_model_chunk_id
+            )
 
             # Last virtual stage no activation tensor to send
             if parallel_state.is_pipeline_last_stage():
@@ -716,13 +868,15 @@ def backward_step_helper(microbatch_id):
             if parallel_state.is_pipeline_first_stage(ignore_virtual=True):
                 # First stage is ahead of last stage by (pipeline_parallel_size - 1).
                 next_forward_model_chunk_id = get_model_chunk_id(
-                    forward_k - (pipeline_parallel_size - 1), forward=True)
+                    forward_k - (pipeline_parallel_size - 1), forward=True
+                )
                 if next_forward_model_chunk_id == (num_model_chunks - 1):
                     recv_prev = False
                 next_forward_model_chunk_id += 1
             else:
-                next_forward_model_chunk_id = get_model_chunk_id(forward_k + 1,
-                                                                forward=True)
+                next_forward_model_chunk_id = get_model_chunk_id(
+                    forward_k + 1, forward=True
+                )
 
             # If last iteration, don't receive; we already received one extra
             # before the start of the for loop.
@@ -731,14 +885,17 @@ def backward_step_helper(microbatch_id):
 
             # Send activation tensor to the next stage and receive activation tensor from the
             # previous stage
-            input_tensor, fwd_wait_handles = \
+            input_tensor, fwd_wait_handles = (
                 p2p_communication.send_forward_recv_forward(
-                    output_tensor, recv_prev=recv_prev,
+                    output_tensor,
+                    recv_prev=recv_prev,
                     tensor_shape=tensor_shape,
                     dtype=dtype,
                     batch_p2p_comm=batch_p2p_comm,
                     timers=timers,
-                    overlap_p2p_comm=True)
+                    overlap_p2p_comm=True,
+                )
+            )
             # assert fwd_wait_handles is not None
 
             if bwd_wait_handles is not None:
@@ -750,7 +907,9 @@ def backward_step_helper(microbatch_id):
             input_tensor_grad = backward_step_helper(backward_k)
 
             backward_model_chunk_id = get_model_chunk_id(backward_k, forward=False)
-            parallel_state.set_virtual_pipeline_model_parallel_rank(backward_model_chunk_id)
+            parallel_state.set_virtual_pipeline_model_parallel_rank(
+                backward_model_chunk_id
+            )
 
             # First virtual stage no activation gradient tensor to send
             if parallel_state.is_pipeline_first_stage():
@@ -771,14 +930,20 @@ def backward_step_helper(microbatch_id):
                     backward_k + 1, forward=False
                 )
 
-            output_tensor_grad, bwd_wait_handles = p2p_communication.send_backward_recv_backward(
-                input_tensor_grad, recv_next=recv_next,
-                tensor_shape=tensor_shape,
-                config=config,
-                overlap_p2p_comm=True)
+            output_tensor_grad, bwd_wait_handles = (
+                p2p_communication.send_backward_recv_backward(
+                    input_tensor_grad,
+                    recv_next=recv_next,
+                    tensor_shape=tensor_shape,
+                    config=config,
+                    overlap_p2p_comm=True,
+                )
+            )
 
-        else: # no p2p overlap
-            output_tensor = forward_step_helper(forward_k, checkpoint_activations_microbatch)
+        else:  # no p2p overlap
+            output_tensor = forward_step_helper(
+                forward_k, checkpoint_activations_microbatch
+            )
 
             # Backward pass.
             backward_k = k
@@ -790,12 +955,16 @@ def backward_step_helper(microbatch_id):
             # Determine if current stage has anything to send in either direction,
             # otherwise set tensor to None.
             forward_model_chunk_id = get_model_chunk_id(forward_k, forward=True)
-            parallel_state.set_virtual_pipeline_model_parallel_rank(forward_model_chunk_id)
+            parallel_state.set_virtual_pipeline_model_parallel_rank(
+                forward_model_chunk_id
+            )
             if parallel_state.is_pipeline_last_stage():
                 output_tensor = None
 
             backward_model_chunk_id = get_model_chunk_id(backward_k, forward=False)
-            parallel_state.set_virtual_pipeline_model_parallel_rank(backward_model_chunk_id)
+            parallel_state.set_virtual_pipeline_model_parallel_rank(
+                backward_model_chunk_id
+            )
             if parallel_state.is_pipeline_first_stage():
                 input_tensor_grad = None
 
@@ -805,25 +974,29 @@ def backward_step_helper(microbatch_id):
             if parallel_state.is_pipeline_first_stage(ignore_virtual=True):
                 # First stage is ahead of last stage by (pipeline_parallel_size - 1).
                 next_forward_model_chunk_id = get_model_chunk_id(
-                    forward_k - (pipeline_parallel_size - 1), forward=True)
+                    forward_k - (pipeline_parallel_size - 1), forward=True
+                )
                 if next_forward_model_chunk_id == (num_model_chunks - 1):
                     recv_prev = False
                 next_forward_model_chunk_id += 1
             else:
-                next_forward_model_chunk_id = get_model_chunk_id(forward_k + 1,
-                                                                 forward=True)
+                next_forward_model_chunk_id = get_model_chunk_id(
+                    forward_k + 1, forward=True
+                )
 
             recv_next = True
             if parallel_state.is_pipeline_last_stage(ignore_virtual=True):
                 # Last stage is ahead of first stage by (pipeline_parallel_size - 1).
                 next_backward_model_chunk_id = get_model_chunk_id(
-                    backward_k - (pipeline_parallel_size - 1), forward=False)
+                    backward_k - (pipeline_parallel_size - 1), forward=False
+                )
                 if next_backward_model_chunk_id == 0:
                     recv_next = False
                 next_backward_model_chunk_id -= 1
             else:
-                next_backward_model_chunk_id = get_model_chunk_id(backward_k + 1,
-                                                                  forward=False)
+                next_backward_model_chunk_id = get_model_chunk_id(
+                    backward_k + 1, forward=False
+                )
 
             # If last iteration, don't receive; we already received one extra
             # before the start of the for loop.
@@ -831,11 +1004,16 @@ def backward_step_helper(microbatch_id):
                 recv_prev = False
 
             # Communicate tensors.
-            input_tensor, output_tensor_grad = \
+            input_tensor, output_tensor_grad = (
                 p2p_communication.send_forward_backward_recv_forward_backward(
-                    output_tensor, input_tensor_grad,
-                    recv_prev=recv_prev, recv_next=recv_next,
-                    tensor_shape=tensor_shape, config=config)
+                    output_tensor,
+                    input_tensor_grad,
+                    recv_prev=recv_prev,
+                    recv_next=recv_next,
+                    tensor_shape=tensor_shape,
+                    config=config,
+                )
+            )
             deallocate_output_tensor(output_tensor, config.deallocate_pipeline_outputs)
 
         # Put input_tensor and output_tensor_grad in data structures in the
@@ -843,8 +1021,7 @@ def backward_step_helper(microbatch_id):
         if recv_prev:
             input_tensors[next_forward_model_chunk_id].append(input_tensor)
         if recv_next:
-            output_tensor_grads[next_backward_model_chunk_id].append(
-                output_tensor_grad)
+            output_tensor_grads[next_backward_model_chunk_id].append(output_tensor_grad)
 
     deallocate_output_tensor(output_tensor, config.deallocate_pipeline_outputs)
 
@@ -855,11 +1032,12 @@ def backward_step_helper(microbatch_id):
                 wait_handle.wait()
 
         if all_warmup_microbatches:
-            output_tensor_grads[num_model_chunks-1].append(
-                p2p_communication.recv_backward(tensor_shape, config=config))
+            output_tensor_grads[num_model_chunks - 1].append(
+                p2p_communication.recv_backward(tensor_shape, config=config)
+            )
         for k in range(num_microbatches_remaining, total_num_microbatches):
             input_tensor_grad = backward_step_helper(k)
-            next_backward_model_chunk_id = get_model_chunk_id(k+1, forward=False)
+            next_backward_model_chunk_id = get_model_chunk_id(k + 1, forward=False)
             recv_next = True
             if parallel_state.is_pipeline_last_stage(ignore_virtual=True):
                 if next_backward_model_chunk_id == (num_model_chunks - 1):
@@ -868,8 +1046,12 @@ def backward_step_helper(microbatch_id):
                 recv_next = False
             output_tensor_grads[next_backward_model_chunk_id].append(
                 p2p_communication.send_backward_recv_backward(
-                    input_tensor_grad, recv_next=recv_next,
-                    tensor_shape=tensor_shape, config=config))
+                    input_tensor_grad,
+                    recv_next=recv_next,
+                    tensor_shape=tensor_shape,
+                    config=config,
+                )
+            )
 
     # Launch any remaining grad reductions
     enable_grad_sync()
@@ -884,13 +1066,16 @@ def backward_step_helper(microbatch_id):
 
     return forward_data_store
 
-def get_tensor_shapes(*,
-                      rank: int,
-                      model_type: ModelType,
-                      seq_length: int,
-                      micro_batch_size: int,
-                      decoder_seq_length: int,
-                      config):
+
+def get_tensor_shapes(
+    *,
+    rank: int,
+    model_type: ModelType,
+    seq_length: int,
+    micro_batch_size: int,
+    decoder_seq_length: int,
+    config,
+):
     # Determine right tensor sizes (based on position of rank with respect to split
     # rank) and model size.
     # Send two tensors if model is T5 and rank is in decoder stage:
@@ -903,20 +1088,24 @@ def get_tensor_shapes(*,
 
     if config.sequence_parallel:
         seq_length = seq_length // parallel_state.get_tensor_model_parallel_world_size()
-        decoder_seq_length = decoder_seq_length // parallel_state.get_tensor_model_parallel_world_size()
+        decoder_seq_length = (
+            decoder_seq_length // parallel_state.get_tensor_model_parallel_world_size()
+        )
 
     if model_type == ModelType.encoder_and_decoder:
         if parallel_state.is_pipeline_stage_before_split(rank):
             tensor_shapes.append((seq_length, micro_batch_size, config.hidden_size))
         else:
-            tensor_shapes.append((decoder_seq_length, micro_batch_size, config.hidden_size))
+            tensor_shapes.append(
+                (decoder_seq_length, micro_batch_size, config.hidden_size)
+            )
             tensor_shapes.append((seq_length, micro_batch_size, config.hidden_size))
     else:
         tensor_shapes.append((seq_length, micro_batch_size, config.hidden_size))
     return tensor_shapes
 
 
-
+@dlp.log
 def recv_forward(tensor_shapes, config):
     input_tensors = []
     for tensor_shape in tensor_shapes:
@@ -927,90 +1116,105 @@ def recv_forward(tensor_shapes, config):
     return input_tensors
 
 
+@dlp.log
 def recv_backward(tensor_shapes, config):
     output_tensor_grads = []
     for tensor_shape in tensor_shapes:
         if tensor_shape is None:
             output_tensor_grads.append(None)
         else:
-            output_tensor_grads.append(p2p_communication.recv_backward(tensor_shape, config))
+            output_tensor_grads.append(
+                p2p_communication.recv_backward(tensor_shape, config)
+            )
     return output_tensor_grads
 
 
+@dlp.log
 def send_forward(output_tensors, tensor_shapes, config):
     if not isinstance(output_tensors, list):
         output_tensors = [output_tensors]
-    for (output_tensor, tensor_shape) in zip(output_tensors, tensor_shapes):
+    for output_tensor, tensor_shape in zip(output_tensors, tensor_shapes):
         if tensor_shape is None:
             continue
         p2p_communication.send_forward(output_tensor, config)
 
 
+@dlp.log
 def send_backward(input_tensor_grads, tensor_shapes, config):
     if not isinstance(input_tensor_grads, list):
         input_tensor_grads = [input_tensor_grads]
-    for (input_tensor_grad, tensor_shape) in zip(input_tensor_grads, tensor_shapes):
+    for input_tensor_grad, tensor_shape in zip(input_tensor_grads, tensor_shapes):
         if tensor_shape is None:
             continue
         p2p_communication.send_backward(input_tensor_grad, config)
 
 
+@dlp.log
 def send_forward_recv_backward(output_tensors, tensor_shapes, config):
     if not isinstance(output_tensors, list):
         output_tensors = [output_tensors]
     output_tensor_grads = []
-    for (output_tensor, tensor_shape) in zip(output_tensors, tensor_shapes):
+    for output_tensor, tensor_shape in zip(output_tensors, tensor_shapes):
         if tensor_shape is None:
             output_tensor_grads.append(None)
             continue
         output_tensor_grad = p2p_communication.send_forward_recv_backward(
-                output_tensor, tensor_shape, config)
+            output_tensor, tensor_shape, config
+        )
         output_tensor_grads.append(output_tensor_grad)
     return output_tensor_grads
 
 
+@dlp.log
 def send_backward_recv_forward(input_tensor_grads, tensor_shapes, config):
     if not isinstance(input_tensor_grads, list):
         input_tensor_grads = [input_tensor_grads]
     input_tensors = []
-    for (input_tensor_grad, tensor_shape) in zip(input_tensor_grads, tensor_shapes):
+    for input_tensor_grad, tensor_shape in zip(input_tensor_grads, tensor_shapes):
         if tensor_shape is None:
             input_tensors.append(None)
             continue
         input_tensor = p2p_communication.send_backward_recv_forward(
-                input_tensor_grad, tensor_shape, config)
+            input_tensor_grad, tensor_shape, config
+        )
         input_tensors.append(input_tensor)
     return input_tensors
 
 
-def forward_backward_pipelining_without_interleaving(*,
-                                                     forward_step_func,
-                                                     data_iterator: Union[Iterator, List[Iterator]],
-                                                     model: Union[torch.nn.Module, List[torch.nn.Module]],
-                                                     num_microbatches: int,
-                                                     seq_length: int,
-                                                     micro_batch_size: int,
-                                                     decoder_seq_length: int = None,
-                                                     forward_only: bool = False,
-                                                     collect_non_loss_data: bool = False,
-                                                     ):
+@dlp.log
+def forward_backward_pipelining_without_interleaving(
+    *,
+    forward_step_func,
+    data_iterator: Union[Iterator, List[Iterator]],
+    model: Union[torch.nn.Module, List[torch.nn.Module]],
+    num_microbatches: int,
+    seq_length: int,
+    micro_batch_size: int,
+    decoder_seq_length: int = None,
+    forward_only: bool = False,
+    collect_non_loss_data: bool = False,
+):
     """Run non-interleaved 1F1B schedule, with communication between pipeline
     stages.
 
     Returns dictionary with losses if the last stage, empty dict otherwise."""
 
     if isinstance(model, list):
-        assert len(model) == 1, \
+        assert len(model) == 1, (
             "non-interleaved pipeline parallelism does not support model chunking"
+        )
         model = model[0]
     if isinstance(data_iterator, list):
-        assert len(data_iterator) == 1, \
+        assert len(data_iterator) == 1, (
             "non-pipeline-parallel schedule does not support model chunking"
+        )
         data_iterator = data_iterator[0]
 
     config = get_model_config(model)
     if config.overlap_p2p_comm:
-        raise ValueError("Non-interleaved pipeline parallelism does not support overlapping p2p communication")
+        raise ValueError(
+            "Non-interleaved pipeline parallelism does not support overlapping p2p communication"
+        )
 
     # Disable async grad reductions
     no_sync_func = config.no_sync_func
@@ -1019,29 +1223,31 @@ def forward_backward_pipelining_without_interleaving(*,
     if no_sync_func is None:
         no_sync_func = contextlib.nullcontext
     no_sync_context = None
+
     def disable_grad_sync():
         """Disable asynchronous grad reductions"""
         nonlocal no_sync_context
         if no_sync_context is None:
             no_sync_context = no_sync_func()
             no_sync_context.__enter__()
+
     def enable_grad_sync():
         """Enable asynchronous grad reductions"""
         nonlocal no_sync_context
         if no_sync_context is not None:
             no_sync_context.__exit__(None, None, None)
             no_sync_context = None
+
     disable_grad_sync()
 
     # Compute number of warmup microbatches.
-    num_warmup_microbatches = \
-        (parallel_state.get_pipeline_model_parallel_world_size() -
-         parallel_state.get_pipeline_model_parallel_rank() - 1)
-    num_warmup_microbatches = min(
-        num_warmup_microbatches,
-        num_microbatches)
-    num_microbatches_remaining = \
-        num_microbatches - num_warmup_microbatches
+    num_warmup_microbatches = (
+        parallel_state.get_pipeline_model_parallel_world_size()
+        - parallel_state.get_pipeline_model_parallel_rank()
+        - 1
+    )
+    num_warmup_microbatches = min(num_warmup_microbatches, num_microbatches)
+    num_microbatches_remaining = num_microbatches - num_warmup_microbatches
 
     # Checkpoint the activations of partial Transformer layers in a number of micro-batches
     # within the maximum outstanding micro-batch backpropagations.
@@ -1058,18 +1264,22 @@ def enable_grad_sync():
     model_type = get_model_type(model)
 
     rank = parallel_state.get_pipeline_model_parallel_rank()
-    recv_tensor_shapes = get_tensor_shapes(rank=rank-1,
-                                           model_type=model_type,
-                                           seq_length=seq_length,
-                                           micro_batch_size=micro_batch_size,
-                                           decoder_seq_length=decoder_seq_length,
-                                           config=config)
-    send_tensor_shapes = get_tensor_shapes(rank=rank,
-                                           model_type=model_type,
-                                           seq_length=seq_length,
-                                           micro_batch_size=micro_batch_size,
-                                           decoder_seq_length=decoder_seq_length,
-                                           config=config)
+    recv_tensor_shapes = get_tensor_shapes(
+        rank=rank - 1,
+        model_type=model_type,
+        seq_length=seq_length,
+        micro_batch_size=micro_batch_size,
+        decoder_seq_length=decoder_seq_length,
+        config=config,
+    )
+    send_tensor_shapes = get_tensor_shapes(
+        rank=rank,
+        model_type=model_type,
+        seq_length=seq_length,
+        micro_batch_size=micro_batch_size,
+        decoder_seq_length=decoder_seq_length,
+        config=config,
+    )
 
     # Input, output tensors only need to be saved when doing backward passes
     input_tensors = None
@@ -1084,21 +1294,32 @@ def enable_grad_sync():
         # Decide to checkpoint all layers' activations of the current micro-batch
         if max_outstanding_backprops is not None:
             checkpoint_activations_microbatch = (
-                i % max_outstanding_backprops >= config.num_microbatches_with_partial_activation_checkpoints
+                i % max_outstanding_backprops
+                >= config.num_microbatches_with_partial_activation_checkpoints
             )
         else:
             checkpoint_activations_microbatch = None
 
         input_tensor = recv_forward(recv_tensor_shapes, config)
-        output_tensor = forward_step(forward_step_func, data_iterator, model, num_microbatches,
-                                     input_tensor, forward_data_store, config, collect_non_loss_data,
-                                     checkpoint_activations_microbatch)
+        output_tensor = forward_step(
+            forward_step_func,
+            data_iterator,
+            model,
+            num_microbatches,
+            input_tensor,
+            forward_data_store,
+            config,
+            collect_non_loss_data,
+            checkpoint_activations_microbatch,
+        )
         send_forward(output_tensor, send_tensor_shapes, config)
 
         if not forward_only:
             input_tensors.append(input_tensor)
             output_tensors.append(output_tensor)
-            deallocate_output_tensor(output_tensor[0], config.deallocate_pipeline_outputs)
+            deallocate_output_tensor(
+                output_tensor[0], config.deallocate_pipeline_outputs
+            )
 
     # Before running 1F1B, need to receive first forward tensor.
     # If all microbatches are run in warmup / cooldown phase, then no need to
@@ -1108,20 +1329,27 @@ def enable_grad_sync():
 
     # Run 1F1B in steady state.
     for i in range(num_microbatches_remaining):
-        last_iteration = (i == (num_microbatches_remaining - 1))
+        last_iteration = i == (num_microbatches_remaining - 1)
 
         # Decide to checkpoint all layers' activations of the current micro-batch
         if max_outstanding_backprops is not None:
             checkpoint_activations_microbatch = (
-                ((i+num_warmup_microbatches) % max_outstanding_backprops) >= \
-                config.num_microbatches_with_partial_activation_checkpoints
-            )
+                (i + num_warmup_microbatches) % max_outstanding_backprops
+            ) >= config.num_microbatches_with_partial_activation_checkpoints
         else:
             checkpoint_activations_microbatch = None
 
-        output_tensor = forward_step(forward_step_func, data_iterator, model, num_microbatches,
-                                     input_tensor, forward_data_store, config, collect_non_loss_data,
-                                     checkpoint_activations_microbatch)
+        output_tensor = forward_step(
+            forward_step_func,
+            data_iterator,
+            model,
+            num_microbatches,
+            input_tensor,
+            forward_data_store,
+            config,
+            collect_non_loss_data,
+            checkpoint_activations_microbatch,
+        )
 
         if forward_only:
             send_forward(output_tensor, send_tensor_shapes, config)
@@ -1130,39 +1358,48 @@ def enable_grad_sync():
                 input_tensor = recv_forward(recv_tensor_shapes, config)
 
         else:
-            output_tensor_grad = \
-                send_forward_recv_backward(output_tensor, send_tensor_shapes, config)
+            output_tensor_grad = send_forward_recv_backward(
+                output_tensor, send_tensor_shapes, config
+            )
 
             # Add input_tensor and output_tensor to end of list.
             input_tensors.append(input_tensor)
             output_tensors.append(output_tensor)
-            deallocate_output_tensor(output_tensor[0], config.deallocate_pipeline_outputs)
+            deallocate_output_tensor(
+                output_tensor[0], config.deallocate_pipeline_outputs
+            )
 
             # Pop input_tensor and output_tensor from the start of the list for
             # the backward pass.
             input_tensor = input_tensors.pop(0)
             output_tensor = output_tensors.pop(0)
 
-            input_tensor_grad = \
-                backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config, model)
+            input_tensor_grad = backward_step(
+                input_tensor,
+                output_tensor,
+                output_tensor_grad,
+                model_type,
+                config,
+                model,
+            )
 
             if last_iteration:
                 input_tensor = None
                 send_backward(input_tensor_grad, recv_tensor_shapes, config)
             else:
-                input_tensor = \
-                    send_backward_recv_forward(input_tensor_grad, recv_tensor_shapes, config)
+                input_tensor = send_backward_recv_forward(
+                    input_tensor_grad, recv_tensor_shapes, config
+                )
 
     # Run cooldown backward passes.
     if not forward_only:
         for i in range(num_warmup_microbatches):
-
             # Enable async grad reduction in the last backward pass
             # Note: If grad sync function is provided, only enable
             # async grad reduction in first pipeline stage. Other
             # pipeline stages do grad reduction during pipeline
             # bubble.
-            if i == num_warmup_microbatches-1:
+            if i == num_warmup_microbatches - 1:
                 if config.grad_sync_func is None or rank == 0:
                     enable_grad_sync()
 
@@ -1171,8 +1408,14 @@ def enable_grad_sync():
 
             output_tensor_grad = recv_backward(send_tensor_shapes, config)
 
-            input_tensor_grad = \
-                backward_step(input_tensor, output_tensor, output_tensor_grad, model_type, config, model)
+            input_tensor_grad = backward_step(
+                input_tensor,
+                output_tensor,
+                output_tensor_grad,
+                model_type,
+                config,
+                model,
+            )
 
             send_backward(input_tensor_grad, recv_tensor_shapes, config)
 
diff --git a/megatron/core/sequence_parallel/cross_entropy.py b/megatron/core/sequence_parallel/cross_entropy.py
index 4da51d59533..45ba29f82ff 100644
--- a/megatron/core/sequence_parallel/cross_entropy.py
+++ b/megatron/core/sequence_parallel/cross_entropy.py
@@ -4,9 +4,10 @@
 from megatron.core.parallel_state import (
     get_sequence_parallel_group,
     get_sequence_parallel_rank,
-    get_sequence_parallel_world_size
+    get_sequence_parallel_world_size,
 )
 
+
 class _VocabSequenceParallelCrossEntropy(torch.autograd.Function):
 
     @staticmethod
@@ -18,16 +19,29 @@ def forward(ctx, vocab_seq_parallel_logits, target, label_smoothing=0.0):
         # Need softmax for backward
         softmax = torch.nn.functional.softmax(vocab_seq_parallel_logits, dim=-1)
         ctx.vocab_size = vocab_seq_parallel_logits.size(2)
-        loss = torch.nn.functional.nll_loss(softmax.log().view(-1, ctx.vocab_size), target.view(-1), reduction='none')
-       
-        ctx.seqlen = vocab_seq_parallel_logits.size(0) * get_sequence_parallel_world_size()
+        loss = torch.nn.functional.nll_loss(
+            softmax.log().view(-1, ctx.vocab_size), target.view(-1), reduction="none"
+        )
+
+        ctx.seqlen = (
+            vocab_seq_parallel_logits.size(0) * get_sequence_parallel_world_size()
+        )
         batch_size = vocab_seq_parallel_logits.size(1)
 
-        loss_all = torch.empty(ctx.seqlen, batch_size, dtype=vocab_seq_parallel_logits.dtype, device=vocab_seq_parallel_logits.device)
-        if version.parse(torch.__version__) >= version.parse('1.13'):
-            torch.distributed.all_gather_into_tensor(loss_all, loss, group=get_sequence_parallel_group())
+        loss_all = torch.empty(
+            ctx.seqlen,
+            batch_size,
+            dtype=vocab_seq_parallel_logits.dtype,
+            device=vocab_seq_parallel_logits.device,
+        )
+        if version.parse(torch.__version__) >= version.parse("1.13"):
+            torch.distributed.all_gather_into_tensor(
+                loss_all, loss, group=get_sequence_parallel_group()
+            )
         else:
-            torch.distributed._all_gather_base(loss_all, loss, group=get_sequence_parallel_group())
+            torch.distributed._all_gather_base(
+                loss_all, loss, group=get_sequence_parallel_group()
+            )
 
         ctx.save_for_backward(softmax, target)
 
@@ -39,12 +53,13 @@ def backward(ctx, grad_output):
 
         step_seqlen = ctx.seqlen // get_sequence_parallel_world_size()
         sp_rank = get_sequence_parallel_rank()
-        grad_output_part = grad_output[step_seqlen*sp_rank:step_seqlen*(sp_rank + 1), :]
+        grad_output_part = grad_output[
+            step_seqlen * sp_rank : step_seqlen * (sp_rank + 1), :
+        ]
 
         grad_input = softmax
         grad_2d = grad_input.view(-1, ctx.vocab_size)
-        arange_1d = torch.arange(start=0, end=grad_2d.size()[0],
-                                 device=grad_2d.device)
+        arange_1d = torch.arange(start=0, end=grad_2d.size()[0], device=grad_2d.device)
 
         grad_2d[arange_1d, target.view(-1)] -= 1
         grad_input.mul_(grad_output_part.unsqueeze(dim=-1))
@@ -52,5 +67,9 @@ def backward(ctx, grad_output):
         return grad_input, None, None
 
 
-def vocab_sequence_parallel_cross_entropy(vocab_parallel_logits, target, label_smoothing=0.0):
-    return _VocabSequenceParallelCrossEntropy.apply(vocab_parallel_logits, target, label_smoothing)
+def vocab_sequence_parallel_cross_entropy(
+    vocab_parallel_logits, target, label_smoothing=0.0
+):
+    return _VocabSequenceParallelCrossEntropy.apply(
+        vocab_parallel_logits, target, label_smoothing
+    )
diff --git a/megatron/core/tensor_parallel/__init__.py b/megatron/core/tensor_parallel/__init__.py
index 12c1ab95bb6..45fb7c7775c 100644
--- a/megatron/core/tensor_parallel/__init__.py
+++ b/megatron/core/tensor_parallel/__init__.py
@@ -9,8 +9,7 @@
     set_defaults_if_not_set_tensor_model_parallel_attributes,
     copy_tensor_model_parallel_attributes,
     param_is_not_tensor_parallel_duplicate,
-    linear_with_grad_accumulation_and_async_allreduce
-
+    linear_with_grad_accumulation_and_async_allreduce,
 )
 
 from .mappings import (
@@ -41,7 +40,7 @@
     "vocab_parallel_cross_entropy",
     # data.py
     "broadcast_data",
-    #layers.py
+    # layers.py
     "ColumnParallelLinear",
     "RowParallelLinear",
     "VocabParallelEmbedding",
@@ -54,7 +53,7 @@
     "copy_to_tensor_model_parallel_region",
     "gather_from_tensor_model_parallel_region",
     "gather_from_sequence_parallel_region",
-#    "reduce_from_tensor_model_parallel_region",
+    #    "reduce_from_tensor_model_parallel_region",
     "scatter_to_tensor_model_parallel_region",
     "scatter_to_sequence_parallel_region",
     # random.py
diff --git a/megatron/core/tensor_parallel/cross_entropy.py b/megatron/core/tensor_parallel/cross_entropy.py
index 9dcdc0459f1..ba144c399e2 100644
--- a/megatron/core/tensor_parallel/cross_entropy.py
+++ b/megatron/core/tensor_parallel/cross_entropy.py
@@ -5,7 +5,7 @@
 from megatron.core.parallel_state import (
     get_tensor_model_parallel_group,
     get_tensor_model_parallel_rank,
-    get_tensor_model_parallel_world_size
+    get_tensor_model_parallel_world_size,
 )
 
 from .utils import VocabUtility
@@ -18,9 +18,11 @@ def forward(ctx, vocab_parallel_logits, target, label_smoothing=0.0):
 
         # Maximum value along vocab dimension across all GPUs.
         logits_max = torch.max(vocab_parallel_logits, dim=-1)[0]
-        torch.distributed.all_reduce(logits_max,
-                                     op=torch.distributed.ReduceOp.MAX,
-                                     group=get_tensor_model_parallel_group())
+        torch.distributed.all_reduce(
+            logits_max,
+            op=torch.distributed.ReduceOp.MAX,
+            group=get_tensor_model_parallel_group(),
+        )
         # Subtract the maximum value.
         vocab_parallel_logits = vocab_parallel_logits - logits_max.unsqueeze(dim=-1)
 
@@ -30,7 +32,8 @@ def forward(ctx, vocab_parallel_logits, target, label_smoothing=0.0):
         rank = get_tensor_model_parallel_rank()
         world_size = get_tensor_model_parallel_world_size()
         vocab_start_index, vocab_end_index = get_vocab_range(
-            partition_vocab_size, rank, world_size)
+            partition_vocab_size, rank, world_size
+        )
 
         # Create a mask of valid vocab ids (1 means it needs to be masked).
         target_mask = (target < vocab_start_index) | (target >= vocab_end_index)
@@ -42,24 +45,29 @@ def forward(ctx, vocab_parallel_logits, target, label_smoothing=0.0):
         # [*, partition-vocab-size] and target to a 1-D tensor of size [*].
         logits_2d = vocab_parallel_logits.view(-1, partition_vocab_size)
         masked_target_1d = masked_target.view(-1)
-        arange_1d = torch.arange(start=0, end=logits_2d.size()[0],
-                                 device=logits_2d.device)
+        arange_1d = torch.arange(
+            start=0, end=logits_2d.size()[0], device=logits_2d.device
+        )
         predicted_logits_1d = logits_2d[arange_1d, masked_target_1d]
         predicted_logits_1d = predicted_logits_1d.clone().contiguous()
         predicted_logits = predicted_logits_1d.view_as(target)
         predicted_logits[target_mask] = 0.0
         # All reduce is needed to get the chunks from other GPUs.
-        torch.distributed.all_reduce(predicted_logits,
-                                     op=torch.distributed.ReduceOp.SUM,
-                                     group=get_tensor_model_parallel_group())
+        torch.distributed.all_reduce(
+            predicted_logits,
+            op=torch.distributed.ReduceOp.SUM,
+            group=get_tensor_model_parallel_group(),
+        )
 
         # Sum of exponential of logits along vocab dimension across all GPUs.
         exp_logits = vocab_parallel_logits
         torch.exp(vocab_parallel_logits, out=exp_logits)
         sum_exp_logits = exp_logits.sum(dim=-1)
-        torch.distributed.all_reduce(sum_exp_logits,
-                                     op=torch.distributed.ReduceOp.SUM,
-                                     group=get_tensor_model_parallel_group())
+        torch.distributed.all_reduce(
+            sum_exp_logits,
+            op=torch.distributed.ReduceOp.SUM,
+            group=get_tensor_model_parallel_group(),
+        )
 
         # Loss = log(sum(exp(logits))) - predicted-logit.
         loss = torch.log(sum_exp_logits) - predicted_logits
@@ -69,14 +77,14 @@ def forward(ctx, vocab_parallel_logits, target, label_smoothing=0.0):
 
         vocab_size = exp_logits.size(-1)
         if label_smoothing > 0:
-            """
+            r"""
             We'd like to assign 1 / (K - 1) probability mass to every index that is not the ground truth.
             = (1 - alpha) * y_gt + alpha * mean(y_{i for i != gt})
             = (1 - alpha) * y_gt + (alpha / (K - 1)) * \sum_{i != gt} y_i
             = ((K - 1) * (1 - alpha) / (K - 1)) * y_gt + (alpha / (K - 1)) * \sum_{i != gt} y_i
             = (K * (1 - alpha) - 1) / (K - 1)) * y_gt  + (alpha / (K - 1)) * \sum_{i} y_i
             = (1 - (alpha * K) / (K - 1)) * y_gt + ( (alpha * K) / (K - 1) ) * \sum_{i} y_i / K
-            From: https://github.com/NVIDIA/NeMo/blob/main/nemo/collections/common/losses/smoothed_cross_entropy.py
+            From: <https://github.com/NVIDIA/NeMo/blob/main/nemo/collections/common/losses/smoothed_cross_entropy.py>
             """
             assert 1.0 > label_smoothing > 0.0
             smoothing = label_smoothing * vocab_size / (vocab_size - 1)
@@ -107,8 +115,7 @@ def backward(ctx, grad_output):
         grad_2d = grad_input.view(-1, partition_vocab_size)
 
         # Add the gradient from matching classes.
-        arange_1d = torch.arange(start=0, end=grad_2d.size()[0],
-                                 device=grad_2d.device)
+        arange_1d = torch.arange(start=0, end=grad_2d.size()[0], device=grad_2d.device)
 
         softmax_update = 1.0 - target_mask.view(-1).float()
 
@@ -139,4 +146,6 @@ def vocab_parallel_cross_entropy(vocab_parallel_logits, target, label_smoothing=
         lobal_smoothing: smoothing factor, must be in range [0.0, 1.0)
                          default is no smoothing (=0.0)
     """
-    return _VocabParallelCrossEntropy.apply(vocab_parallel_logits, target, label_smoothing)
+    return _VocabParallelCrossEntropy.apply(
+        vocab_parallel_logits, target, label_smoothing
+    )
diff --git a/megatron/core/tensor_parallel/data.py b/megatron/core/tensor_parallel/data.py
index 4de1a8b65b3..b9e50189189 100644
--- a/megatron/core/tensor_parallel/data.py
+++ b/megatron/core/tensor_parallel/data.py
@@ -19,8 +19,11 @@
 def _check_data_types(keys, data, target_dtype):
     """Check that all the keys have the same target data type."""
     for key in keys:
-        assert data[key].dtype == target_dtype, '{} has data type {} which '\
-            'is different than {}'.format(key, data[key].dtype, target_dtype)
+        assert (
+            data[key].dtype == target_dtype
+        ), "{} has data type {} which " "is different than {}".format(
+            key, data[key].dtype, target_dtype
+        )
 
 
 def _build_key_size_numel_dictionaries(keys, data, group=None, rank=-1, src_rank=-1):
@@ -30,7 +33,7 @@ def _build_key_size_numel_dictionaries(keys, data, group=None, rank=-1, src_rank
         src_rank = get_tensor_model_parallel_src_rank()
     if rank < 0:
         rank = get_tensor_model_parallel_rank()
-                    
+
     """Build the size on rank 0 and broadcast."""
     max_dim = _MAX_DATA_DIM
     sizes = [0 for _ in range(max_dim) for _ in keys]
@@ -39,7 +42,7 @@ def _build_key_size_numel_dictionaries(keys, data, group=None, rank=-1, src_rank
     if rank == 0:
         offset = 0
         for key in keys:
-            assert data[key].dim() < max_dim, 'you should increase MAX_DATA_DIM'
+            assert data[key].dim() < max_dim, "you should increase MAX_DATA_DIM"
             size = data[key].size()
             for i, s in enumerate(size):
                 sizes[i + offset] = s
@@ -94,7 +97,8 @@ def broadcast_data(keys, data, datatype):
         group = get_tensor_model_parallel_group()
 
     key_size, key_numel, total_numel = _build_key_size_numel_dictionaries(
-        keys, data, group=group, rank=rank, src_rank=src_rank)
+        keys, data, group=group, rank=rank, src_rank=src_rank
+    )
 
     # Pack on rank zero.
     if rank == 0:
@@ -102,11 +106,12 @@ def broadcast_data(keys, data, datatype):
         _check_data_types(keys, data, datatype)
         # Flatten the data associated with the keys
         flatten_data = torch.cat(
-            [data[key].contiguous().view(-1) for key in keys], dim=0).to(get_accelerator().device_name())
+            [data[key].contiguous().view(-1) for key in keys], dim=0
+        ).to(get_accelerator().device_name())
     else:
-        flatten_data = torch.empty(total_numel,
-                                   device=get_accelerator().current_device_name(),
-                                   dtype=datatype)
+        flatten_data = torch.empty(
+            total_numel, device=get_accelerator().current_device_name(), dtype=datatype
+        )
 
     # Broadcast
     torch.distributed.broadcast(flatten_data, src_rank, group=group)
diff --git a/megatron/core/tensor_parallel/layers.py b/megatron/core/tensor_parallel/layers.py
index 020d25915ab..f82fd3cd250 100644
--- a/megatron/core/tensor_parallel/layers.py
+++ b/megatron/core/tensor_parallel/layers.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 # Parts of the code here are adapted from PyTorch
@@ -16,6 +17,8 @@
 
 from torch.cuda.amp import custom_fwd, custom_bwd
 
+from megatron import get_args
+
 from megatron.core.model_parallel_config import ModelParallelConfig
 
 from megatron.core.parallel_state import (
@@ -49,14 +52,17 @@
 except ImportError:
     _grad_accum_fusion_available = False
 
-_MODEL_PARALLEL_ATTRIBUTE_DEFAULTS = {'tensor_model_parallel': False,
-                                      'partition_dim': -1,
-                                      'partition_stride': 1}
+_MODEL_PARALLEL_ATTRIBUTE_DEFAULTS = {
+    "tensor_model_parallel": False,
+    "partition_dim": -1,
+    "partition_stride": 1,
+}
+
 
 def param_is_not_tensor_parallel_duplicate(param):
-    return (hasattr(param, 'tensor_model_parallel') and
-            param.tensor_model_parallel) or (
-                get_tensor_model_parallel_rank() == 0)
+    return (
+        hasattr(param, "tensor_model_parallel") and param.tensor_model_parallel
+    ) or (get_tensor_model_parallel_rank() == 0)
 
 
 def set_tensor_model_parallel_attributes(tensor, is_parallel, dim, stride):
@@ -64,15 +70,16 @@ def set_tensor_model_parallel_attributes(tensor, is_parallel, dim, stride):
     for attribute in _MODEL_PARALLEL_ATTRIBUTE_DEFAULTS:
         assert not hasattr(tensor, attribute)
     # Set the attributes.
-    setattr(tensor, 'tensor_model_parallel', is_parallel)
-    setattr(tensor, 'partition_dim', dim)
-    setattr(tensor, 'partition_stride', stride)
+    setattr(tensor, "tensor_model_parallel", is_parallel)
+    setattr(tensor, "partition_dim", dim)
+    setattr(tensor, "partition_stride", stride)
 
 
 def set_defaults_if_not_set_tensor_model_parallel_attributes(tensor):
     def maybe_set(attribute, value):
         if not hasattr(tensor, attribute):
             setattr(tensor, attribute, value)
+
     for attribute in _MODEL_PARALLEL_ATTRIBUTE_DEFAULTS:
         maybe_set(attribute, _MODEL_PARALLEL_ATTRIBUTE_DEFAULTS[attribute])
 
@@ -80,51 +87,56 @@ def maybe_set(attribute, value):
 def copy_tensor_model_parallel_attributes(destination_tensor, source_tensor):
     def maybe_copy(attribute):
         if hasattr(source_tensor, attribute):
-            setattr(destination_tensor, attribute,
-                    getattr(source_tensor, attribute))
+            setattr(destination_tensor, attribute, getattr(source_tensor, attribute))
+
     for attribute in _MODEL_PARALLEL_ATTRIBUTE_DEFAULTS:
         maybe_copy(attribute)
 
 
-def _initialize_affine_weight_gpu(weight, init_method,
-                                  partition_dim, stride=1):
+def _initialize_affine_weight_gpu(weight, init_method, partition_dim, stride=1):
     """Initialize affine weight for model parallel on GPU."""
 
-    set_tensor_model_parallel_attributes(tensor=weight,
-                                         is_parallel=True,
-                                         dim=partition_dim,
-                                         stride=stride)
+    set_tensor_model_parallel_attributes(
+        tensor=weight, is_parallel=True, dim=partition_dim, stride=stride
+    )
 
     with get_cuda_rng_tracker().fork():
         init_method(weight)
 
 
-def _initialize_affine_weight_cpu(weight, output_size, input_size,
-                                  per_partition_size, partition_dim,
-                                  init_method, stride=1,
-                                  return_master_weight=False,
-                                  *, params_dtype=torch.float32):
+def _initialize_affine_weight_cpu(
+    weight,
+    output_size,
+    input_size,
+    per_partition_size,
+    partition_dim,
+    init_method,
+    stride=1,
+    return_master_weight=False,
+    *,
+    params_dtype=torch.float32,
+):
     """Initialize affine weight for model parallel.
 
     Build the master weight on all processes and scatter
     the relevant chunk."""
 
-    set_tensor_model_parallel_attributes(tensor=weight,
-                                         is_parallel=True,
-                                         dim=partition_dim,
-                                         stride=stride)
+    set_tensor_model_parallel_attributes(
+        tensor=weight, is_parallel=True, dim=partition_dim, stride=stride
+    )
 
     # Initialize master weight
-    master_weight = torch.empty(output_size, input_size,
-                                dtype=torch.float,
-                                requires_grad=False)
+    master_weight = torch.empty(
+        output_size, input_size, dtype=torch.float, requires_grad=False
+    )
     init_method(master_weight)
     master_weight = master_weight.to(dtype=params_dtype)
 
     # Split and copy
     per_partition_per_stride_size = divide(per_partition_size, stride)
-    weight_list = torch.split(master_weight, per_partition_per_stride_size,
-                              dim=partition_dim)
+    weight_list = torch.split(
+        master_weight, per_partition_per_stride_size, dim=partition_dim
+    )
     rank = get_tensor_model_parallel_rank()
     world_size = get_tensor_model_parallel_world_size()
     my_weight_list = weight_list[rank::world_size]
@@ -149,9 +161,14 @@ class VocabParallelEmbedding(torch.nn.Module):
         config: A megatron.core.ModelParallelConfig object
     """
 
-    def __init__(self, num_embeddings: int, embedding_dim: int, *,
-                 init_method: Callable,
-                 config: ModelParallelConfig):
+    def __init__(
+        self,
+        num_embeddings: int,
+        embedding_dim: int,
+        *,
+        init_method: Callable,
+        config: ModelParallelConfig,
+    ):
         super(VocabParallelEmbedding, self).__init__()
         # Keep the input dimensions.
         self.num_embeddings = num_embeddings
@@ -159,52 +176,77 @@ def __init__(self, num_embeddings: int, embedding_dim: int, *,
         # Set the detauls for compatibility.
         self.padding_idx = None
         self.max_norm = None
-        self.norm_type = 2.
+        self.norm_type = 2.0
         self.scale_grad_by_freq = False
         self.sparse = False
         self._weight = None
         self.tensor_model_parallel_size = get_tensor_model_parallel_world_size()
         # Divide the weight matrix along the vocaburaly dimension.
-        self.vocab_start_index, self.vocab_end_index = \
+        self.vocab_start_index, self.vocab_end_index = (
             VocabUtility.vocab_range_from_global_vocab_size(
-                self.num_embeddings, get_tensor_model_parallel_rank(),
-                self.tensor_model_parallel_size)
-        self.num_embeddings_per_partition = self.vocab_end_index - \
-            self.vocab_start_index
+                self.num_embeddings,
+                get_tensor_model_parallel_rank(),
+                self.tensor_model_parallel_size,
+            )
+        )
+        self.num_embeddings_per_partition = (
+            self.vocab_end_index - self.vocab_start_index
+        )
 
         # Allocate weights and initialize.
         if config.use_cpu_initialization:
-            self.weight = Parameter(torch.empty(
-                self.num_embeddings_per_partition, self.embedding_dim,
-                dtype=config.params_dtype))
+            self.weight = Parameter(
+                torch.empty(
+                    self.num_embeddings_per_partition,
+                    self.embedding_dim,
+                    dtype=config.params_dtype,
+                )
+            )
             if config.perform_initialization:
                 _initialize_affine_weight_cpu(
-                    self.weight, self.num_embeddings, self.embedding_dim,
-                    self.num_embeddings_per_partition, 0, init_method,
-                    params_dtype=config.params_dtype)
+                    self.weight,
+                    self.num_embeddings,
+                    self.embedding_dim,
+                    self.num_embeddings_per_partition,
+                    0,
+                    init_method,
+                    params_dtype=config.params_dtype,
+                )
         else:
-            self.weight = Parameter(torch.empty(
-                self.num_embeddings_per_partition, self.embedding_dim,
-                device=get_accelerator().current_device_name(), dtype=config.params_dtype))
+            self.weight = Parameter(
+                torch.empty(
+                    self.num_embeddings_per_partition,
+                    self.embedding_dim,
+                    device=get_accelerator().current_device_name(),
+                    dtype=config.params_dtype,
+                )
+            )
             if config.perform_initialization:
-                _initialize_affine_weight_gpu(self.weight, init_method,
-                                              partition_dim=0, stride=1)
+                _initialize_affine_weight_gpu(
+                    self.weight, init_method, partition_dim=0, stride=1
+                )
 
     def forward(self, input_):
         if self.tensor_model_parallel_size > 1:
             # Build the mask.
-            input_mask = (input_ < self.vocab_start_index) | \
-                         (input_ >= self.vocab_end_index)
+            input_mask = (input_ < self.vocab_start_index) | (
+                input_ >= self.vocab_end_index
+            )
             # Mask the input.
             masked_input = input_.clone() - self.vocab_start_index
             masked_input[input_mask] = 0
         else:
             masked_input = input_
             # Get the embeddings.
-        output_parallel = F.embedding(masked_input, self.weight,
-                                      self.padding_idx, self.max_norm,
-                                      self.norm_type, self.scale_grad_by_freq,
-                                      self.sparse)
+        output_parallel = F.embedding(
+            masked_input,
+            self.weight,
+            self.padding_idx,
+            self.max_norm,
+            self.norm_type,
+            self.scale_grad_by_freq,
+            self.sparse,
+        )
         # Mask the output embedding.
         if self.tensor_model_parallel_size > 1:
             output_parallel[input_mask, :] = 0.0
@@ -227,20 +269,33 @@ def __init__(self, sequence_length, embedding_dim):
         assert sequence_length % sequence_parallel_size == 0
         local_sequence_length = sequence_length // sequence_parallel_size
         self.offset = local_sequence_length * get_tensor_model_parallel_rank()
-        self.local_embeddings = torch.nn.Embedding(
-            local_sequence_length, embedding_dim)
+        self.local_embeddings = torch.nn.Embedding(local_sequence_length, embedding_dim)
 
     def forward(self, position_ids):
         return self.local_embeddings(position_ids - self.offset)
 
 
+def gradientUpdateFunction(total_input, grad_output, weight):
+    if weight.grad == None:
+        weight.grad = grad_output.t().matmul(total_input)
+    else:
+        weight.grad += grad_output.t().matmul(total_input)
+
+
 class LinearWithGradAccumulationAndAsyncCommunication(torch.autograd.Function):
     """See linear_with_grad_accumulation_and_async_allreduce"""
 
     @staticmethod
     @custom_fwd
-    def forward(ctx, input, weight, bias, gradient_accumulation_fusion,
-                async_grad_allreduce, sequence_parallel):
+    def forward(
+        ctx,
+        input,
+        weight,
+        bias,
+        gradient_accumulation_fusion,
+        async_grad_allreduce,
+        sequence_parallel,
+    ):
         ctx.save_for_backward(input, weight)
         ctx.use_bias = bias is not None
         ctx.gradient_accumulation_fusion = gradient_accumulation_fusion
@@ -252,19 +307,18 @@ def forward(ctx, input, weight, bias, gradient_accumulation_fusion,
             dim_size = list(input.size())
             dim_size[0] = dim_size[0] * world_size
 
-            all_gather_buffer = \
-                get_global_memory_buffer().get_tensor(dim_size, input.dtype, "mpu")
+            all_gather_buffer = get_global_memory_buffer().get_tensor(
+                dim_size, input.dtype, "mpu"
+            )
 
-            if version.parse(torch.__version__) >= version.parse('1.13'):
+            if version.parse(torch.__version__) >= version.parse("1.13"):
                 torch.distributed.all_gather_into_tensor(
-                    all_gather_buffer,
-                    input,
-                    group=get_tensor_model_parallel_group())
+                    all_gather_buffer, input, group=get_tensor_model_parallel_group()
+                )
             else:
                 torch.distributed._all_gather_base(
-                    all_gather_buffer,
-                    input,
-                    group=get_tensor_model_parallel_group())
+                    all_gather_buffer, input, group=get_tensor_model_parallel_group()
+                )
 
             total_input = all_gather_buffer
         else:
@@ -278,6 +332,7 @@ def forward(ctx, input, weight, bias, gradient_accumulation_fusion,
     @staticmethod
     @custom_bwd
     def backward(ctx, grad_output):
+        args = get_args()
         input, weight = ctx.saved_tensors
         use_bias = ctx.use_bias
 
@@ -286,19 +341,24 @@ def backward(ctx, grad_output):
             dim_size = list(input.size())
             dim_size[0] = dim_size[0] * world_size
 
-            all_gather_buffer = \
-                get_global_memory_buffer().get_tensor(dim_size, input.dtype, "mpu")
+            all_gather_buffer = get_global_memory_buffer().get_tensor(
+                dim_size, input.dtype, "mpu"
+            )
 
-            if version.parse(torch.__version__) >= version.parse('1.13'):
+            if version.parse(torch.__version__) >= version.parse("1.13"):
                 handle = torch.distributed.all_gather_into_tensor(
                     all_gather_buffer,
                     input,
-                    group=get_tensor_model_parallel_group(), async_op=True)
+                    group=get_tensor_model_parallel_group(),
+                    async_op=True,
+                )
             else:
                 handle = torch.distributed._all_gather_base(
                     all_gather_buffer,
                     input,
-                    group=get_tensor_model_parallel_group(), async_op=True)
+                    group=get_tensor_model_parallel_group(),
+                    async_op=True,
+                )
 
             # Here we rely on CUDA_DEVICE_MAX_CONNECTIONS=1 to ensure that the
             # gather is scheduled before the input gradient computation
@@ -317,10 +377,12 @@ def backward(ctx, grad_output):
         grad_output = grad_output.contiguous()
         # Convert the tensor shapes to 2D for execution compatibility
         if len(grad_output.shape) == 3:
-            grad_output = grad_output.view(grad_output.shape[0] * grad_output.shape[1],
-                                        grad_output.shape[2])
-            total_input = total_input.view(total_input.shape[0] * total_input.shape[1],
-                        total_input.shape[2])
+            grad_output = grad_output.view(
+                grad_output.shape[0] * grad_output.shape[1], grad_output.shape[2]
+            )
+            total_input = total_input.view(
+                total_input.shape[0] * total_input.shape[1], total_input.shape[2]
+            )
         else:
             # Somehow when DeepSpeed MoE is used, grad_output could have 4 dimensions.
             # TODO: May need further investigation
@@ -331,20 +393,27 @@ def backward(ctx, grad_output):
         if ctx.async_grad_allreduce:
             # Asynchronous all-reduce
             handle = torch.distributed.all_reduce(
-                    grad_input, group=get_tensor_model_parallel_group(), async_op=True)
+                grad_input, group=get_tensor_model_parallel_group(), async_op=True
+            )
             # Here we rely on CUDA_DEVICE_MAX_CONNECTIONS=1 to ensure that the
             # all-reduce is scheduled before the weight gradient computation
 
         if ctx.sequence_parallel:
             assert not ctx.async_grad_allreduce
             dim_size = list(input.size())
-            sub_grad_input = torch.empty(dim_size, dtype=input.dtype,
-                                         device=get_accelerator().current_device_name(),
-                                         requires_grad=False)
+            sub_grad_input = torch.empty(
+                dim_size,
+                dtype=input.dtype,
+                device=get_accelerator().current_device_name(),
+                requires_grad=False,
+            )
             # reduce_scatter
-            handle = torch.distributed._reduce_scatter_base(sub_grad_input, grad_input,
-                                                            group=get_tensor_model_parallel_group(),
-                                                            async_op=True)
+            handle = torch.distributed._reduce_scatter_base(
+                sub_grad_input,
+                grad_input,
+                group=get_tensor_model_parallel_group(),
+                async_op=True,
+            )
             # Here we rely on CUDA_DEVICE_MAX_CONNECTIONS=1 to ensure that the
             # reduce scatter is scheduled before the weight gradient computation
 
@@ -359,7 +428,16 @@ def backward(ctx, grad_output):
         #     grad_weight = None
         # else:
         #     grad_weight = grad_output.t().matmul(total_input)
-        grad_weight = grad_output.t().matmul(total_input)
+        if args.enable_zbh1_pipeline:
+            from megatron.core.tensor_parallel.weight_grad_store import WeightGradStore
+
+            WeightGradStore.put(
+                total_input, grad_output, weight, gradientUpdateFunction
+            )
+            grad_weight = None
+        else:
+            grad_weight = grad_output.t().matmul(total_input)
+
         grad_bias = grad_output.sum(dim=0) if use_bias else None
 
         if ctx.sequence_parallel:
@@ -371,6 +449,7 @@ def backward(ctx, grad_output):
 
         return grad_input, grad_weight, grad_bias, None, None, None
 
+
 def linear_with_grad_accumulation_and_async_allreduce(
     input: torch.Tensor,
     weight: torch.Tensor,
@@ -441,25 +520,32 @@ def linear_with_grad_accumulation_and_async_allreduce(
     ]
 
     if not linear_with_grad_accumulation_and_async_allreduce.warned:
-        if os.environ.get('CUDA_DEVICE_MAX_CONNECTIONS') != "1":
+        if (
+            get_accelerator().device_name() == "cuda"
+            and os.environ.get("CUDA_DEVICE_MAX_CONNECTIONS") != "1"
+        ):
             if sequence_parallel:
                 warnings.warn(
                     "When using sequence parallelism it is recommended to set the "
                     "environment variable CUDA_DEVICE_MAX_CONNECTIONS to 1 for "
-                    "maximum speedup")
+                    "maximum speedup"
+                )
                 linear_with_grad_accumulation_and_async_allreduce.warned = True
 
             if async_grad_allreduce:
                 warnings.warn(
                     "When using async grad allreduce it is recommended to set the "
                     "environment variable CUDA_DEVICE_MAX_CONNECTIONS to 1 for "
-                    "maximum speedup")
+                    "maximum speedup"
+                )
                 linear_with_grad_accumulation_and_async_allreduce.warned = True
 
     return LinearWithGradAccumulationAndAsyncCommunication.apply(*args)
 
+
 linear_with_grad_accumulation_and_async_allreduce.warned = False
 
+
 class ColumnParallelLinear(torch.nn.Module):
     """Linear layer with column parallelism.
 
@@ -495,14 +581,22 @@ class ColumnParallelLinear(torch.nn.Module):
 
     """
 
-    def __init__(self, input_size, output_size, *,
-                 config: ModelParallelConfig,
-                 init_method: Callable,
-                 bias=True, gather_output=False, stride=1,
-                 keep_master_weight_for_test=False,
-                 skip_bias_add=False,
-                 skip_weight_param_allocation: bool=False,
-                 moe=False, enable_expert_tensor_parallelism=False):
+    def __init__(
+        self,
+        input_size,
+        output_size,
+        *,
+        config: ModelParallelConfig,
+        init_method: Callable,
+        bias=True,
+        gather_output=False,
+        stride=1,
+        keep_master_weight_for_test=False,
+        skip_bias_add=False,
+        skip_weight_param_allocation: bool = False,
+        moe=False,
+        enable_expert_tensor_parallelism=False,
+    ):
         torch.nn.Module.__init__(self)
 
         # Keep input parameters
@@ -526,44 +620,66 @@ def __init__(self, input_size, output_size, *,
         # Initialize weight.
         if not skip_weight_param_allocation:
             if config.use_cpu_initialization:
-                self.weight = Parameter(torch.empty(self.output_size_per_partition,
-                                                    self.input_size,
-                                                    dtype=config.params_dtype))
+                self.weight = Parameter(
+                    torch.empty(
+                        self.output_size_per_partition,
+                        self.input_size,
+                        dtype=config.params_dtype,
+                    )
+                )
                 if config.perform_initialization:
                     self.master_weight = _initialize_affine_weight_cpu(
-                        self.weight, self.output_size, self.input_size,
-                        self.output_size_per_partition, 0, init_method,
-                        stride=stride, return_master_weight=keep_master_weight_for_test)
+                        self.weight,
+                        self.output_size,
+                        self.input_size,
+                        self.output_size_per_partition,
+                        0,
+                        init_method,
+                        stride=stride,
+                        return_master_weight=keep_master_weight_for_test,
+                    )
             else:
-                self.weight = Parameter(torch.empty(
-                    self.output_size_per_partition, self.input_size,
-                    device=get_accelerator().current_device_name(), dtype=config.params_dtype))
+                self.weight = Parameter(
+                    torch.empty(
+                        self.output_size_per_partition,
+                        self.input_size,
+                        device=get_accelerator().current_device_name(),
+                        dtype=config.params_dtype,
+                    )
+                )
                 if config.perform_initialization:
-                    _initialize_affine_weight_gpu(self.weight, init_method,
-                                                  partition_dim=0, stride=stride)
+                    _initialize_affine_weight_gpu(
+                        self.weight, init_method, partition_dim=0, stride=stride
+                    )
         else:
             self.weight = None
 
         if bias:
             if config.use_cpu_initialization:
-                self.bias = Parameter(torch.empty(
-                    self.output_size_per_partition, dtype=config.params_dtype))
+                self.bias = Parameter(
+                    torch.empty(
+                        self.output_size_per_partition, dtype=config.params_dtype
+                    )
+                )
             else:
-                self.bias = Parameter(torch.empty(
-                    self.output_size_per_partition,
-                    device=get_accelerator().current_device_name(),
-                    dtype=config.params_dtype))
+                self.bias = Parameter(
+                    torch.empty(
+                        self.output_size_per_partition,
+                        device=get_accelerator().current_device_name(),
+                        dtype=config.params_dtype,
+                    )
+                )
             set_tensor_model_parallel_attributes(self.bias, True, 0, stride)
             if config.perform_initialization:
                 # Always initialize bias to zero.
                 with torch.no_grad():
                     self.bias.zero_()
         else:
-            self.register_parameter('bias', None)
+            self.register_parameter("bias", None)
 
         self.async_tensor_model_parallel_allreduce = (
-                config.async_tensor_model_parallel_allreduce and
-                world_size > 1)
+            config.async_tensor_model_parallel_allreduce and world_size > 1
+        )
 
         self.sequence_parallel = config.sequence_parallel
         if self.sequence_parallel and world_size <= 1:
@@ -579,7 +695,7 @@ def __init__(self, input_size, output_size, *,
                 "to True but the custom CUDA extension fused_weight_gradient_mlp_cuda "
                 "module is not found. To use gradient_accumulation_fusion you must "
                 "install APEX with --cpp_ext and --cuda_ext. For example: "
-                "pip install --global-option=\"--cpp_ext\" --global-option=\"--cuda_ext .\" "
+                'pip install --global-option="--cpp_ext" --global-option="--cuda_ext ." '
                 "Note that the extension requires CUDA>=11. Otherwise, you must turn off "
                 "gradient accumulation fusion."
             )
@@ -591,10 +707,7 @@ def __init__(self, input_size, output_size, *,
                 "cannot be enabled at the same time."
             )
 
-
-    def forward(self,
-                input_: torch.Tensor,
-                weight: Optional[torch.Tensor] = None):
+    def forward(self, input_: torch.Tensor, weight: Optional[torch.Tensor] = None):
         """Forward of ColumnParallelLinear
 
         Args:
@@ -610,21 +723,27 @@ def forward(self,
         """
         if weight is None:
             if self.weight is None:
-                raise RuntimeError("weight was not supplied to ColumnParallelLinear forward pass "
-                                   "and skip_weight_param_allocation is True.")
+                raise RuntimeError(
+                    "weight was not supplied to ColumnParallelLinear forward pass "
+                    "and skip_weight_param_allocation is True."
+                )
             weight = self.weight
         else:
             # Check the weight passed in is the correct shape
             expected_shape = (self.output_size_per_partition, self.input_size)
             if weight.shape != expected_shape:
-                raise RuntimeError(f"supplied weight's shape is {tuple(weight.shape)}, "
-                                   f"not {expected_shape} as expected")
+                raise RuntimeError(
+                    f"supplied weight's shape is {tuple(weight.shape)}, "
+                    f"not {expected_shape} as expected"
+                )
 
         bias = self.bias if not self.skip_bias_add else None
 
-        if self.async_tensor_model_parallel_allreduce or \
-                self.sequence_parallel or \
-                self.is_expert_without_slicing: # non-expert only tensor parallelism
+        if (
+            self.async_tensor_model_parallel_allreduce
+            or self.sequence_parallel
+            or self.is_expert_without_slicing
+        ):  # non-expert only tensor parallelism
             input_parallel = input_
         else:
             input_parallel = copy_to_tensor_model_parallel_region(input_)
@@ -635,7 +754,7 @@ def forward(self,
             bias=bias,
             gradient_accumulation_fusion=self.gradient_accumulation_fusion,
             async_grad_allreduce=self.async_tensor_model_parallel_allreduce,
-            sequence_parallel=self.sequence_parallel
+            sequence_parallel=self.sequence_parallel,
         )
         if self.gather_output and not self.is_expert_without_slicing:
             # All-gather across the partitions.
@@ -682,15 +801,21 @@ class RowParallelLinear(torch.nn.Module):
 
     """
 
-    def __init__(self, input_size: int, output_size: int, *,
-                 config: ModelParallelConfig,
-                 init_method: Callable,
-                 bias: bool = True,
-                 input_is_parallel: bool = False,
-                 stride: int = 1,
-                 keep_master_weight_for_test: bool = False,
-                 skip_bias_add: bool = False,
-                 moe=False, enable_expert_tensor_parallelism=False):
+    def __init__(
+        self,
+        input_size: int,
+        output_size: int,
+        *,
+        config: ModelParallelConfig,
+        init_method: Callable,
+        bias: bool = True,
+        input_is_parallel: bool = False,
+        stride: int = 1,
+        keep_master_weight_for_test: bool = False,
+        skip_bias_add: bool = False,
+        moe=False,
+        enable_expert_tensor_parallelism=False,
+    ):
         torch.nn.Module.__init__(self)
 
         # Keep input parameters
@@ -702,54 +827,75 @@ def __init__(self, input_size: int, output_size: int, *,
             world_size = 1
         else:
             world_size = get_tensor_model_parallel_world_size()
-        self.is_expert_without_slicing = moe and world_size==1
+        self.is_expert_without_slicing = moe and world_size == 1
         self.input_size_per_partition = divide(input_size, world_size)
         self.skip_bias_add = skip_bias_add
         self.config = config
         self.gradient_accumulation_fusion = config.gradient_accumulation_fusion
         self.sequence_parallel = config.sequence_parallel
         if self.sequence_parallel and not self.input_is_parallel:
-            raise RuntimeError("To enable `sequence_parallel`, `input_is_parallel` must be `True`")
+            raise RuntimeError(
+                "To enable `sequence_parallel`, `input_is_parallel` must be `True`"
+            )
 
         # Parameters.
         # Note: torch.nn.functional.linear performs XA^T + b and as a result
         # we allocate the transpose.
         # Initialize weight.
         if config.use_cpu_initialization:
-            self.weight = Parameter(torch.empty(self.output_size,
-                                                self.input_size_per_partition,
-                                                dtype=config.params_dtype))
+            self.weight = Parameter(
+                torch.empty(
+                    self.output_size,
+                    self.input_size_per_partition,
+                    dtype=config.params_dtype,
+                )
+            )
             if config.perform_initialization:
                 self.master_weight = _initialize_affine_weight_cpu(
-                    self.weight, self.output_size, self.input_size,
-                    self.input_size_per_partition, 1, init_method,
-                    stride=stride, return_master_weight=keep_master_weight_for_test,
-                    params_dtype=config.params_dtype)
+                    self.weight,
+                    self.output_size,
+                    self.input_size,
+                    self.input_size_per_partition,
+                    1,
+                    init_method,
+                    stride=stride,
+                    return_master_weight=keep_master_weight_for_test,
+                    params_dtype=config.params_dtype,
+                )
         else:
-            self.weight = Parameter(torch.empty(
-                self.output_size, self.input_size_per_partition,
-                device=get_accelerator().current_device_name(), dtype=config.params_dtype))
+            self.weight = Parameter(
+                torch.empty(
+                    self.output_size,
+                    self.input_size_per_partition,
+                    device=get_accelerator().current_device_name(),
+                    dtype=config.params_dtype,
+                )
+            )
             if config.perform_initialization:
-                _initialize_affine_weight_gpu(self.weight, init_method,
-                                              partition_dim=1, stride=stride)
+                _initialize_affine_weight_gpu(
+                    self.weight, init_method, partition_dim=1, stride=stride
+                )
         if bias:
             if config.use_cpu_initialization:
-                self.bias = Parameter(torch.empty(self.output_size,
-                                                  dtype=config.params_dtype))
+                self.bias = Parameter(
+                    torch.empty(self.output_size, dtype=config.params_dtype)
+                )
             else:
-                self.bias = Parameter(torch.empty(
-                    self.output_size, device=get_accelerator().current_device_name(),
-                    dtype=config.params_dtype))
-            setattr(self.bias, 'sequence_parallel', self.sequence_parallel)
+                self.bias = Parameter(
+                    torch.empty(
+                        self.output_size,
+                        device=get_accelerator().current_device_name(),
+                        dtype=config.params_dtype,
+                    )
+                )
+            setattr(self.bias, "sequence_parallel", self.sequence_parallel)
 
             if config.perform_initialization:
                 # Always initialize bias to zero.
                 with torch.no_grad():
                     self.bias.zero_()
         else:
-            self.register_parameter('bias', None)
-
-
+            self.register_parameter("bias", None)
 
     def forward(self, input_):
         """Forward of RowParallelLinear
@@ -780,7 +926,7 @@ def forward(self, input_):
         # All-reduce across all the partitions.
         if self.sequence_parallel:
             output_ = reduce_scatter_to_sequence_parallel_region(output_parallel)
-        elif self.is_expert_without_slicing: # non-expert only tensor-parallelism
+        elif self.is_expert_without_slicing:  # non-expert only tensor-parallelism
             output_ = output_parallel
         else:
             output_ = reduce_from_tensor_model_parallel_region(output_parallel)
diff --git a/megatron/core/tensor_parallel/mappings.py b/megatron/core/tensor_parallel/mappings.py
index ae8d63ab2c2..1027f51330e 100644
--- a/megatron/core/tensor_parallel/mappings.py
+++ b/megatron/core/tensor_parallel/mappings.py
@@ -15,7 +15,7 @@ def _reduce(input_):
     """All-reduce the input tensor across model parallel group."""
 
     # Bypass the function if we are using only 1 GPU.
-    if get_tensor_model_parallel_world_size()==1:
+    if get_tensor_model_parallel_world_size() == 1:
         return input_
 
     # All-reduce.
@@ -54,13 +54,14 @@ def _split_along_first_dim(input_):
 
     # Split along first dimension.
     dim_size = input_.size()[0]
-    assert dim_size % world_size == 0, \
-        "First dimension of the tensor should be divisible by tensor parallel size"
+    assert (
+        dim_size % world_size == 0
+    ), "First dimension of the tensor should be divisible by tensor parallel size"
     local_dim_size = dim_size // world_size
     rank = get_tensor_model_parallel_rank()
     dim_offset = rank * local_dim_size
 
-    output = input_[dim_offset:dim_offset+local_dim_size].contiguous()
+    output = input_[dim_offset : dim_offset + local_dim_size].contiguous()
 
     return output
 
@@ -79,7 +80,9 @@ def _gather_along_last_dim(input_):
 
     tensor_list = [torch.empty_like(input_) for _ in range(world_size)]
     tensor_list[rank] = input_
-    torch.distributed.all_gather(tensor_list, input_, group=get_tensor_model_parallel_group())
+    torch.distributed.all_gather(
+        tensor_list, input_, group=get_tensor_model_parallel_group()
+    )
 
     # Note: torch.cat already creates a contiguous tensor.
     output = torch.cat(tensor_list, dim=last_dim).contiguous()
@@ -98,13 +101,16 @@ def _gather_along_first_dim(input_):
     dim_size = list(input_.size())
     dim_size[0] = dim_size[0] * world_size
 
-    output = torch.empty(dim_size, dtype=input_.dtype,
-                         device=get_accelerator().current_device_name())
-    torch.distributed._all_gather_base(output, input_.contiguous(),
-                                       group=get_tensor_model_parallel_group())
+    output = torch.empty(
+        dim_size, dtype=input_.dtype, device=get_accelerator().current_device_name()
+    )
+    torch.distributed._all_gather_base(
+        output, input_.contiguous(), group=get_tensor_model_parallel_group()
+    )
 
     return output
 
+
 def _reduce_scatter_along_first_dim(input_):
     """Reduce-scatter the input tensor across model parallel group."""
     world_size = get_tensor_model_parallel_world_size()
@@ -113,15 +119,18 @@ def _reduce_scatter_along_first_dim(input_):
         return input_
 
     dim_size = list(input_.size())
-    assert dim_size[0] % world_size == 0, \
-        "First dimension of the tensor should be divisible by tensor parallel size"
-    
+    assert (
+        dim_size[0] % world_size == 0
+    ), "First dimension of the tensor should be divisible by tensor parallel size"
+
     dim_size[0] = dim_size[0] // world_size
-   
-    output = torch.empty(dim_size, dtype=input_.dtype,
-                         device=get_accelerator().current_device_name())
-    torch.distributed._reduce_scatter_base(output, input_.contiguous(), 
-                                           group=get_tensor_model_parallel_group())
+
+    output = torch.empty(
+        dim_size, dtype=input_.dtype, device=get_accelerator().current_device_name()
+    )
+    torch.distributed._reduce_scatter_base(
+        output, input_.contiguous(), group=get_tensor_model_parallel_group()
+    )
     return output
 
 
@@ -131,7 +140,7 @@ class _CopyToModelParallelRegion(torch.autograd.Function):
     @staticmethod
     def symbolic(graph, input_):
         return input_
-    
+
     @staticmethod
     def forward(ctx, input_):
         return input_
@@ -147,7 +156,7 @@ class _ReduceFromModelParallelRegion(torch.autograd.Function):
     @staticmethod
     def symbolic(graph, input_):
         return _reduce(input_)
-    
+
     @staticmethod
     def forward(ctx, input_):
         return _reduce(input_)
@@ -179,7 +188,7 @@ class _GatherFromModelParallelRegion(torch.autograd.Function):
     @staticmethod
     def symbolic(graph, input_):
         return _gather_along_last_dim(input_)
-    
+
     @staticmethod
     def forward(ctx, input_):
         return _gather_along_last_dim(input_)
@@ -206,12 +215,12 @@ def backward(ctx, grad_output):
 
 
 class _GatherFromSequenceParallelRegion(torch.autograd.Function):
-    """Gather the input from sequence parallel region and concatinate.""" 
+    """Gather the input from sequence parallel region and concatinate."""
 
     @staticmethod
     def symbolic(graph, input_, tensor_parallel_output_grad=True):
         return _gather_along_first_dim(input_)
-    
+
     @staticmethod
     def forward(ctx, input_, tensor_parallel_output_grad=True):
         ctx.tensor_parallel_output_grad = tensor_parallel_output_grad
@@ -222,8 +231,8 @@ def backward(ctx, grad_output):
         tensor_parallel_output_grad = ctx.tensor_parallel_output_grad
 
         # If the computation graph after the gather operation is
-        # in the tensor parallel mode, output gradients need to reduce 
-        # scattered and whereas if the computation is duplicated, 
+        # in the tensor parallel mode, output gradients need to reduce
+        # scattered and whereas if the computation is duplicated,
         # output gradients need to be scattered.
         if tensor_parallel_output_grad:
             return _reduce_scatter_along_first_dim(grad_output), None
@@ -237,7 +246,7 @@ class _ReduceScatterToSequenceParallelRegion(torch.autograd.Function):
     @staticmethod
     def symbolic(graph, input_):
         return _reduce_scatter_along_first_dim(input_)
-    
+
     @staticmethod
     def forward(ctx, input_):
         return _reduce_scatter_along_first_dim(input_)
@@ -251,6 +260,7 @@ def backward(ctx, grad_output):
 # Helper functions.
 # -----------------
 
+
 def copy_to_tensor_model_parallel_region(input_):
     return _CopyToModelParallelRegion.apply(input_)
 
@@ -277,4 +287,3 @@ def gather_from_sequence_parallel_region(input_, tensor_parallel_output_grad=Tru
 
 def reduce_scatter_to_sequence_parallel_region(input_):
     return _ReduceScatterToSequenceParallelRegion.apply(input_)
-
diff --git a/megatron/core/tensor_parallel/random.py b/megatron/core/tensor_parallel/random.py
index dd287115a59..ea8693b79f0 100644
--- a/megatron/core/tensor_parallel/random.py
+++ b/megatron/core/tensor_parallel/random.py
@@ -29,7 +29,7 @@
 import deepspeed
 
 # Default name for the model parallel rng tracker.
-_MODEL_PARALLEL_RNG_TRACKER_NAME = 'model-parallel-rng'
+_MODEL_PARALLEL_RNG_TRACKER_NAME = "model-parallel-rng"
 
 # Whether apply model parallelsim to checkpointed hidden states.
 _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER = None
@@ -39,10 +39,15 @@ def init_checkpointed_activations_memory_buffer():
     """Initializ the memory buffer for the checkpointed activations."""
     args = get_args()
 
-    per_layer = args.micro_batch_size * args.max_position_embeddings * \
-                args.hidden_size // args.tensor_model_parallel_size
-    assert args.num_layers % args.checkpoint_num_layers == 0, \
-        'number of layers is not divisible by checkpoint-num-layers'
+    per_layer = (
+        args.micro_batch_size
+        * args.max_position_embeddings
+        * args.hidden_size
+        // args.tensor_model_parallel_size
+    )
+    assert (
+        args.num_layers % args.checkpoint_num_layers == 0
+    ), "number of layers is not divisible by checkpoint-num-layers"
     num_checkpointer_layers = args.num_layers // args.checkpoint_num_layers
     numel = per_layer * num_checkpointer_layers
     dtype = torch.half
@@ -50,10 +55,12 @@ def init_checkpointed_activations_memory_buffer():
         dtype = torch.float
 
     global _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER
-    assert _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER is None, \
-        'checkpointed activations memory buffer is already allocated.'
+    assert (
+        _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER is None
+    ), "checkpointed activations memory buffer is already allocated."
     _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER = allocate_mem_buff(
-        'checkpointed activations', numel, dtype, track_usage=False)
+        "checkpointed activations", numel, dtype, track_usage=False
+    )
 
 
 def reset_checkpointed_activations_memory_buffer():
@@ -61,6 +68,7 @@ def reset_checkpointed_activations_memory_buffer():
     if _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER is not None:
         _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER.reset()
 
+
 def _set_cuda_rng_state(new_state, device=-1):
     """Sets the random number generator state of the current GPU.
 
@@ -70,11 +78,12 @@ def _set_cuda_rng_state(new_state, device=-1):
     with a single change: the input state is not cloned. Cloning caused
     major performance issues for +4 GPU cases.
     """
-    if hasattr(_C, '_cuda_setRNGState') and callable(_C._cuda_setRNGState):
+    if hasattr(_C, "_cuda_setRNGState") and callable(_C._cuda_setRNGState):
         # older PyTorch
         def cb():
             with get_accelerator().device(device):
                 _C._cuda_setRNGState(new_state)
+
     else:
         # newer PyTorch
         if device == -1:
@@ -94,7 +103,6 @@ def cb():
     get_accelerator().lazy_call(cb)
 
 
-
 class CudaRNGStatesTracker:
     """Tracker for the cuda RNG states.
 
@@ -132,11 +140,11 @@ def add(self, name, seed):
         """Track the rng state."""
         # Check seed is not already used.
         if seed in self.seeds_:
-            raise Exception('seed {} already exists'.format(seed))
+            raise Exception("seed {} already exists".format(seed))
         self.seeds_.add(seed)
         # Check that state is not already defined.
         if name in self.states_:
-            raise Exception('cuda rng state {} already exists'.format(name))
+            raise Exception("cuda rng state {} already exists".format(name))
         # Get the current rng state.
         orig_rng_state = get_accelerator().get_rng_state()
         # Set the new state and store it.
@@ -152,7 +160,7 @@ def fork(self, name=_MODEL_PARALLEL_RNG_TRACKER_NAME):
         # Check if we have added the state
         if name not in self.states_:
             print(name, self.states_)
-            raise Exception('cuda rng state {} is not added'.format(name))
+            raise Exception("cuda rng state {} is not added".format(name))
         # Store current rng state.
         orig_cuda_rng_state = get_accelerator().get_rng_state()
         # Set rng state to the desired one
@@ -170,11 +178,12 @@ def fork(self, name=_MODEL_PARALLEL_RNG_TRACKER_NAME):
 # RNG tracker object.
 _CUDA_RNG_STATE_TRACKER = CudaRNGStatesTracker()
 
+
 def get_cuda_rng_tracker():
     """Get cuda rng tracker."""
     if deepspeed.checkpointing.is_configured():
         return deepspeed.checkpointing.get_cuda_rng_tracker()
-    
+
     return _CUDA_RNG_STATE_TRACKER
 
 
@@ -197,7 +206,7 @@ def model_parallel_cuda_manual_seed(seed):
     """
     if deepspeed.checkpointing.is_configured():
         return deepspeed.checkpointing.model_parallel_cuda_manual_seed(seed)
-    
+
     # 2718 is just for fun and any POSITIVE value will work.
     offset = seed + 2718
     tensor_model_parallel_seed = offset + get_tensor_model_parallel_rank()
@@ -205,18 +214,25 @@ def model_parallel_cuda_manual_seed(seed):
     data_parallel_seed = seed
 
     if torch.distributed.get_rank() == 0:
-        print('> initializing model parallel cuda seeds on global rank {}, '
-              'model parallel rank {}, and data parallel rank {} with '
-              'model parallel seed: {} and data parallel seed: {}'.format(
-                  torch.distributed.get_rank(), get_tensor_model_parallel_rank(),
-                  get_data_parallel_rank(), tensor_model_parallel_seed,
-                  data_parallel_seed), flush=True)
+        print(
+            "> initializing model parallel cuda seeds on global rank {}, "
+            "model parallel rank {}, and data parallel rank {} with "
+            "model parallel seed: {} and data parallel seed: {}".format(
+                torch.distributed.get_rank(),
+                get_tensor_model_parallel_rank(),
+                get_data_parallel_rank(),
+                tensor_model_parallel_seed,
+                data_parallel_seed,
+            ),
+            flush=True,
+        )
     _CUDA_RNG_STATE_TRACKER.reset()
     # Set the default state.
     get_accelerator().manual_seed(data_parallel_seed)
     # and model parallel state.
-    _CUDA_RNG_STATE_TRACKER.add(_MODEL_PARALLEL_RNG_TRACKER_NAME,
-                                tensor_model_parallel_seed)
+    _CUDA_RNG_STATE_TRACKER.add(
+        _MODEL_PARALLEL_RNG_TRACKER_NAME, tensor_model_parallel_seed
+    )
 
 
 def model_parallel_reconfigure_tp_seed(seed):
@@ -230,16 +246,16 @@ def model_parallel_reconfigure_tp_seed(seed):
 
 class CheckpointFunction(torch.autograd.Function):
     """This function is adapted from torch.utils.checkpoint with
-       two main changes:
-           1) torch.cuda.set_rng_state is replaced with `_set_cuda_rng_state`
-           2) the states in the model parallel tracker are also properly
-              tracked/set/reset.
+    two main changes:
+        1) torch.cuda.set_rng_state is replaced with `_set_cuda_rng_state`
+        2) the states in the model parallel tracker are also properly
+           tracked/set/reset.
     """
+
     @staticmethod
     def forward(ctx, run_function, distribute_saved_activations, *args):
         ctx.run_function = run_function
-        ctx.distribute_saved_activations \
-            = distribute_saved_activations
+        ctx.distribute_saved_activations = distribute_saved_activations
 
         # Copy the rng states.
         ctx.fwd_cpu_rng_state = torch.get_rng_state()
@@ -255,7 +271,8 @@ def forward(ctx, run_function, distribute_saved_activations, *args):
             ctx.input_0_shape = args[0].data.shape
             safely_set_viewless_tensor_data(
                 args[0],
-                split_tensor_into_1d_equal_chunks(args[0].data, new_buffer=True))
+                split_tensor_into_1d_equal_chunks(args[0].data, new_buffer=True),
+            )
 
         # HACK: currently when DeepSpeed is used, we always set
         # distribute_saved_activations to false, and use the following older
@@ -263,8 +280,7 @@ def forward(ctx, run_function, distribute_saved_activations, *args):
         if _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER is not None:
             ctx.input_0_shape = args[0].data.shape
             args[0].data = split_tensor_into_1d_equal_chunks(args[0].data)
-            args[0].data = _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER.add(
-                args[0].data)
+            args[0].data = _CHECKPOINTED_ACTIVATIONS_MEMORY_BUFFER.add(args[0].data)
 
         # Store everything.
         ctx.save_for_backward(*args)
@@ -274,13 +290,16 @@ def forward(ctx, run_function, distribute_saved_activations, *args):
     @staticmethod
     def backward(ctx, *args):
         if not torch.autograd._is_checkpoint_valid():
-            raise RuntimeError("Checkpointing is not compatible with .grad(), "
-                               "please use .backward() if possible")
+            raise RuntimeError(
+                "Checkpointing is not compatible with .grad(), "
+                "please use .backward() if possible"
+            )
         inputs = ctx.saved_tensors
         if ctx.distribute_saved_activations:
             safely_set_viewless_tensor_data(
                 inputs[0],
-                gather_split_1d_tensor(inputs[0].data).view(ctx.input_0_shape))
+                gather_split_1d_tensor(inputs[0].data).view(ctx.input_0_shape),
+            )
         # HACK: currently when DeepSpeed is used, we always set
         # distribute_saved_activations to false, and use the following older
         # activation checkpointing mechanisms
@@ -310,13 +329,20 @@ def backward(ctx, *args):
 
         if isinstance(outputs, torch.Tensor):
             outputs = (outputs,)
-        elif len(outputs) == 2 and isinstance(outputs[1], torch.Tensor) and \
-                torch.equal(outputs[1], torch.tensor(0).to(get_accelerator().device_name())):
+        elif (
+            len(outputs) == 2
+            and isinstance(outputs[1], torch.Tensor)
+            and torch.equal(
+                outputs[1], torch.tensor(0).to(get_accelerator().device_name())
+            )
+        ):
             # a hacky solution to overcome issue when running old script examples/pretrain_gpt_distributed.sh
             outputs = (outputs[0],)
         torch.autograd.backward(outputs, args)
-        grads = tuple(inp.grad if isinstance(inp, torch.Tensor) else inp
-                      for inp in detached_inputs)
+        grads = tuple(
+            inp.grad if isinstance(inp, torch.Tensor) else inp
+            for inp in detached_inputs
+        )
         return (None, None) + grads
 
 
@@ -325,6 +351,5 @@ def checkpoint(function, distribute_saved_activations, *args):
     This has been directly copied from torch.utils.checkpoint."""
     if deepspeed.checkpointing.is_configured():
         return deepspeed.checkpointing.checkpoint(function, *args)
-    
-    return CheckpointFunction.apply(function,
-                                    distribute_saved_activations, *args)
+
+    return CheckpointFunction.apply(function, distribute_saved_activations, *args)
diff --git a/megatron/core/tensor_parallel/utils.py b/megatron/core/tensor_parallel/utils.py
index ee1dadef7c0..bda4877361d 100644
--- a/megatron/core/tensor_parallel/utils.py
+++ b/megatron/core/tensor_parallel/utils.py
@@ -7,21 +7,22 @@
 from megatron.core.utils import divide
 from megatron.core import parallel_state
 
+
 def split_tensor_along_last_dim(
     tensor: torch.Tensor,
     num_partitions: int,
     contiguous_split_chunks: bool = False,
 ) -> List[torch.Tensor]:
-    """ Split a tensor along its last dimension.
+    """Split a tensor along its last dimension.
 
-        Arguments:
-            tensor: input tensor.
-            num_partitions: number of partitions to split the tensor
-            contiguous_split_chunks: If True, make each chunk contiguous
-                                     in memory.
+    Arguments:
+        tensor: input tensor.
+        num_partitions: number of partitions to split the tensor
+        contiguous_split_chunks: If True, make each chunk contiguous
+                                 in memory.
 
-        Returns:
-            A list of Tensors
+    Returns:
+        A list of Tensors
     """
     # Get the size and dimension.
     last_dim = tensor.dim() - 1
@@ -34,28 +35,33 @@ def split_tensor_along_last_dim(
 
     return tensor_list
 
+
 def split_tensor_into_1d_equal_chunks(tensor, new_buffer=False):
-    """ Break a tensor into equal 1D chunks across tensor parallel ranks.
+    """Break a tensor into equal 1D chunks across tensor parallel ranks.
 
-        Returns a Tensor or View with this rank's portion of the data.
+    Returns a Tensor or View with this rank's portion of the data.
 
-        Arguments:
-            tensor: The tensor to split
+    Arguments:
+        tensor: The tensor to split
 
-        Keyword Arguments:
-            new_buffer (bool): If True, returns a new Tensor.
-                               If False, returns a view into the existing Tensor.
-                               Default is False
+    Keyword Arguments:
+        new_buffer (bool): If True, returns a new Tensor.
+                           If False, returns a view into the existing Tensor.
+                           Default is False
 
     """
-    partition_size = torch.numel(tensor) // \
-        parallel_state.get_tensor_model_parallel_world_size()
+    partition_size = (
+        torch.numel(tensor) // parallel_state.get_tensor_model_parallel_world_size()
+    )
     start_index = partition_size * parallel_state.get_tensor_model_parallel_rank()
     end_index = start_index + partition_size
     if new_buffer:
-        data = torch.empty(partition_size, dtype=tensor.dtype,
-                           device=torch.cuda.current_device(),
-                           requires_grad=False)
+        data = torch.empty(
+            partition_size,
+            dtype=tensor.dtype,
+            device=torch.cuda.current_device(),
+            requires_grad=False,
+        )
         data.copy_(tensor.view(-1)[start_index:end_index])
     else:
         data = tensor.view(-1)[start_index:end_index]
@@ -63,38 +69,44 @@ def split_tensor_into_1d_equal_chunks(tensor, new_buffer=False):
 
 
 def gather_split_1d_tensor(tensor):
-    """ Opposite of split_tensor_into_1d_equal_chunks. Gather values from tensor
-        model parallel ranks.
+    """Opposite of split_tensor_into_1d_equal_chunks. Gather values from tensor
+    model parallel ranks.
 
-        Returns a new Tensor with the gathered data.
+    Returns a new Tensor with the gathered data.
 
-        Arguments:
-            tensor: A Tensor or view of this rank's portion of the data.
+    Arguments:
+        tensor: A Tensor or view of this rank's portion of the data.
     """
-    numel_gathered = torch.numel(tensor) * \
-        parallel_state.get_tensor_model_parallel_world_size()
-    gathered = torch.empty(numel_gathered, dtype=tensor.dtype,
-                           device=torch.cuda.current_device(),
-                           requires_grad=False)
+    numel_gathered = (
+        torch.numel(tensor) * parallel_state.get_tensor_model_parallel_world_size()
+    )
+    gathered = torch.empty(
+        numel_gathered,
+        dtype=tensor.dtype,
+        device=torch.cuda.current_device(),
+        requires_grad=False,
+    )
     # TODO: This API is experimental in pytorch (as of Feb 2022) and
     # this might break in future pytorch releases. We chose this API
     # as opposed to torch.distributed.all_gather for efficiency reasons.
     # This API calls directly NCCL all-gather versus the former does
     # internal copies and can potentially cause slow down.
-    if version.parse(torch.__version__) >= version.parse('1.13'):
-        torch.distributed.all_gather_into_tensor(gathered, tensor,
-                                       group=parallel_state.get_tensor_model_parallel_group())
+    if version.parse(torch.__version__) >= version.parse("1.13"):
+        torch.distributed.all_gather_into_tensor(
+            gathered, tensor, group=parallel_state.get_tensor_model_parallel_group()
+        )
     else:
-        torch.distributed._all_gather_base(gathered, tensor,
-                                       group=parallel_state.get_tensor_model_parallel_group())
+        torch.distributed._all_gather_base(
+            gathered, tensor, group=parallel_state.get_tensor_model_parallel_group()
+        )
 
     return gathered
 
 
 class VocabUtility:
-    """ Split the vocabulary into `world_size` chunks and return the first
-        and last index of the vocabulary belonging to the `rank`
-        partition: Note that indices in [fist, last)
+    """Split the vocabulary into `world_size` chunks and return the first
+    and last index of the vocabulary belonging to the `rank`
+    partition: Note that indices in [fist, last)
 
     """
 
@@ -107,7 +119,9 @@ def vocab_range_from_per_partition_vocab_size(
         return index_f, index_l
 
     @staticmethod
-    def vocab_range_from_global_vocab_size(global_vocab_size: int, rank: int, world_size: int) -> Sequence[int]:
+    def vocab_range_from_global_vocab_size(
+        global_vocab_size: int, rank: int, world_size: int
+    ) -> Sequence[int]:
         per_partition_vocab_size = divide(global_vocab_size, world_size)
         return VocabUtility.vocab_range_from_per_partition_vocab_size(
             per_partition_vocab_size, rank, world_size
diff --git a/megatron/core/tensor_parallel/weight_grad_store.py b/megatron/core/tensor_parallel/weight_grad_store.py
new file mode 100644
index 00000000000..fc548374048
--- /dev/null
+++ b/megatron/core/tensor_parallel/weight_grad_store.py
@@ -0,0 +1,35 @@
+import queue
+
+
+class WeightGradStore:
+
+    cache = []
+    weight_grad_queue = queue.Queue()
+    combine_bw = True
+
+    @classmethod
+    def set_combine_bw(cls, combine_bw):
+        # For the following backward pass, combine W with B and skip next W.
+        cls.combine_bw = combine_bw
+
+    @classmethod
+    def put(cls, total_input, grad_output, weight, func):
+        if cls.combine_bw == True:
+            func(total_input, grad_output, weight)
+            return
+        # Store the weight gradient computation of linear layers.
+        cls.cache.append((total_input, grad_output, weight, func))
+
+    @classmethod
+    def flush(cls):
+        # Collect all stored computations during backward as a W.
+        cls.weight_grad_queue.put(cls.cache)
+        cls.cache = []
+
+    @classmethod
+    def pop(cls):
+        # Execute a single W.
+        assert cls.weight_grad_queue.qsize() > 0
+        stored_grads = cls.weight_grad_queue.get()
+        for total_input, grad_output, weight, func in stored_grads:
+            func(total_input, grad_output, weight)
diff --git a/megatron/core/transformer/attention.py b/megatron/core/transformer/attention.py
index 15818bddf1f..2157433b086 100644
--- a/megatron/core/transformer/attention.py
+++ b/megatron/core/transformer/attention.py
@@ -12,8 +12,8 @@
 from megatron.core.transformer.module import MegatronModule
 from megatron.core.transformer.enums import AttnType, AttnMaskType
 from megatron.core.transformer.transformer_config import TransformerConfig
-from megatron.core.transformer.custom_layers.transformer_engine import \
-        TECoreAttention, TEColumnParallelLinear, TERowParallelLinear
+from megatron.core.transformer.custom_layers.transformer_engine import TECoreAttention, TEColumnParallelLinear, TERowParallelLinear
+
 
 class Attention(MegatronModule, ABC):
     """Attention layer abstract class.
@@ -38,16 +38,22 @@ def __init__(
 
         # Per attention head and per partition values.
         world_size = parallel_state.get_tensor_model_parallel_world_size()
-        self.hidden_size_per_attention_head = divide(self.projection_size, self.config.num_attention_heads)
-        self.num_attention_heads_per_partition = divide(self.config.num_attention_heads, world_size)
+        self.hidden_size_per_attention_head = divide(
+            self.projection_size, self.config.num_attention_heads
+        )
+        self.num_attention_heads_per_partition = divide(
+            self.config.num_attention_heads, world_size
+        )
 
         self.core_attention = TECoreAttention(
             config=self.config,
             layer_number=self.layer_number,
-            attn_mask_type=self.attn_mask_type
+            attn_mask_type=self.attn_mask_type,
         )
 
-        self.checkpoint_core_attention = self.config.recompute_granularity == 'selective'
+        self.checkpoint_core_attention = (
+            self.config.recompute_granularity == "selective"
+        )
 
         # Output.
         self.linear_proj = TERowParallelLinear(
@@ -93,7 +99,13 @@ def get_query_key_value_tensors(self, hidden_states, key_value_states):
         is "self-attn" or "cross-attn".
         """
 
-    def forward(self, hidden_states, attention_mask, key_value_states=None, inference_params=None):
+    def forward(
+        self,
+        hidden_states,
+        attention_mask,
+        key_value_states=None,
+        inference_params=None,
+    ):
         # hidden_states: [sq, b, h]
 
         # =================================================
@@ -106,23 +118,29 @@ def forward(self, hidden_states, attention_mask, key_value_states=None, inferenc
             if self.layer_number not in inference_params.key_value_memory_dict:
                 inf_max_seq_len = inference_params.max_sequence_len
                 inf_max_batch_size = inference_params.max_batch_size
-                inference_key_memory = self._allocate_memory(inf_max_seq_len, inf_max_batch_size)
-                inference_value_memory = self._allocate_memory(inf_max_seq_len, inf_max_batch_size)
+                inference_key_memory = self._allocate_memory(
+                    inf_max_seq_len, inf_max_batch_size
+                )
+                inference_value_memory = self._allocate_memory(
+                    inf_max_seq_len, inf_max_batch_size
+                )
                 inference_params.key_value_memory_dict[self.layer_number] = (
                     inference_key_memory,
                     inference_value_memory,
                 )
             else:
-                inference_key_memory, inference_value_memory = inference_params.key_value_memory_dict[
-                    self.layer_number
-                ]
+                inference_key_memory, inference_value_memory = (
+                    inference_params.key_value_memory_dict[self.layer_number]
+                )
 
         # =====================
         # Query, Key, and Value
         # =====================
         # Get the query, key and value tensors based on the type of attention -
         # self or cross attn.
-        query, key, value = self.get_query_key_value_tensors(hidden_states, key_value_states)
+        query, key, value = self.get_query_key_value_tensors(
+            hidden_states, key_value_states
+        )
 
         # ==================================
         # Adjust key and value for inference
@@ -136,8 +154,12 @@ def forward(self, hidden_states, attention_mask, key_value_states=None, inferenc
             sequence_end = sequence_start + key.size(0)
             assert sequence_end <= inference_key_memory.size(0)
             # Copy key and values.
-            inference_key_memory[sequence_start:sequence_end, batch_start:batch_end, ...] = key
-            inference_value_memory[sequence_start:sequence_end, batch_start:batch_end, ...] = value
+            inference_key_memory[
+                sequence_start:sequence_end, batch_start:batch_end, ...
+            ] = key
+            inference_value_memory[
+                sequence_start:sequence_end, batch_start:batch_end, ...
+            ] = value
             key = inference_key_memory[:sequence_end, batch_start:batch_end, ...]
             value = inference_value_memory[:sequence_end, batch_start:batch_end, ...]
 
@@ -146,7 +168,9 @@ def forward(self, hidden_states, attention_mask, key_value_states=None, inferenc
         # ==================================
 
         if self.checkpoint_core_attention:
-            core_attn_out = self._checkpointed_attention_forward(query, key, value, attention_mask)
+            core_attn_out = self._checkpointed_attention_forward(
+                query, key, value, attention_mask
+            )
         else:
             core_attn_out = self.core_attention(query, key, value, attention_mask)
 
@@ -158,29 +182,31 @@ def forward(self, hidden_states, attention_mask, key_value_states=None, inferenc
 
         return output, bias
 
+
 class SelfAttention(Attention):
     """Self-attention layer class
 
     Self-attention layer takes input with size [s, b, h]
     and returns output of the same size.
     """
-    def __init__(self,
-                 config: TransformerConfig,
-                 layer_number: int = 1,
-                 attn_mask_type=AttnMaskType.padding):
+
+    def __init__(
+        self,
+        config: TransformerConfig,
+        layer_number: int = 1,
+        attn_mask_type=AttnMaskType.padding,
+    ):
         super().__init__(
-            config=config,
-            layer_number=layer_number,
-            attn_mask_type=attn_mask_type
+            config=config, layer_number=layer_number, attn_mask_type=attn_mask_type
         )
 
         self.linear_qkv = TEColumnParallelLinear(
-                self.config.hidden_size,
-                3 * self.projection_size,
-                config=self.config,
-                init_method=self.config.init_method,
-                bias=self.config.add_bias_linear,
-                skip_bias_add=False
+            self.config.hidden_size,
+            3 * self.projection_size,
+            config=self.config,
+            init_method=self.config.init_method,
+            bias=self.config.add_bias_linear,
+            skip_bias_add=False,
         )
 
     def get_query_key_value_tensors(self, hidden_states, key_value_states=None):
@@ -202,20 +228,22 @@ def get_query_key_value_tensors(self, hidden_states, key_value_states=None):
 
         return query, key, value
 
+
 class CrossAttention(Attention):
     """Cross-attention layer class
 
     Cross-attention layer takes input with size [s, b, h] and context with size
     [s, b, h] and returns output of the same size.
     """
-    def __init__(self,
-                 config: TransformerConfig,
-                 layer_number: int = 1,
-                 attn_mask_type=AttnMaskType.padding):
+
+    def __init__(
+        self,
+        config: TransformerConfig,
+        layer_number: int = 1,
+        attn_mask_type=AttnMaskType.padding,
+    ):
         super().__init__(
-            config=config,
-            layer_number=layer_number,
-            attn_mask_type=attn_mask_type
+            config=config, layer_number=layer_number, attn_mask_type=attn_mask_type
         )
 
         self.linear_q = TEColumnParallelLinear(
@@ -224,7 +252,7 @@ def __init__(self,
             config=self.config,
             init_method=self.config.init_method,
             bias=self.config.add_bias_linear,
-            skip_bias_add=False
+            skip_bias_add=False,
         )
 
         self.linear_kv = TEColumnParallelLinear(
@@ -233,7 +261,7 @@ def __init__(self,
             config=self.config,
             init_method=self.config.init_method,
             bias=self.config.add_bias_linear,
-            skip_bias_add=False
+            skip_bias_add=False,
         )
 
     def get_query_key_value_tensors(self, hidden_states, key_value_states):
diff --git a/megatron/core/transformer/core_attention.py b/megatron/core/transformer/core_attention.py
index aa5795a794c..9c888283d47 100644
--- a/megatron/core/transformer/core_attention.py
+++ b/megatron/core/transformer/core_attention.py
@@ -30,7 +30,12 @@ class CoreAttention(MegatronModule):
      s: sequence length
     """
 
-    def __init__(self, config: TransformerConfig, layer_number: int = 1, attn_mask_type=AttnMaskType.padding):
+    def __init__(
+        self,
+        config: TransformerConfig,
+        layer_number: int = 1,
+        attn_mask_type=AttnMaskType.padding,
+    ):
         super().__init__(config=config)
 
         self.config: TransformerConfig = config
@@ -43,8 +48,12 @@ def __init__(self, config: TransformerConfig, layer_number: int = 1, attn_mask_t
         # Per attention head and per partition values.
         world_size = parallel_state.get_tensor_model_parallel_world_size()
         self.hidden_size_per_partition = divide(projection_size, world_size)
-        self.hidden_size_per_attention_head = divide(projection_size, config.num_attention_heads)
-        self.num_attention_heads_per_partition = divide(config.num_attention_heads, world_size)
+        self.hidden_size_per_attention_head = divide(
+            projection_size, config.num_attention_heads
+        )
+        self.num_attention_heads_per_partition = divide(
+            config.num_attention_heads, world_size
+        )
 
         coeff = None
         self.norm_factor = math.sqrt(self.hidden_size_per_attention_head)
@@ -67,23 +76,38 @@ def __init__(self, config: TransformerConfig, layer_number: int = 1, attn_mask_t
         # on average it should not be partition dependent.
         self.attention_dropout = torch.nn.Dropout(self.config.attention_dropout)
 
-    def forward(self, query_layer: Tensor, key_layer: Tensor, value_layer: Tensor, attention_mask: Tensor):
+    def forward(
+        self,
+        query_layer: Tensor,
+        key_layer: Tensor,
+        value_layer: Tensor,
+        attention_mask: Tensor,
+    ):
 
         # ===================================
         # Raw attention scores. [b, n/p, s, s]
         # ===================================
 
         # [b, np, sq, sk]
-        output_size = (query_layer.size(1), query_layer.size(2), query_layer.size(0), key_layer.size(0))
+        output_size = (
+            query_layer.size(1),
+            query_layer.size(2),
+            query_layer.size(0),
+            key_layer.size(0),
+        )
 
         # [sq, b, np, hn] -> [sq, b * np, hn]
-        query_layer = query_layer.view(output_size[2], output_size[0] * output_size[1], -1)
+        query_layer = query_layer.view(
+            output_size[2], output_size[0] * output_size[1], -1
+        )
         # [sk, b, np, hn] -> [sk, b * np, hn]
         key_layer = key_layer.view(output_size[3], output_size[0] * output_size[1], -1)
 
         # preallocting input tensor: [b * np, sq, sk]
         matmul_input_buffer = parallel_state.get_global_memory_buffer().get_tensor(
-            (output_size[0] * output_size[1], output_size[2], output_size[3]), query_layer.dtype, "mpu"
+            (output_size[0] * output_size[1], output_size[2], output_size[3]),
+            query_layer.dtype,
+            "mpu",
         )
 
         # Raw attention scores. [b * np, sq, sk]
@@ -103,7 +127,9 @@ def forward(self, query_layer: Tensor, key_layer: Tensor, value_layer: Tensor, a
         # ===========================
 
         # attention scores and attention mask [b, np, sq, sk]
-        attention_probs: Tensor = self.scale_mask_softmax(attention_scores, attention_mask)
+        attention_probs: Tensor = self.scale_mask_softmax(
+            attention_scores, attention_mask
+        )
 
         # This is actually dropping out entire tokens to attend to, which might
         # seem a bit unusual, but is taken from the original Transformer paper.
@@ -122,13 +148,22 @@ def forward(self, query_layer: Tensor, key_layer: Tensor, value_layer: Tensor, a
         # [sk, b, np, hn] --> [b, np, sq, hn]
 
         # context layer shape: [b, np, sq, hn]
-        output_size = (value_layer.size(1), value_layer.size(2), query_layer.size(0), value_layer.size(3))
+        output_size = (
+            value_layer.size(1),
+            value_layer.size(2),
+            query_layer.size(0),
+            value_layer.size(3),
+        )
 
         # change view [sk, b * np, hn]
-        value_layer = value_layer.view(value_layer.size(0), output_size[0] * output_size[1], -1)
+        value_layer = value_layer.view(
+            value_layer.size(0), output_size[0] * output_size[1], -1
+        )
 
         # change view [b * np, sq, sk]
-        attention_probs = attention_probs.view(output_size[0] * output_size[1], output_size[2], -1)
+        attention_probs = attention_probs.view(
+            output_size[0] * output_size[1], output_size[2], -1
+        )
 
         # matmul: [b * np, sq, hn]
         context_layer = torch.bmm(attention_probs, value_layer.transpose(0, 1))
@@ -140,7 +175,9 @@ def forward(self, query_layer: Tensor, key_layer: Tensor, value_layer: Tensor, a
         context_layer = context_layer.permute(2, 0, 1, 3).contiguous()
 
         # [sq, b, np, hn] --> [sq, b, hp]
-        new_context_layer_shape = context_layer.size()[:-2] + (self.hidden_size_per_partition,)
+        new_context_layer_shape = context_layer.size()[:-2] + (
+            self.hidden_size_per_partition,
+        )
         context_layer = context_layer.view(*new_context_layer_shape)
 
         return context_layer
diff --git a/megatron/core/transformer/custom_layers/transformer_engine.py b/megatron/core/transformer/custom_layers/transformer_engine.py
index 8d5c6aa15c0..88ff1ec961d 100644
--- a/megatron/core/transformer/custom_layers/transformer_engine.py
+++ b/megatron/core/transformer/custom_layers/transformer_engine.py
@@ -7,21 +7,24 @@
 from megatron.core.parallel_state import get_tensor_model_parallel_group
 from megatron.core.tensor_parallel import get_cuda_rng_tracker
 
+
 class TELayerNorm(te.pytorch.module.LayerNorm):
     """
     Wrapper for the Transformer-Engine's `LayerNorm`.
     """
-    def __init__(self,
-                 hidden_size: int,
-                 eps: float = 1e-5,
-                 sequence_parallel: bool = False,
-                 **kwargs):
+
+    def __init__(
+        self,
+        hidden_size: int,
+        eps: float = 1e-5,
+        sequence_parallel: bool = False,
+        **kwargs
+    ):
         super().__init__(
-            hidden_size=hidden_size,
-            eps=eps,
-            sequence_parallel=sequence_parallel
+            hidden_size=hidden_size, eps=eps, sequence_parallel=sequence_parallel
         )
 
+
 class TELinear(te.pytorch.module.Linear):
     """
     Wrapper for the Transformer-Engine's `Linear` layer.
@@ -30,15 +33,19 @@ class TELinear(te.pytorch.module.Linear):
     yet, the tp_group passed to TE will be None and must be set later
     via set_tensor_parallel_group().
     """
-    def __init__(self,
-                 input_size: int,
-                 output_size: int,
-                 config: TransformerConfig,
-                 parallel_mode: str,
-                 init_method: Callable, *,
-                 bias: bool = True,
-                 skip_bias_add: bool = False,
-                 **kwargs):
+
+    def __init__(
+        self,
+        input_size: int,
+        output_size: int,
+        config: TransformerConfig,
+        parallel_mode: str,
+        init_method: Callable,
+        *,
+        bias: bool = True,
+        skip_bias_add: bool = False,
+        **kwargs
+    ):
         self.config = config
 
         # TE returns a zero length Tensor when bias=False and
@@ -74,16 +81,16 @@ def forward(self, x):
             return out
         return out, None
 
+
 class TEColumnParallelLinear(TELinear):
     """
     Wrapper for the Transformer-Engine's `Linear` layer but specialized similar
     to megatron's `ColumnParallelLinear` layer.
     """
-    def __init__(self,
-                 input_size: int,
-                 output_size: int,
-                 config: TransformerConfig,
-                 **kwargs):
+
+    def __init__(
+        self, input_size: int, output_size: int, config: TransformerConfig, **kwargs
+    ):
         self.config = config
         super().__init__(
             input_size=input_size,
@@ -93,16 +100,16 @@ def __init__(self,
             **kwargs
         )
 
+
 class TERowParallelLinear(TELinear):
     """
     Wrapper for the Transformer-Engine's `Linear` layer but specialized similar
     to megatron's `RowParallelLinear` layer.
     """
-    def __init__(self,
-                 input_size: int,
-                 output_size: int,
-                 config: TransformerConfig,
-                 **kwargs):
+
+    def __init__(
+        self, input_size: int, output_size: int, config: TransformerConfig, **kwargs
+    ):
         self.config = config
         super().__init__(
             input_size=input_size,
@@ -112,6 +119,7 @@ def __init__(self,
             **kwargs
         )
 
+
 class TECoreAttention(te.pytorch.transformer.DotProductAttention):
     """
     Wrapper for the Transformer-Engine's `DotProductAttention` layer that also
@@ -121,11 +129,14 @@ class TECoreAttention(te.pytorch.transformer.DotProductAttention):
     yet, the tp_group passed to TE will be None and must be set later
     via set_tensor_parallel_group().
     """
-    def __init__(self,
-                 config: TransformerConfig,
-                 layer_number: int = 1,
-                 attn_mask_type: AttnMaskType = AttnMaskType.padding,
-                 **kwargs):
+
+    def __init__(
+        self,
+        config: TransformerConfig,
+        layer_number: int = 1,
+        attn_mask_type: AttnMaskType = AttnMaskType.padding,
+        **kwargs
+    ):
         self.config = config
         super().__init__(
             num_attention_heads=self.config.num_attention_heads,
diff --git a/megatron/core/transformer/mlp.py b/megatron/core/transformer/mlp.py
index 69d5a01db38..4327ca65305 100644
--- a/megatron/core/transformer/mlp.py
+++ b/megatron/core/transformer/mlp.py
@@ -7,8 +7,8 @@
 from megatron.core.fusions.fused_bias_gelu import bias_gelu_impl
 from megatron.core.transformer.module import MegatronModule
 from megatron.core.transformer.transformer_config import TransformerConfig
-from megatron.core.transformer.custom_layers.transformer_engine import \
-        TERowParallelLinear, TEColumnParallelLinear
+from megatron.core.transformer.custom_layers.transformer_engine import TERowParallelLinear, TEColumnParallelLinear
+
 
 class MLP(MegatronModule):
     """
@@ -47,9 +47,11 @@ def __init__(self, config: TransformerConfig):
         )
 
         if self.config.gated_linear_unit:
+
             def glu(x):
                 x = torch.chunk(x, 2, dim=-1)
                 return self.config.activation_func(x[0]) * x[1]
+
             self.activation_func = glu
         else:
             self.activation_func = self.config.activation_func
diff --git a/megatron/core/transformer/module.py b/megatron/core/transformer/module.py
index 43d1bccb6fa..0ded86b0674 100644
--- a/megatron/core/transformer/module.py
+++ b/megatron/core/transformer/module.py
@@ -16,7 +16,7 @@
 
 
 def param_is_not_shared(param):
-    return not hasattr(param, 'shared') or not param.shared
+    return not hasattr(param, "shared") or not param.shared
 
 
 class MegatronModule(torch.nn.Module):
@@ -28,7 +28,7 @@ def __init__(self, config: TransformerConfig):
         super().__init__()
         self.config = config
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """Use this function to override the state dict for
         saving checkpoints."""
         return self.state_dict(prefix=prefix, keep_vars=keep_vars)
@@ -74,6 +74,7 @@ def float_conversion(val):
 
 
 class Float16Module(MegatronModule):
+
     def __init__(self, config: TransformerConfig, module: torch.nn.Module):
         super(Float16Module, self).__init__(config)
         self.config = config
@@ -81,19 +82,19 @@ def __init__(self, config: TransformerConfig, module: torch.nn.Module):
         self.bf16 = config.bf16
 
         if self.fp16:
-            self.add_module('module', module.half())
+            self.add_module("module", module.half())
 
             def float16_convertor(val):
                 return val.half()
 
         elif self.bf16:
-            self.add_module('module', module.bfloat16())
+            self.add_module("module", module.bfloat16())
 
             def float16_convertor(val):
                 return val.bfloat16()
 
         else:
-            raise Exception('Either config.fp16 or config.bf16 should be True.')
+            raise Exception("Either config.fp16 or config.bf16 should be True.")
 
         self.float16_convertor = float16_convertor
 
@@ -108,11 +109,13 @@ def forward(self, *inputs, **kwargs):
             outputs = float16_to_fp32(outputs)
         return outputs
 
-    def state_dict(self, destination=None, prefix='', keep_vars=False):
+    def state_dict(self, destination=None, prefix="", keep_vars=False):
         return self.module.state_dict(prefix=prefix, keep_vars=keep_vars)
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
-        return self.module.state_dict_for_save_checkpoint(prefix=prefix, keep_vars=keep_vars)
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
+        return self.module.state_dict_for_save_checkpoint(
+            prefix=prefix, keep_vars=keep_vars
+        )
 
     def load_state_dict(self, state_dict, strict=True):
         self.module.load_state_dict(state_dict, strict=strict)
diff --git a/megatron/core/transformer/transformer_block.py b/megatron/core/transformer/transformer_block.py
index 35bd7a6fc73..be191c7ae98 100644
--- a/megatron/core/transformer/transformer_block.py
+++ b/megatron/core/transformer/transformer_block.py
@@ -36,12 +36,15 @@ def __init__(
         # required for pipeline parallel schedules
         self.input_tensor = None
 
-        self.checkpoint_core_attention = self.config.recompute_granularity == 'selective'
+        self.checkpoint_core_attention = (
+            self.config.recompute_granularity == "selective"
+        )
 
         # TODO: Maybe we can create a build_transformer_block method here instead
 
         self.num_layers_per_pipeline_rank = (
-            self.config.num_layers // parallel_state.get_pipeline_model_parallel_world_size()
+            self.config.num_layers
+            // parallel_state.get_pipeline_model_parallel_world_size()
         )
 
         self._build_layers()
@@ -55,7 +58,9 @@ def _build_layers(self):
         #     self.norm_factor *= coeff
         def build_layer(layer_number):
             return TransformerLayer(
-                config=self.config, layer_number=layer_number, self_attn_mask_type=self.self_attn_mask_type,
+                config=self.config,
+                layer_number=layer_number,
+                self_attn_mask_type=self.self_attn_mask_type,
             )
 
         pipeline_rank = parallel_state.get_pipeline_model_parallel_rank()
@@ -78,10 +83,15 @@ def build_layer(layer_number):
             total_num_layers = self.config.num_layers
             num_layers_per_virtual_rank = self.num_layers_per_pipeline_rank // vp_size
             total_virtual_chunks = total_num_layers / vp_size
-            offset = vp_rank * total_virtual_chunks + (pipeline_rank * num_layers_per_virtual_rank)
+            offset = vp_rank * total_virtual_chunks + (
+                pipeline_rank * num_layers_per_virtual_rank
+            )
 
             self.layers = torch.nn.ModuleList(
-                [build_layer(i + 1 + offset) for i in range(num_layers_per_virtual_rank)]
+                [
+                    build_layer(i + 1 + offset)
+                    for i in range(num_layers_per_virtual_rank)
+                ]
             )
         else:
             # Each stage gets a contiguous set of layers.
@@ -92,7 +102,10 @@ def build_layer(layer_number):
 
             # @jcasper why is layer_number using 1 index?
             self.layers = torch.nn.ModuleList(
-                [build_layer(i + 1 + offset) for i in range(self.num_layers_per_pipeline_rank)]
+                [
+                    build_layer(i + 1 + offset)
+                    for i in range(self.num_layers_per_pipeline_rank)
+                ]
             )
 
         # # TODO: add back standalone_embedding_stage
@@ -136,7 +149,7 @@ def custom_forward(*args, **kwargs):
 
             return custom_forward
 
-        if self.config.recompute_method == 'uniform':
+        if self.config.recompute_method == "uniform":
             # Uniformly divide the total number of Transformer layers and checkpoint
             # the input activation of each divided chunk.
             # A method to further reduce memory usage reducing checkpoints.
@@ -151,14 +164,17 @@ def custom_forward(*args, **kwargs):
 
                 l += self.recompute_num_layers
 
-        elif self.config.recompute_method == 'block':
+        elif self.config.recompute_method == "block":
             # Checkpoint the input activation of only a set number of individual
             # Transformer layers and skip the rest.
             # A method fully use the device memory removing redundant re-computation.
             for l in range(self.num_layers_per_pipeline_rank):
                 if l < self.config.recompute_num_layers:
                     hidden_states = tensor_parallel.checkpoint(
-                        custom(l, l + 1), self.config.distribute_saved_activations, hidden_states, attention_mask,
+                        custom(l, l + 1),
+                        self.config.distribute_saved_activations,
+                        hidden_states,
+                        attention_mask,
                     )
                 else:
                     hidden_states = custom(l, l + 1)(hidden_states, attention_mask)
@@ -200,7 +216,11 @@ def forward(self, hidden_states, attention_mask, inference_params=None):
         #   likely redundant, since p2p_communication.py (likely originator)
         #   already creates viewless tensors. That said, make_viewless_tensor()
         #   is called here to be future-proof and corner-case-proof.
-        hidden_states = make_viewless_tensor(inp=hidden_states, requires_grad=True, keep_graph=True,)
+        hidden_states = make_viewless_tensor(
+            inp=hidden_states,
+            requires_grad=True,
+            keep_graph=True,
+        )
 
         if self.config.sequence_parallel:
             rng_context = tensor_parallel.get_cuda_rng_tracker().fork()
@@ -209,11 +229,15 @@ def forward(self, hidden_states, attention_mask, inference_params=None):
 
         with rng_context:
             # Forward pass.
-            if self.config.recompute_granularity == 'full':
-                hidden_states = self._checkpointed_forward(hidden_states=hidden_states, attention_mask=attention_mask)
+            if self.config.recompute_granularity == "full":
+                hidden_states = self._checkpointed_forward(
+                    hidden_states=hidden_states, attention_mask=attention_mask
+                )
             else:
                 for layer in self.layers:
-                    hidden_states = layer(hidden_states=hidden_states, attention_mask=attention_mask)
+                    hidden_states = layer(
+                        hidden_states=hidden_states, attention_mask=attention_mask
+                    )
 
         # Final layer norm.
         if self.post_process and self.post_layer_norm:
diff --git a/megatron/core/transformer/transformer_config.py b/megatron/core/transformer/transformer_config.py
index de21046f026..798c1b25264 100644
--- a/megatron/core/transformer/transformer_config.py
+++ b/megatron/core/transformer/transformer_config.py
@@ -9,96 +9,100 @@
 from megatron.core import ModelParallelConfig
 from megatron.core.utils import init_method_normal, scaled_init_method_normal
 
+
 @dataclass
 class TransformerConfig(ModelParallelConfig):
     """Configuration object for megatron-core transformers.
 
-        Attributes:
-
-        # model architecture
-        num_layers (int): Number of transformer layers in a transformer block.
-        hidden_size (int): Transformer hidden size.
-        ffn_hidden_size (int): Transformer Feed-Forward Network hidden size.
-                                This is set to 4*hidden_size if not provided. Defaults to None.')
-        num_attention_heads (int): Number of transformer attention heads.
-        num_key_value_heads (int): This is the number of key_value heads that should be used to implement Grouped Query Attention. If
-                                   `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
-                                   `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used.
-                                   For more details checkout [this paper](https://arxiv.org/pdf/2305.13245.pdf).
-                                   If it is not specified, will default to `num_attention_heads`.
-        kv_channels (int): Projection weights dimension in multi-head attention.
-                            This is set to hidden_size // num_attention_heads if not provided.
-                            Defaults to None.
-        hidden_dropout (float): Dropout probability for transformer hidden state. Defaults to 0.1.
-        attention_dropout (float): Post attention dropout probability. Defaults to 0.1.
-        fp32_residual_connection (bool): If true, move residual connections to fp32.
-        apply_residual_connection_post_layernorm (bool): If true, uses the original BERT residule connection ordering.
-                                                         Defaults to False.
-        layernorm_epsilon (float): Layernorm epsilon. Defaults to 1e-5.
-
-        layernorm_zero_centered_gamma (bool): if set to 'True', the LayerNorm is adjusted to center the gamma values
-                                              around 0. This improves numerical stability. Defaults to False.
-
-        add_bias_linear (bool): Include a bias term in all linear layers (QKV projections, after core attention, and two
-                                in MLP layer). Default is True.
-
-        gated_linear_unit (bool): Use a gated linear unit for the first linear layer in the MLP. Defaults to False.
-
-        activation_func (Callable): Activation function to use for the non-linearity in the MLP. Defaults to F.gelu.
-
-        # initialization
-        init_method (Callable): Method to initialize weights. Note that bias is always set to
-                                zero. Should be a function that takes a single Tensor and
-                                initializes it. Defaults to
-                                megatron.core.utils.init_method_normal(init_method_std) which is
-                                torch.nn.init.normal_ with mean=0.0 and std=init_method_Std.
-
-        output_layer_init_method (Callable): Method to initialize weights of the output layer of
-                                             both attention and MLP blocks. Defaults to
-                                             megatron.core.utils.scaled_init_method_normal(init_method_std)
-                                             which is torch.nn.init.normal_ with mean=0.0 and
-                                             std=init_method_std / math.sqrt(2.0 * num_layers).
-
-        init_method_std (float): Standard deviation of the zero mean normal for the default
-                                 initialization method, not used if init_method and
-                                 output_layer_init_method are provided. Defaults to 0.02.
-
-        # mixed-precision
-        apply_query_key_layer_scaling (bool): If true, scale Q * K^T by 1 / layer-number. Defaults to True.
-        attention_softmax_in_fp32 (bool): If true, run attention masking and softmax in fp32.
-                                          This should be true if apply_query_key_layer_scaling is true.
-
-        # fusion
-        bias_gelu_fustion (bool): If true, fuses bias and gelu. Defaults to False.
-        masked_softmax_fusion (bool): If true, uses softmax fusion.
-        persist_layer_norm (bool): If true, uses the persistent fused layer norm kernel.
-                                   This kernel only supports a fixed set of hidden sizes.
-                                   Defaults to False.
-        bias_dropout_fusion (bool): If true, uses bias dropout fusion.
-
-        # activation recomputation
-
-        recompute_granularity (str): megatron-core supports 'selective' activation checkpointing where only the memory
-                                     intensive part of attention is checkpointed.  These memory intensive activations
-                                     are also less compute intensive which makes activation checkpointing more efficient
-                                     for LLMs (20B+).  See Reducing Activation Recomputation in Large Transformer
-                                     Models: https://arxiv.org/abs/2205.05198 for more details.  'full' will checkpoint
-                                     the entire transformer layer.  Must be 'selective' or 'full'. Defaults to None.
-
-        recompute_method (str): uniform will uniformly divide the total number of transformer layers in a transformer
-                                block and recompute the input activation of each divided chunk at the specified
-                                granularity.  block will recompute the input activations for only a set number of
-                                transformer layers per pipeline stage.  The rest of the layers in the pipeline stage
-                                will not have any activations recomputed.  Must be 'uniform' or 'block'. Defaults to
-                                None.
-
-        recompute_num_layers (int): When recompute_method is uniform, recompute_num_layers is the number of transformer
-                                    layers in each uniformly divided recompute unit.  When recompute_method is block,
-                                    recompute_num_layers is the number of transformer layers to recompute within each
-                                    pipeline stage.  Defaults to None.
-
-        distribute_saved_activations (bool): If true, distribute recomputed activations across the model parallel
-                                             group. Defaults to None.
+    Attributes:
+
+    # model architecture
+    num_layers (int): Number of transformer layers in a transformer block.
+    hidden_size (int): Transformer hidden size.
+    ffn_hidden_size (int): Transformer Feed-Forward Network hidden size.
+                            This is set to 4*hidden_size if not provided. Defaults to None.')
+    num_attention_heads (int): Number of transformer attention heads.
+    num_key_value_heads (int): This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+                               `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+                               `num_key_value_heads=1 the model will use Multi Query Attention (MQA) otherwise GQA is used.
+                               For more details checkout [this paper](https://arxiv.org/pdf/2305.13245.pdf).
+                               If it is not specified, will default to `num_attention_heads`.
+    kv_channels (int): Projection weights dimension in multi-head attention.
+                        This is set to hidden_size // num_attention_heads if not provided.
+                        Defaults to None.
+    hidden_dropout (float): Dropout probability for transformer hidden state. Defaults to 0.1.
+    attention_dropout (float): Post attention dropout probability. Defaults to 0.1.
+    fp32_residual_connection (bool): If true, move residual connections to fp32.
+    apply_residual_connection_post_layernorm (bool): If true, uses the original BERT residule connection ordering.
+                                                     Defaults to False.
+    layernorm_epsilon (float): Layernorm epsilon. Defaults to 1e-5.
+
+    layernorm_zero_centered_gamma (bool): if set to 'True', the LayerNorm is adjusted to center the gamma values
+                                          around 0. This improves numerical stability. Defaults to False.
+
+    add_bias_linear (bool): Include a bias term in all linear layers (QKV projections, after core attention, and two
+                            in MLP layer). Default is True.
+
+    gated_linear_unit (bool): Use a gated linear unit for the first linear layer in the MLP. Defaults to False.
+
+    activation_func (Callable): Activation function to use for the non-linearity in the MLP. Defaults to F.gelu.
+
+    # initialization
+    init_method (Callable): Method to initialize weights. Note that bias is always set to
+                            zero. Should be a function that takes a single Tensor and
+                            initializes it. Defaults to
+                            megatron.core.utils.init_method_normal(init_method_std) which is
+                            torch.nn.init.normal_ with mean=0.0 and std=init_method_Std.
+
+    output_layer_init_method (Callable): Method to initialize weights of the output layer of
+                                         both attention and MLP blocks. Defaults to
+                                         megatron.core.utils.scaled_init_method_normal(init_method_std)
+                                         which is torch.nn.init.normal_ with mean=0.0 and
+                                         std=init_method_std / math.sqrt(2.0 * num_layers).
+
+
+    word_embedding_init_std (float): Standard deviation of the zero mean normal initialization for the word embeddings
+
+    init_method_std (float): Standard deviation of the zero mean normal for the default
+                             initialization method, not used if init_method and
+                             output_layer_init_method are provided. Defaults to 0.02.
+
+    # mixed-precision
+    apply_query_key_layer_scaling (bool): If true, scale Q * K^T by 1 / layer-number. Defaults to True.
+    attention_softmax_in_fp32 (bool): If true, run attention masking and softmax in fp32.
+                                      This should be true if apply_query_key_layer_scaling is true.
+
+    # fusion
+    bias_gelu_fustion (bool): If true, fuses bias and gelu. Defaults to False.
+    masked_softmax_fusion (bool): If true, uses softmax fusion.
+    persist_layer_norm (bool): If true, uses the persistent fused layer norm kernel.
+                               This kernel only supports a fixed set of hidden sizes.
+                               Defaults to False.
+    bias_dropout_fusion (bool): If true, uses bias dropout fusion.
+
+    # activation recomputation
+
+    recompute_granularity (str): megatron-core supports 'selective' activation checkpointing where only the memory
+                                 intensive part of attention is checkpointed.  These memory intensive activations
+                                 are also less compute intensive which makes activation checkpointing more efficient
+                                 for LLMs (20B+).  See Reducing Activation Recomputation in Large Transformer
+                                 Models: https://arxiv.org/abs/2205.05198 for more details.  'full' will checkpoint
+                                 the entire transformer layer.  Must be 'selective' or 'full'. Defaults to None.
+
+    recompute_method (str): uniform will uniformly divide the total number of transformer layers in a transformer
+                            block and recompute the input activation of each divided chunk at the specified
+                            granularity.  block will recompute the input activations for only a set number of
+                            transformer layers per pipeline stage.  The rest of the layers in the pipeline stage
+                            will not have any activations recomputed.  Must be 'uniform' or 'block'. Defaults to
+                            None.
+
+    recompute_num_layers (int): When recompute_method is uniform, recompute_num_layers is the number of transformer
+                                layers in each uniformly divided recompute unit.  When recompute_method is block,
+                                recompute_num_layers is the number of transformer layers to recompute within each
+                                pipeline stage.  Defaults to None.
+
+    distribute_saved_activations (bool): If true, distribute recomputed activations across the model parallel
+                                         group. Defaults to None.
 
     """
 
@@ -126,6 +130,10 @@ class TransformerConfig(ModelParallelConfig):
     output_layer_init_method: Callable = None
     init_method_std: float = 0.02
 
+    adjust_word_embedding_init: bool = False
+    world_embedding_init_method: Callable = None
+    word_embedding_init_std: float = 0.02
+
     # mixed-precision
     apply_query_key_layer_scaling: bool = True
     attention_softmax_in_fp32: bool = True
@@ -145,12 +153,14 @@ class TransformerConfig(ModelParallelConfig):
     distribute_saved_activations: bool = None
 
     def __post_init__(self):
-        """ Python dataclass method that is used to modify attributes after initialization.
-            See https://docs.python.org/3/library/dataclasses.html#post-init-processing for more details.
+        """Python dataclass method that is used to modify attributes after initialization.
+        See https://docs.python.org/3/library/dataclasses.html#post-init-processing for more details.
         """
         super().__post_init__()
         if self.fp16 and self.bf16:
-            raise ValueError(f'Only one of self.fp16: {self.fp16} and self.bf16 {self.bf16} should be True.')
+            raise ValueError(
+                f"Only one of self.fp16: {self.fp16} and self.bf16 {self.bf16} should be True."
+            )
 
         if self.ffn_hidden_size is None:
             self.ffn_hidden_size = 4 * self.hidden_size
@@ -166,34 +176,36 @@ def __post_init__(self):
             self.attention_softmax_in_fp32 = True
 
         if self.recompute_granularity is not None:
-            if not self.recompute_granularity in ['full', 'selective']:
+            if not self.recompute_granularity in ["full", "selective"]:
                 raise ValueError(
                     f'When using recompute_granuarlity: {self.recompute_granularity} must be "full" or "selective".'
                 )
 
             if self.recompute_method is not None:
-                if not self.recompute_method in ['block', 'uniform']:
-                    raise ValueError(f'recompute_method: {self.recompute_method} must be "block" or "uniform".')
-            elif self.recompute_granularity != 'selective':
+                if not self.recompute_method in ["block", "uniform"]:
+                    raise ValueError(
+                        f'recompute_method: {self.recompute_method} must be "block" or "uniform".'
+                    )
+            elif self.recompute_granularity != "selective":
                 raise ValueError(
                     f'Using recompute_granularity: {self.recompute_granularity} so recompute_method must be "block" or "uniform"'
                 )
 
             if self.recompute_num_layers is None:
                 raise ValueError(
-                    f'When using recompute_granularity: {self.recompute_granularity} so recompute_num_layers must be between '
-                    f'1 and num_layers_per_pipeline_rank: {self.num_layers // self.pipeline_model_parallel_size}'
+                    f"When using recompute_granularity: {self.recompute_granularity} so recompute_num_layers must be between "
+                    f"1 and num_layers_per_pipeline_rank: {self.num_layers // self.pipeline_model_parallel_size}"
                 )
 
             if self.distribute_saved_activations and self.sequence_parallel_enabled:
                 raise ValueError(
-                    f'distribute_saved_activations: {self.distribute_saved_activations} must be false when sequence parallel is enabled: {self.sequence_parallel_enabled}'
+                    f"distribute_saved_activations: {self.distribute_saved_activations} must be false when sequence parallel is enabled: {self.sequence_parallel_enabled}"
                 )
 
             if self.virtual_pipeline_model_parallel_size is not None:
                 if not self.num_layers % self.virtual_pipeline_model_parallel_size == 0:
                     raise ValueError(
-                        f'num_layers: {self.num_layers} must be divisible by virtual_model_parallel_size {self.virtual_pipeline_model_parallel_size}'
+                        f"num_layers: {self.num_layers} must be divisible by virtual_model_parallel_size {self.virtual_pipeline_model_parallel_size}"
                     )
 
         if self.apply_query_key_layer_scaling:
@@ -201,14 +213,27 @@ def __post_init__(self):
 
         if self.bias_gelu_fusion:
             if not self.add_bias_linear:
-                raise ValueError("When bias_gelu_fusion is True, add_bias_linear must also be True.")
+                raise ValueError(
+                    "When bias_gelu_fusion is True, add_bias_linear must also be True."
+                )
 
             if self.activation_func != F.gelu:
-                raise ValueError(f'When bias_gelu_fusion is True, activation_func must be F.gelu.')
+                raise ValueError(
+                    f"When bias_gelu_fusion is True, activation_func must be F.gelu."
+                )
 
         if self.init_method is None:
             self.init_method = init_method_normal(self.init_method_std)
 
-        if self.output_layer_init_method is None:
-            self.output_layer_init_method = scaled_init_method_normal(self.init_method_std, self.num_layers)
+        if self.world_embedding_init_method is None:
+            if self.adjust_word_embedding_init:
+                self.world_embedding_init_method = init_method_normal(
+                    self.word_embedding_init_std
+                )
+            else:
+                self.world_embedding_init_method = self.init_method
 
+        if self.output_layer_init_method is None:
+            self.output_layer_init_method = scaled_init_method_normal(
+                self.init_method_std, self.num_layers
+            )
diff --git a/megatron/core/transformer/transformer_layer.py b/megatron/core/transformer/transformer_layer.py
index 19804e4c603..1210bf2bedc 100644
--- a/megatron/core/transformer/transformer_layer.py
+++ b/megatron/core/transformer/transformer_layer.py
@@ -11,6 +11,7 @@
 from megatron.core.utils import make_viewless_tensor
 from megatron.core.transformer.custom_layers.transformer_engine import TELayerNorm
 
+
 class TransformerLayer(MegatronModule):
     """A single transformer layer.
 
@@ -19,7 +20,10 @@ class TransformerLayer(MegatronModule):
     """
 
     def __init__(
-        self, config: TransformerConfig, layer_number: int = 1, self_attn_mask_type=AttnMaskType.padding,
+        self,
+        config: TransformerConfig,
+        layer_number: int = 1,
+        self_attn_mask_type=AttnMaskType.padding,
     ):
         super().__init__(config=config)
         self.config: TransformerConfig = config
@@ -65,13 +69,17 @@ def __init__(
         self.bias_dropout_add_exec_handler = torch.enable_grad
 
         self.bias_dropout_add_func = get_bias_dropout_add(
-            self.training,
-            self.config.bias_dropout_fusion
+            self.training, self.config.bias_dropout_fusion
         )
 
     # TODO: decide how to do inference_params
     def forward(
-        self, hidden_states, attention_mask, encoder_output=None, enc_dec_attn_mask=None, inference_params=None
+        self,
+        hidden_states,
+        attention_mask,
+        encoder_output=None,
+        enc_dec_attn_mask=None,
+        inference_params=None,
     ):
         # hidden_states: [s, b, h]
 
@@ -117,6 +125,8 @@ def forward(
         # won't result in memory savings (like the data loader, or
         # p2p_communication), it serves to document the origin of this
         # 'view' tensor.
-        output = make_viewless_tensor(inp=output, requires_grad=output.requires_grad, keep_graph=True)
+        output = make_viewless_tensor(
+            inp=output, requires_grad=output.requires_grad, keep_graph=True
+        )
 
         return output
diff --git a/megatron/core/transformer/utils.py b/megatron/core/transformer/utils.py
index 481c63331f3..7e45882893e 100644
--- a/megatron/core/transformer/utils.py
+++ b/megatron/core/transformer/utils.py
@@ -8,6 +8,7 @@
 
 from deepspeed.runtime.zero import GatheredParameters
 
+
 def attention_mask_func(attention_scores, attention_mask):
     attention_scores.masked_fill_(attention_mask, -10000.0)
     return attention_scores
@@ -17,10 +18,14 @@ def get_linear_layer(rows, columns, init_method, gather_params_on_init=False):
     """Simple linear layer with weight initialization."""
     layer = torch.nn.Linear(rows, columns)
     if get_args().perform_initialization:
-        with GatheredParameters(layer.weight, modifier_rank=0, enable=gather_params_on_init):
+        with GatheredParameters(
+            layer.weight, modifier_rank=0, enable=gather_params_on_init
+        ):
             init_method(layer.weight)
     with torch.no_grad():
-        with GatheredParameters(layer.weight, modifier_rank=0, enable=gather_params_on_init):
+        with GatheredParameters(
+            layer.weight, modifier_rank=0, enable=gather_params_on_init
+        ):
             layer.bias.zero_()
     return layer
 
@@ -28,7 +33,9 @@ def get_linear_layer(rows, columns, init_method, gather_params_on_init=False):
 @torch.jit.script
 def gelu_impl(x):
     """OpenAI's gelu implementation."""
-    return 0.5 * x * (1.0 + torch.tanh(0.7978845608028654 * x * (1.0 + 0.044715 * x * x)))
+    return (
+        0.5 * x * (1.0 + torch.tanh(0.7978845608028654 * x * (1.0 + 0.044715 * x * x)))
+    )
 
 
 def openai_gelu(x):
@@ -38,4 +45,11 @@ def openai_gelu(x):
 # This is actually Python equivalent of torch.nn.functional.gelu(), also with type hints for ONNX exporter
 @torch.jit.script
 def erf_gelu(x):
-    return x * 0.5 * (torch.erf(x / 1.41421).to(dtype=x.dtype) + torch.ones_like(x).to(dtype=x.dtype))
+    return (
+        x
+        * 0.5
+        * (
+            torch.erf(x / 1.41421).to(dtype=x.dtype)
+            + torch.ones_like(x).to(dtype=x.dtype)
+        )
+    )
diff --git a/megatron/core/utils.py b/megatron/core/utils.py
index e672c376de2..ee20db4ec9c 100644
--- a/megatron/core/utils.py
+++ b/megatron/core/utils.py
@@ -26,33 +26,42 @@ def divide(numerator, denominator):
     ensure_divisibility(numerator, denominator)
     return numerator // denominator
 
+
 def get_attr_wrapped_model(model, attr, allow_none=True):
     """Get an attribute from a wrapped model"""
     if isinstance(model, list):
         raise RuntimeError("_get_attr_wrapped_model given a list of models")
 
     if allow_none:
+
         def condition(model, attr):
             return not hasattr(model, attr)
+
     else:
+
         def condition(model, attr):
             return getattr(model, attr, None) is None
 
     while condition(model, attr):
         if not hasattr(model, "module"):
-            raise RuntimeError(f"_get_attr_wrapped_model couldn't find attribute {attr}")
+            raise RuntimeError(
+                f"_get_attr_wrapped_model couldn't find attribute {attr}"
+            )
 
         model = model.module
     return getattr(model, attr)
 
+
 def get_model_type(model):
-    return get_attr_wrapped_model(model, 'model_type')
+    return get_attr_wrapped_model(model, "model_type")
+
 
 def get_model_config(model):
     args = get_args()
     if args.deepspeed:
-        return get_attr_wrapped_model(model.module, 'config', allow_none=False)
-    return get_attr_wrapped_model(model, 'config', allow_none=False)
+        return get_attr_wrapped_model(model.module, "config", allow_none=False)
+    return get_attr_wrapped_model(model, "config", allow_none=False)
+
 
 class GlobalMemoryBuffer:
     """Global buffer to avoid dynamic memory allocations.
@@ -64,59 +73,67 @@ def __init__(self):
 
     def get_tensor(self, tensor_shape, dtype, name):
         required_len = reduce(operator.mul, tensor_shape, 1)
-        if self.buffer.get((name, dtype), None) is None or \
-                self.buffer[(name, dtype)].numel() < required_len:
-            self.buffer[(name, dtype)] = \
-                torch.empty(required_len,
-                            dtype=dtype,
-                            device=get_accelerator().current_device_name(),
-                            requires_grad=False)
+        if (
+            self.buffer.get((name, dtype), None) is None
+            or self.buffer[(name, dtype)].numel() < required_len
+        ):
+            self.buffer[(name, dtype)] = torch.empty(
+                required_len,
+                dtype=dtype,
+                device=get_accelerator().current_device_name(),
+                requires_grad=False,
+            )
 
         return self.buffer[(name, dtype)][0:required_len].view(*tensor_shape)
 
+
 def _kernel_make_viewless_tensor(inp, requires_grad):
-    '''Make a viewless tensor.
+    """Make a viewless tensor.
 
     View tensors have the undesirable side-affect of retaining a reference
     to the originally-viewed tensor, even after manually setting the '.data'
     field. This method creates a new tensor that links to the old tensor's
     data, without linking the viewed tensor, referenced via the '._base'
     field.
-    '''
+    """
     out = torch.empty(
         (1,),
-        dtype = inp.dtype,
-        device = inp.device,
-        requires_grad = requires_grad,
+        dtype=inp.dtype,
+        device=inp.device,
+        requires_grad=requires_grad,
     )
     out.data = inp.data
     return out
 
+
 class MakeViewlessTensor(torch.autograd.Function):
-    '''
+    """
     Autograd function to make a viewless tensor.
 
     This function should be used in cases where the computation graph needs
     to be propagated, but we only want a viewless tensor (e.g.,
     ParallelTransformer's hidden_states). Call this function by passing
     'keep_graph = True' to 'make_viewless_tensor()'.
-    '''
+    """
+
     @staticmethod
     def forward(ctx, inp, requires_grad):
         return _kernel_make_viewless_tensor(inp, requires_grad)
+
     @staticmethod
     def backward(ctx, grad_output):
         return grad_output, None
 
+
 def make_viewless_tensor(inp, requires_grad, keep_graph):
-    '''
+    """
     Entry-point for creating viewless tensors.
 
     This method should be used, rather than calling 'MakeViewlessTensor'
     or '_kernel_make_viewless_tensor' directly. This method acts as a
     switch for determining if an autograd function or a regular method
     should be used to create the tensor.
-    '''
+    """
 
     # return tensor as-is, if not a 'view'
     if inp._base is None:
@@ -128,11 +145,12 @@ def make_viewless_tensor(inp, requires_grad, keep_graph):
     else:
         return _kernel_make_viewless_tensor(inp, requires_grad)
 
-def assert_viewless_tensor(tensor, extra_msg = None):
-    '''Assert that a tensor is not a view (i.e., its '._base' field is
-    not set).'''
+
+def assert_viewless_tensor(tensor, extra_msg=None):
+    """Assert that a tensor is not a view (i.e., its '._base' field is
+    not set)."""
     if isinstance(tensor, list):
-        [ assert_viewless_tensor(t) for t in tensor ]
+        [assert_viewless_tensor(t) for t in tensor]
         return tensor
     if not isinstance(tensor, torch.Tensor):
         return tensor
@@ -143,15 +161,21 @@ def assert_viewless_tensor(tensor, extra_msg = None):
     ) % extra_msg
     return tensor
 
+
 def safely_set_viewless_tensor_data(tensor, new_data_tensor):
-    '''Safely set tensor's '.data' field.
+    """Safely set tensor's '.data' field.
 
     Check first that the tensor is viewless (i.e., '._base' not set). If not,
     raise an exception.
-    '''
-    assert_viewless_tensor(tensor, extra_msg = "FYI, tensor._base has shape %s, and new_data_tensor has shape %s." % ("--" if tensor._base is None else tensor._base.shape, new_data_tensor.shape))
+    """
+    assert_viewless_tensor(
+        tensor,
+        extra_msg="FYI, tensor._base has shape %s, and new_data_tensor has shape %s."
+        % ("--" if tensor._base is None else tensor._base.shape, new_data_tensor.shape),
+    )
     tensor.data = new_data_tensor
 
+
 def init_method_normal(sigma):
     """Init method based on N(0, sigma)."""
 
diff --git a/megatron/data/autoaugment.py b/megatron/data/autoaugment.py
index 585a4fa6a51..6fa7cdab07e 100644
--- a/megatron/data/autoaugment.py
+++ b/megatron/data/autoaugment.py
@@ -192,9 +192,7 @@ def __init__(
             "translateY": np.linspace(0, 150 / 331, num_levels),
             "rotate": np.linspace(0, 30, num_levels),
             "color": np.linspace(0.0, 0.9, num_levels),
-            "posterize": np.round(np.linspace(8, 4, num_levels), 0).astype(
-                np.int
-            ),
+            "posterize": np.round(np.linspace(8, 4, num_levels), 0).astype(np.int),
             "solarize": np.linspace(256, 0, num_levels),  # range [0, 256]
             "contrast": np.linspace(0.0, 0.9, num_levels),
             "sharpness": np.linspace(0.0, 0.9, num_levels),
@@ -275,21 +273,17 @@ def rotate_with_fill(img, magnitude):
             "color": lambda img, magnitude: ImageEnhance.Color(img).enhance(
                 1 + magnitude * random.choice([-1, 1])
             ),
-            "posterize": lambda img, magnitude: ImageOps.posterize(
-                img, magnitude
+            "posterize": lambda img, magnitude: ImageOps.posterize(img, magnitude),
+            "solarize": lambda img, magnitude: ImageOps.solarize(img, magnitude),
+            "contrast": lambda img, magnitude: ImageEnhance.Contrast(img).enhance(
+                1 + magnitude * random.choice([-1, 1])
             ),
-            "solarize": lambda img, magnitude: ImageOps.solarize(
-                img, magnitude
+            "sharpness": lambda img, magnitude: ImageEnhance.Sharpness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])
+            ),
+            "brightness": lambda img, magnitude: ImageEnhance.Brightness(img).enhance(
+                1 + magnitude * random.choice([-1, 1])
             ),
-            "contrast": lambda img, magnitude: ImageEnhance.Contrast(
-                img
-            ).enhance(1 + magnitude * random.choice([-1, 1])),
-            "sharpness": lambda img, magnitude: ImageEnhance.Sharpness(
-                img
-            ).enhance(1 + magnitude * random.choice([-1, 1])),
-            "brightness": lambda img, magnitude: ImageEnhance.Brightness(
-                img
-            ).enhance(1 + magnitude * random.choice([-1, 1])),
             "autocontrast": lambda img, magnitude: ImageOps.autocontrast(img),
             "equalize": lambda img, magnitude: ImageOps.equalize(img),
             "invert": lambda img, magnitude: ImageOps.invert(img),
diff --git a/megatron/data/bert_dataset.py b/megatron/data/bert_dataset.py
index 93b7c8cd32f..39162101ede 100644
--- a/megatron/data/bert_dataset.py
+++ b/megatron/data/bert_dataset.py
@@ -5,25 +5,31 @@
 import numpy as np
 import torch
 
-from megatron import (
-    get_args,
-    get_tokenizer,
-    mpu,
-    print_rank_0
-)
+from megatron import (get_args, get_tokenizer, mpu, print_rank_0)
 from megatron.data.dataset_utils import (
     get_samples_mapping,
     get_a_and_b_segments,
     truncate_segments,
     create_tokens_and_tokentypes,
-    create_masked_lm_predictions
+    create_masked_lm_predictions,
 )
 
+
 class BertDataset(torch.utils.data.Dataset):
 
-    def __init__(self, name, indexed_dataset, data_prefix,
-                 num_epochs, max_num_samples, masked_lm_prob,
-                 max_seq_length, short_seq_prob, seed, binary_head):
+    def __init__(
+        self,
+        name,
+        indexed_dataset,
+        data_prefix,
+        num_epochs,
+        max_num_samples,
+        masked_lm_prob,
+        max_seq_length,
+        short_seq_prob,
+        seed,
+        binary_head,
+    ):
 
         # Params to store.
         self.name = name
@@ -36,15 +42,17 @@ def __init__(self, name, indexed_dataset, data_prefix,
         self.indexed_dataset = indexed_dataset
 
         # Build the samples mapping.
-        self.samples_mapping = get_samples_mapping(self.indexed_dataset,
-                                                   data_prefix,
-                                                   num_epochs,
-                                                   max_num_samples,
-                                                   self.max_seq_length - 3, # account for added tokens
-                                                   short_seq_prob,
-                                                   self.seed,
-                                                   self.name,
-                                                   self.binary_head)
+        self.samples_mapping = get_samples_mapping(
+            self.indexed_dataset,
+            data_prefix,
+            num_epochs,
+            max_num_samples,
+            self.max_seq_length - 3,  # account for added tokens
+            short_seq_prob,
+            self.seed,
+            self.name,
+            self.binary_head,
+        )
 
         # Vocab stuff.
         tokenizer = get_tokenizer()
@@ -66,26 +74,39 @@ def __getitem__(self, idx):
         # python randint is inclusive whereas the numpy one is exclusive.
         # We % 2**32 since numpy requres the seed to be between 0 and 2**32 - 1
         np_rng = np.random.RandomState(seed=((self.seed + idx) % 2**32))
-        train_sample = build_training_sample(sample, seq_length,
-                                     self.max_seq_length,  # needed for padding
-                                     self.vocab_id_list,
-                                     self.vocab_id_to_token_dict,
-                                     self.cls_id, self.sep_id,
-                                     self.mask_id, self.pad_id,
-                                     self.masked_lm_prob, np_rng,
-                                     self.binary_head)
+        train_sample = build_training_sample(
+            sample,
+            seq_length,
+            self.max_seq_length,  # needed for padding
+            self.vocab_id_list,
+            self.vocab_id_to_token_dict,
+            self.cls_id,
+            self.sep_id,
+            self.mask_id,
+            self.pad_id,
+            self.masked_lm_prob,
+            np_rng,
+            self.binary_head,
+        )
         if args.return_data_index:
-            train_sample['index'] = np.array([idx], dtype=np.int64)
+            train_sample["index"] = np.array([idx], dtype=np.int64)
         return train_sample
 
 
-
-
-def build_training_sample(sample,
-                          target_seq_length, max_seq_length,
-                          vocab_id_list, vocab_id_to_token_dict,
-                          cls_id, sep_id, mask_id, pad_id,
-                          masked_lm_prob, np_rng, binary_head):
+def build_training_sample(
+    sample,
+    target_seq_length,
+    max_seq_length,
+    vocab_id_list,
+    vocab_id_to_token_dict,
+    cls_id,
+    sep_id,
+    mask_id,
+    pad_id,
+    masked_lm_prob,
+    np_rng,
+    binary_head,
+):
     """Biuld training sample.
 
     Arguments:
@@ -112,8 +133,7 @@ def build_training_sample(sample,
 
     # Divide sample into two segments (A and B).
     if binary_head:
-        tokens_a, tokens_b, is_next_random = get_a_and_b_segments(sample,
-                                                                  np_rng)
+        tokens_a, tokens_b, is_next_random = get_a_and_b_segments(sample, np_rng)
     else:
         tokens_a = []
         for j in range(len(sample)):
@@ -123,45 +143,60 @@ def build_training_sample(sample,
 
     # Truncate to `target_sequence_length`.
     max_num_tokens = target_seq_length
-    truncated = truncate_segments(tokens_a, tokens_b, len(tokens_a),
-                                  len(tokens_b), max_num_tokens, np_rng)
+    truncated = truncate_segments(
+        tokens_a, tokens_b, len(tokens_a), len(tokens_b), max_num_tokens, np_rng
+    )
 
     # Build tokens and toketypes.
-    tokens, tokentypes = create_tokens_and_tokentypes(tokens_a, tokens_b,
-                                                      cls_id, sep_id)
+    tokens, tokentypes = create_tokens_and_tokentypes(
+        tokens_a, tokens_b, cls_id, sep_id
+    )
 
     # Masking.
     max_predictions_per_seq = masked_lm_prob * max_num_tokens
     (tokens, masked_positions, masked_labels, _, _) = create_masked_lm_predictions(
-        tokens, vocab_id_list, vocab_id_to_token_dict, masked_lm_prob,
-        cls_id, sep_id, mask_id, max_predictions_per_seq, np_rng)
+        tokens,
+        vocab_id_list,
+        vocab_id_to_token_dict,
+        masked_lm_prob,
+        cls_id,
+        sep_id,
+        mask_id,
+        max_predictions_per_seq,
+        np_rng,
+    )
 
     # Padding.
-    tokens_np, tokentypes_np, labels_np, padding_mask_np, loss_mask_np \
-        = pad_and_convert_to_numpy(tokens, tokentypes, masked_positions,
-                                   masked_labels, pad_id, max_seq_length)
+    tokens_np, tokentypes_np, labels_np, padding_mask_np, loss_mask_np = (
+        pad_and_convert_to_numpy(
+            tokens, tokentypes, masked_positions, masked_labels, pad_id, max_seq_length
+        )
+    )
 
     train_sample = {
-        'text': tokens_np,
-        'types': tokentypes_np,
-        'labels': labels_np,
-        'is_random': int(is_next_random),
-        'loss_mask': loss_mask_np,
-        'padding_mask': padding_mask_np,
-        'truncated': int(truncated)}
+        "text": tokens_np,
+        "types": tokentypes_np,
+        "labels": labels_np,
+        "is_random": int(is_next_random),
+        "loss_mask": loss_mask_np,
+        "padding_mask": padding_mask_np,
+        "truncated": int(truncated),
+    }
     return train_sample
 
 
-def pad_and_convert_to_numpy(tokens, tokentypes, masked_positions,
-                             masked_labels, pad_id, max_seq_length):
+def pad_and_convert_to_numpy(
+    tokens, tokentypes, masked_positions, masked_labels, pad_id, max_seq_length
+):
     """Pad sequences and convert them to numpy."""
 
     # Some checks.
     num_tokens = len(tokens)
     padding_length = max_seq_length - num_tokens
-    assert padding_length >= 0, \
-        f"num_tokens ({num_tokens}) is greater than " \
+    assert padding_length >= 0, (
+        f"num_tokens ({num_tokens}) is greater than "
         "max_seq_length ({max_seq_length})."
+    )
     assert len(tokentypes) == num_tokens
     assert len(masked_positions) == len(masked_labels)
 
@@ -171,8 +206,7 @@ def pad_and_convert_to_numpy(tokens, tokentypes, masked_positions,
     tokentypes_np = np.array(tokentypes + filler, dtype=np.int64)
 
     # Padding mask.
-    padding_mask_np = np.array([1] * num_tokens + [0] * padding_length,
-                               dtype=np.int64)
+    padding_mask_np = np.array([1] * num_tokens + [0] * padding_length, dtype=np.int64)
 
     # Lables and loss mask.
     labels = [-1] * max_seq_length
diff --git a/megatron/data/biencoder_dataset_utils.py b/megatron/data/biencoder_dataset_utils.py
index d4661cd34a2..f196d0efd41 100644
--- a/megatron/data/biencoder_dataset_utils.py
+++ b/megatron/data/biencoder_dataset_utils.py
@@ -6,10 +6,11 @@
 
 from megatron import get_args, get_tokenizer, print_rank_0
 from megatron.core import mpu, tensor_parallel
-from megatron.data.dataset_utils import create_masked_lm_predictions, \
-                                            pad_and_convert_to_numpy
+from megatron.data.dataset_utils import create_masked_lm_predictions, pad_and_convert_to_numpy
 from megatron.data.data_samplers import MegatronPretrainingSampler
 from deepspeed.accelerator import get_accelerator
+
+
 def make_attention_mask(source_block, target_block):
     """
     Returns a 2-dimensional (2-D) attention mask
@@ -21,6 +22,7 @@ def make_attention_mask(source_block, target_block):
     # (source_length, target_length)
     return mask
 
+
 def get_one_epoch_dataloader(dataset, micro_batch_size=None):
     """Specifically one epoch to be used in an indexing job."""
     args = get_args()
@@ -39,18 +41,23 @@ def get_one_epoch_dataloader(dataset, micro_batch_size=None):
         micro_batch_size=args.micro_batch_size,
         data_parallel_rank=mpu.get_data_parallel_rank(),
         data_parallel_size=mpu.get_data_parallel_world_size(),
-        drop_last=False)
+        drop_last=False,
+    )
 
-    return torch.utils.data.DataLoader(dataset,
-                                       batch_sampler=batch_sampler,
-                                       num_workers=num_workers,
-                                       pin_memory=True)
+    return torch.utils.data.DataLoader(
+        dataset, batch_sampler=batch_sampler, num_workers=num_workers, pin_memory=True
+    )
 
 
 def get_ict_batch(data_iterator):
     # Items and their type.
-    keys = ['query_tokens', 'query_mask',
-            'context_tokens', 'context_mask', 'block_data']
+    keys = [
+        "query_tokens",
+        "query_mask",
+        "context_tokens",
+        "context_mask",
+        "block_data",
+    ]
     datatype = torch.int64
 
     # Broadcast data.
@@ -61,14 +68,13 @@ def get_ict_batch(data_iterator):
     data_b = tensor_parallel.broadcast_data(keys, data, datatype)
 
     # Unpack.
-    query_tokens = data_b['query_tokens'].long()
-    query_mask = data_b['query_mask'] < 0.5
-    context_tokens = data_b['context_tokens'].long()
-    context_mask = data_b['context_mask'] < 0.5
-    block_indices = data_b['block_data'].long()
+    query_tokens = data_b["query_tokens"].long()
+    query_mask = data_b["query_mask"] < 0.5
+    context_tokens = data_b["context_tokens"].long()
+    context_mask = data_b["context_mask"] < 0.5
+    block_indices = data_b["block_data"].long()
 
-    return query_tokens, query_mask,\
-           context_tokens, context_mask, block_indices
+    return query_tokens, query_mask, context_tokens, context_mask, block_indices
 
 
 def join_str_list(str_list):
@@ -90,6 +96,7 @@ class BlockSampleData(object):
     :param doc_idx: the index of the document from which the block comes in the original indexed dataset
     :param block_idx: a unique integer identifier given to every block.
     """
+
     def __init__(self, start_idx, end_idx, doc_idx, block_idx):
         self.start_idx = start_idx
         self.end_idx = end_idx
@@ -97,13 +104,16 @@ def __init__(self, start_idx, end_idx, doc_idx, block_idx):
         self.block_idx = block_idx
 
     def as_array(self):
-        return np.array([self.start_idx, self.end_idx, self.doc_idx, self.block_idx]).astype(np.int64)
+        return np.array(
+            [self.start_idx, self.end_idx, self.doc_idx, self.block_idx]
+        ).astype(np.int64)
 
     def as_tuple(self):
         return self.start_idx, self.end_idx, self.doc_idx, self.block_idx
 
 
 class BlockSamplesMapping(object):
+
     def __init__(self, mapping_array):
         # make sure that the array is compatible with BlockSampleData
         assert mapping_array.shape[1] == 4
@@ -118,8 +128,17 @@ def __getitem__(self, idx):
         return sample_data
 
 
-def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epochs,
-                              max_num_samples, max_seq_length, seed, name, use_one_sent_docs=False):
+def get_block_samples_mapping(
+    block_dataset,
+    title_dataset,
+    data_prefix,
+    num_epochs,
+    max_num_samples,
+    max_seq_length,
+    seed,
+    name,
+    use_one_sent_docs=False,
+):
     """Get samples mapping for a dataset over fixed size blocks. This function also requires
     a dataset of the titles for the source documents since their lengths must be taken into account.
 
@@ -128,30 +147,30 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
 
     if not num_epochs:
         if not max_num_samples:
-            raise ValueError("Need to specify either max_num_samples "
-                             "or num_epochs")
+            raise ValueError("Need to specify either max_num_samples " "or num_epochs")
         num_epochs = np.iinfo(np.int32).max - 1
     if not max_num_samples:
         max_num_samples = np.iinfo(np.int64).max - 1
 
     # Filename of the index mapping
     indexmap_filename = data_prefix
-    indexmap_filename += '_{}_indexmap'.format(name)
+    indexmap_filename += "_{}_indexmap".format(name)
     if num_epochs != (np.iinfo(np.int32).max - 1):
-        indexmap_filename += '_{}ep'.format(num_epochs)
+        indexmap_filename += "_{}ep".format(num_epochs)
     if max_num_samples != (np.iinfo(np.int64).max - 1):
-        indexmap_filename += '_{}mns'.format(max_num_samples)
-    indexmap_filename += '_{}msl'.format(max_seq_length)
-    indexmap_filename += '_{}s'.format(seed)
+        indexmap_filename += "_{}mns".format(max_num_samples)
+    indexmap_filename += "_{}msl".format(max_seq_length)
+    indexmap_filename += "_{}s".format(seed)
     if use_one_sent_docs:
-        indexmap_filename += '_1sentok'
-    indexmap_filename += '.npy'
+        indexmap_filename += "_1sentok"
+    indexmap_filename += ".npy"
 
     # Build the indexed mapping if not exist.
-    if mpu.get_data_parallel_rank() == 0 and \
-            not os.path.isfile(indexmap_filename):
-        print(' > WARNING: could not find index map file {}, building '
-              'the indices on rank 0 ...'.format(indexmap_filename))
+    if mpu.get_data_parallel_rank() == 0 and not os.path.isfile(indexmap_filename):
+        print(
+            " > WARNING: could not find index map file {}, building "
+            "the indices on rank 0 ...".format(indexmap_filename)
+        )
 
         # Make sure the types match the helpers input types.
         assert block_dataset.doc_idx.dtype == np.int64
@@ -160,10 +179,10 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
         # Build samples mapping
         verbose = torch.distributed.get_rank() == 0
         start_time = time.time()
-        print_rank_0(' > building samples index mapping for {} ...'.format(
-            name))
+        print_rank_0(" > building samples index mapping for {} ...".format(name))
 
         from megatron.data import helpers
+
         mapping_array = helpers.build_blocks_mapping(
             block_dataset.doc_idx,
             block_dataset.sizes,
@@ -173,17 +192,17 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
             max_seq_length - 3,  # account for added tokens
             seed,
             verbose,
-            use_one_sent_docs)
-
+            use_one_sent_docs,
+        )
 
-        print_rank_0(' > done building samples index mapping')
+        print_rank_0(" > done building samples index mapping")
         np.save(indexmap_filename, mapping_array, allow_pickle=True)
-        print_rank_0(' > saved the index mapping in {}'.format(
-            indexmap_filename))
+        print_rank_0(" > saved the index mapping in {}".format(indexmap_filename))
         # Make sure all the ranks have built the mapping
-        print_rank_0(' > elapsed time to build and save samples mapping '
-                     '(seconds): {:4f}'.format(
-            time.time() - start_time))
+        print_rank_0(
+            " > elapsed time to build and save samples mapping "
+            "(seconds): {:4f}".format(time.time() - start_time)
+        )
 
     # This should be a barrier but nccl barrier assumes
     # device_index=rank which is not the case for model
@@ -191,19 +210,19 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
     counts = get_accelerator().LongTensor([1])
     torch.distributed.all_reduce(counts, group=mpu.get_data_parallel_group())
     assert counts[0].item() == torch.distributed.get_world_size(
-        group=mpu.get_data_parallel_group())
+        group=mpu.get_data_parallel_group()
+    )
 
     # Load indexed dataset.
-    print_rank_0(' > loading indexed mapping from {}'.format(
-        indexmap_filename))
+    print_rank_0(" > loading indexed mapping from {}".format(indexmap_filename))
     start_time = time.time()
 
-    mapping_array = np.load(indexmap_filename, allow_pickle=True, mmap_mode='r')
+    mapping_array = np.load(indexmap_filename, allow_pickle=True, mmap_mode="r")
     samples_mapping = BlockSamplesMapping(mapping_array)
 
-    print_rank_0('    loaded indexed file in {:3.3f} seconds'.format(
-        time.time() - start_time))
-    print_rank_0('    total number of samples: {}'.format(
-        mapping_array.shape[0]))
+    print_rank_0(
+        "    loaded indexed file in {:3.3f} seconds".format(time.time() - start_time)
+    )
+    print_rank_0("    total number of samples: {}".format(mapping_array.shape[0]))
 
     return samples_mapping
diff --git a/megatron/data/blendable_dataset.py b/megatron/data/blendable_dataset.py
old mode 100644
new mode 100755
index f3276c68230..ff7dec96227
--- a/megatron/data/blendable_dataset.py
+++ b/megatron/data/blendable_dataset.py
@@ -6,18 +6,27 @@
 import os
 import time
 
+import logging
 import numpy as np
 import torch
 
 from deepspeed.accelerator import get_accelerator
-from megatron import print_rank_0
+# from megatron import print_rank_0
 from megatron.core import mpu
+from megatron.utils import Profile, PerfTrace
+from mpi4py import MPI
 
-class BlendableDataset(torch.utils.data.Dataset):
+from megatron.utils import get_logger
+
+log = get_logger(__name__, rank_zero_only=True)
 
+dlp = Profile("DATASET")
 
-    def __init__(self, datasets, weights, size, *,
-                 data_cache_path=None):
+
+class BlendableDataset(torch.utils.data.Dataset):
+
+    @dlp.log
+    def __init__(self, datasets, weights, size, *, data_cache_path=None):
 
         self.datasets = datasets
         num_datasets = len(datasets)
@@ -32,17 +41,26 @@ def __init__(self, datasets, weights, size, *,
         weights /= sum_weights
 
         # Build indicies.
+        @dlp.log
         def _build_indices():
-            start_time = time.time()
+            start_time = time.perf_counter()
             dataset_index = np.zeros(self.size, dtype=np.int64)
             dataset_sample_index = np.zeros(self.size, dtype=np.int64)
 
             from megatron.data import helpers
-            helpers.build_blending_indices(dataset_index, dataset_sample_index,
-                                           weights, num_datasets, self.size,
-                                           torch.distributed.get_rank() == 0)
-            print_rank_0('> elapsed time for building blendable dataset indices: '
-                         '{:.2f} (sec)'.format(time.time() - start_time))
+
+            helpers.build_blending_indices(
+                dataset_index,
+                dataset_sample_index,
+                weights,
+                num_datasets,
+                self.size,
+                torch.distributed.get_rank() == 0,
+            )
+            log.info(
+                "> elapsed time for building blendable dataset indices: "
+                f"{time.perf_counter() - start_time:.2f} (sec)"
+            )
             return dataset_index, dataset_sample_index
 
         desc = "Blendable dataset\n\n"
@@ -52,74 +70,98 @@ def _build_indices():
         desc += f"Weights: {weights}\n"
         desc += f"Size: {size}\n"
         self.desc = desc
-
+        self.dataset_index = np.zeros(self.size, dtype=np.int64)
+        self.dataset_sample_index = np.zeros(self.size, dtype=np.int64)
         if data_cache_path:
-            desc_hash = hashlib.md5(desc.encode('utf-8')).hexdigest()
+            desc_hash = hashlib.md5(desc.encode("utf-8")).hexdigest()
             desc_path = os.path.join(data_cache_path, desc_hash + ".dsc")
             index_path = os.path.join(data_cache_path, desc_hash + "_index.npy")
-            sample_index_path = os.path.join(data_cache_path, desc_hash + "_sample_index.npy")
+            sample_index_path = os.path.join(
+                data_cache_path, desc_hash + "_sample_index.npy"
+            )
             cache_hit = os.path.isfile(index_path) and os.path.isfile(sample_index_path)
             cache_success = True
             if torch.distributed.get_rank() == 0 and not cache_hit:
-                print(' > WARNING: could not find index map files for blendable'
-                      ' dataset, building indices on rank 0 ...', flush=True)
+                print(
+                    " > WARNING: could not find index map files for blendable"
+                    " dataset, building indices on rank 0 ...",
+                    flush=True,
+                )
                 dataset_index, dataset_sample_index = _build_indices()
                 try:
+                    log.debug(" > saving index map files")
+                    start_time = time.perf_counter()
                     os.makedirs(os.path.dirname(index_path), exist_ok=True)
-                    with open(desc_path, 'wt') as fd:
+                    with open(desc_path, "wt") as fd:
                         fd.write(desc)
                         np.save(index_path, dataset_index, allow_pickle=True)
-                        np.save(sample_index_path, dataset_sample_index,
-                                allow_pickle=True)
+                        np.save(
+                            sample_index_path, dataset_sample_index, allow_pickle=True
+                        )
+                    log.info(
+                        f" > finished saving index map files in {time.perf_counter() - start_time} seconds"
+                    )
                 except OSError:
-                    print(f'There was an error trying to create the data cache directory ({data_cache_path})')
-                    print('or a file in it. This is set with the --data-cache-path argument. Please')
-                    print('ensure you have write access to this directory or specify one that you do have')
-                    print('write access to.')
+                    print(
+                        f"There was an error trying to create the data cache directory ({data_cache_path})"
+                    )
+                    print(
+                        "or a file in it. This is set with the --data-cache-path argument. Please"
+                    )
+                    print(
+                        "ensure you have write access to this directory or specify one that you do have"
+                    )
+                    print("write access to.")
                     cache_success = False
-
-
+                self.dataset_index = dataset_index
+                self.dataset_sample_index = dataset_sample_index
+            """ I don't think the following piece of code is necessary any more; I commented them out now
             counts = get_accelerator().LongTensor([cache_success])
             torch.distributed.all_reduce(counts, group=mpu.get_data_parallel_group())
             torch.distributed.all_reduce(counts, group=mpu.get_pipeline_model_parallel_group())
             if counts[0].item() != (
-                torch.distributed.get_world_size() //
-                torch.distributed.get_world_size(group=mpu.get_tensor_model_parallel_group()) //
-                torch.distributed.get_world_size(group=mpu.get_sequence_parallel_group())):
-                print_rank_0("Data index creation unsuccessful, exiting.")
+                    torch.distributed.get_world_size() //
+                    torch.distributed.get_world_size(group=mpu.get_tensor_model_parallel_group()) //
+                    torch.distributed.get_world_size(group=mpu.get_sequence_parallel_group())):
+                log.info("Data index creation unsuccessful, exiting.")
                 exit()
-
-            # Load on all ranks.
-            print_rank_0(f'> loading blendable dataset index: {index_path}')
-            self.dataset_index = np.load(index_path, allow_pickle=True, mmap_mode='r')
+            """
+            torch.distributed.barrier(group=mpu.get_data_parallel_group())
+            torch.distributed.barrier(group=mpu.get_pipeline_model_parallel_group())
+            torch.distributed.barrier(group=mpu.get_data_parallel_group())
+
+            start_time = time.perf_counter()
+            log.info(f"> loading blendable dataset index: {index_path}")
+            self.dataset_index = np.load(index_path, allow_pickle=True, mmap_mode="r")
             assert self.dataset_index.size == self.size
-
-            print_rank_0(f'> loading blendable dataset sample index: {sample_index_path}')
-            self.dataset_sample_index = np.load(sample_index_path, allow_pickle=True, mmap_mode='r')
+            log.info(f"> loading blendable dataset sample index: {sample_index_path}")
+            self.dataset_sample_index = np.load(
+                sample_index_path, allow_pickle=True, mmap_mode="r"
+            )
             assert self.dataset_sample_index.size == self.size
+            log.info(
+                f"> finished loading in {time.perf_counter() - start_time} seconds"
+            )
         else:
             self.dataset_index, self.dataset_sample_index = _build_indices()
 
-
         # Check size
         _ = self.__getitem__(self.size - 1)
         try:
             _ = self.__getitem__(self.size)
-            raise RuntimeError('BlendedDataset size is improperly bounded')
+            raise RuntimeError("BlendedDataset size is improperly bounded")
         except IndexError:
             pass
-        print_rank_0('> size of blendable dataset: '
-                     '{} samples'.format(self.size))
-
+        log.info("> size of blendable dataset: " "{} samples".format(self.size))
 
     def __len__(self):
         return self.size
 
-
+    @dlp.log
     def __getitem__(self, idx):
         dataset_idx = self.dataset_index[idx]
         sample_idx = self.dataset_sample_index[idx]
         return {
-            "dataset_idx" : dataset_idx,
+            "dataset_idx": dataset_idx,
             **self.datasets[dataset_idx][sample_idx],
         }
diff --git a/megatron/data/data_samplers.py b/megatron/data/data_samplers.py
index 8eb2f2a6687..09fb1341c63 100644
--- a/megatron/data/data_samplers.py
+++ b/megatron/data/data_samplers.py
@@ -2,7 +2,6 @@
 
 """Dataloaders."""
 
-
 import random
 import torch
 import numpy as np
@@ -20,14 +19,15 @@ def build_pretraining_data_loader(dataset, consumed_samples):
     args = get_args()
 
     # Megatron sampler
-    if args.dataloader_type == 'single':
+    if args.dataloader_type == "single":
         batch_sampler = MegatronPretrainingSampler(
             total_samples=len(dataset),
             consumed_samples=consumed_samples,
             micro_batch_size=args.micro_batch_size,
             data_parallel_rank=mpu.get_data_parallel_rank(),
-            data_parallel_size=mpu.get_data_parallel_world_size())
-    elif args.dataloader_type == 'cyclic':
+            data_parallel_size=mpu.get_data_parallel_world_size(),
+        )
+    elif args.dataloader_type == "cyclic":
         batch_sampler = MegatronPretrainingRandomSampler(
             dataset,
             total_samples=len(dataset),
@@ -35,10 +35,12 @@ def build_pretraining_data_loader(dataset, consumed_samples):
             micro_batch_size=args.micro_batch_size,
             data_parallel_rank=mpu.get_data_parallel_rank(),
             data_parallel_size=mpu.get_data_parallel_world_size(),
-            data_sharding=args.data_sharding)
+            data_sharding=args.data_sharding,
+        )
     else:
-        raise Exception('{} dataloader type is not supported.'.format(
-                args.dataloader_type))
+        raise Exception(
+            "{} dataloader type is not supported.".format(args.dataloader_type)
+        )
 
     # Torch dataloader.
     loader = torch.utils.data.DataLoader(
@@ -46,36 +48,48 @@ def build_pretraining_data_loader(dataset, consumed_samples):
         batch_sampler=batch_sampler,
         num_workers=args.num_workers,
         pin_memory=True,
-        # multiprocessing_context='spawn'
+        multiprocessing_context=(
+            args.multiprocessing_context if args.num_workers > 0 else None
+        ),
     )
     if args.repeated_dataloader:
-        loader=RepeatingLoader(loader)
+        loader = RepeatingLoader(loader)
     return loader
 
+
 class MegatronPretrainingSampler:
 
-    def __init__(self, total_samples, consumed_samples, micro_batch_size,
-                 data_parallel_rank, data_parallel_size, drop_last=True):
+    def __init__(
+        self,
+        total_samples,
+        consumed_samples,
+        micro_batch_size,
+        data_parallel_rank,
+        data_parallel_size,
+        drop_last=True,
+    ):
         # Keep a copy of input params for later use.
         self.total_samples = total_samples
         self.consumed_samples = consumed_samples
         self.micro_batch_size = micro_batch_size
         self.data_parallel_rank = data_parallel_rank
-        self.micro_batch_times_data_parallel_size = \
+        self.micro_batch_times_data_parallel_size = (
             self.micro_batch_size * data_parallel_size
+        )
         self.drop_last = drop_last
 
         # Sanity checks.
-        assert self.total_samples > 0, \
-            'no sample to consume: {}'.format(self.total_samples)
-        assert self.consumed_samples < self.total_samples, \
-            'no samples left to consume: {}, {}'.format(self.consumed_samples,
-                                                        self.total_samples)
+        assert self.total_samples > 0, f"no sample to consume: {self.total_samples}"
+        assert self.consumed_samples < self.total_samples, (
+            "no samples left to consume: "
+            f"{self.consumed_samples}, {self.total_samples}"
+        )
         assert self.micro_batch_size > 0
         assert data_parallel_size > 0
-        assert self.data_parallel_rank < data_parallel_size, \
-            'data_parallel_rank should be smaller than data size: {}, ' \
-            '{}'.format(self.data_parallel_rank, data_parallel_size)
+        assert self.data_parallel_rank < data_parallel_size, (
+            f"data_parallel_rank should be smaller than data size: "
+            f"{self.data_parallel_rank}, {data_parallel_size}"
+        )
 
     def __len__(self):
         return self.total_samples
@@ -125,8 +139,16 @@ def __getitem__(self, idx):
 
 class MegatronPretrainingRandomSampler:
 
-    def __init__(self, dataset, total_samples, consumed_samples, micro_batch_size,
-                 data_parallel_rank, data_parallel_size, data_sharding):
+    def __init__(
+        self,
+        dataset,
+        total_samples,
+        consumed_samples,
+        micro_batch_size,
+        data_parallel_rank,
+        data_parallel_size,
+        data_sharding,
+    ):
         # Keep a copy of input params for later use.
         self.dataset = dataset
         self.total_samples = total_samples
@@ -135,19 +157,21 @@ def __init__(self, dataset, total_samples, consumed_samples, micro_batch_size,
         self.data_parallel_rank = data_parallel_rank
         self.data_parallel_size = data_parallel_size
         self.data_sharding = data_sharding
-        self.micro_batch_times_data_parallel_size = \
+        self.micro_batch_times_data_parallel_size = (
             self.micro_batch_size * data_parallel_size
-        self.last_batch_size = \
+        )
+        self.last_batch_size = (
             self.total_samples % self.micro_batch_times_data_parallel_size
+        )
 
         # Sanity checks.
-        assert self.total_samples > 0, \
-            'no sample to consume: {}'.format(self.total_samples)
+        assert self.total_samples > 0, f"no sample to consume: {self.total_samples}"
         assert self.micro_batch_size > 0
         assert data_parallel_size > 0
-        assert self.data_parallel_rank < data_parallel_size, \
-            'data_parallel_rank should be smaller than data size: {}, ' \
-            '{}'.format(self.data_parallel_rank, data_parallel_size)
+        assert self.data_parallel_rank < data_parallel_size, (
+            f"data_parallel_rank should be smaller than data size: "
+            f"{self.data_parallel_rank}, {data_parallel_size}"
+        )
 
     def __len__(self):
         return self.total_samples
@@ -163,25 +187,27 @@ def __iter__(self):
 
         # data sharding and random sampling
         if self.data_sharding:
-            bucket_size = (self.total_samples // self.micro_batch_times_data_parallel_size) \
-                           * self.micro_batch_size
+            bucket_size = self.micro_batch_size * (
+                self.total_samples // self.micro_batch_times_data_parallel_size
+            )
             bucket_offset = current_epoch_samples // self.data_parallel_size
             start_idx = self.data_parallel_rank * bucket_size
-            
             g = torch.Generator()
             g.manual_seed(self.epoch)
             random_idx = torch.randperm(bucket_size, generator=g).tolist()
             idx_range = [start_idx + x for x in random_idx[bucket_offset:]]
         else:
-            full_bucket_size = (self.total_samples // self.micro_batch_size) \
-                                * self.micro_batch_size
+            full_bucket_size = self.micro_batch_size * (
+                self.total_samples // self.micro_batch_size
+            )
             full_bucket_offset = current_epoch_samples
             g = torch.Generator()
             g.manual_seed(self.epoch)
-            idx_range_total = \
-                torch.randperm(full_bucket_size, generator=g).tolist()
+            idx_range_total = torch.randperm(full_bucket_size, generator=g).tolist()
             idx_range_active = idx_range_total[full_bucket_offset:]
-            idx_range = idx_range_active[self.data_parallel_rank::self.data_parallel_size]
+            idx_range = idx_range_active[
+                self.data_parallel_rank :: self.data_parallel_size
+            ]
 
         batch = []
         # Last batch if not complete will be dropped.
diff --git a/megatron/data/dataset_utils.py b/megatron/data/dataset_utils.py
index cadca053cf5..44869f11ddc 100644
--- a/megatron/data/dataset_utils.py
+++ b/megatron/data/dataset_utils.py
@@ -26,33 +26,48 @@
 import numpy as np
 import torch
 
-from megatron import (
-    get_args,
-    print_rank_0
-)
+from megatron import (get_args, print_rank_0)
 from megatron.core import mpu
 from megatron.data.blendable_dataset import BlendableDataset
 from megatron.data.indexed_dataset import make_dataset as make_indexed_dataset
 from deepspeed.accelerator import get_accelerator
-DSET_TYPE_BERT = 'standard_bert'
-DSET_TYPE_ICT = 'ict'
-DSET_TYPE_T5  = 't5'
+
+DSET_TYPE_BERT = "standard_bert"
+DSET_TYPE_ICT = "ict"
+DSET_TYPE_T5 = "t5"
 
 DSET_TYPES = [DSET_TYPE_BERT, DSET_TYPE_ICT, DSET_TYPE_T5]
 
 
-def get_datasets_weights_and_num_samples(data_prefix,
-                                         train_valid_test_num_samples):
+def get_datasets_corpuses_weights_and_num_samples(
+    data_prefix, train_valid_test_num_samples
+):
+    assert len(data_prefix) % 3 == 0
+    num_datasets = len(data_prefix) // 3
+    data_new_prefix = []
+    corpuses = []
+    for i in range(num_datasets):
+        data_new_prefix += [data_prefix[3 * i], data_prefix[3 * i + 1]]
+        corpuses.append(data_prefix[3 * i + 2])
+    prefixes, weights, datasets_train_valid_test_num_samples = (
+        get_datasets_weights_and_num_samples(
+            data_new_prefix, train_valid_test_num_samples
+        )
+    )
+    return prefixes, corpuses, weights, datasets_train_valid_test_num_samples
+
+
+def get_datasets_weights_and_num_samples(data_prefix, train_valid_test_num_samples):
 
     # The data prefix should be in the format of:
     #   weight-1, data-prefix-1, weight-2, data-prefix-2, ..
     assert len(data_prefix) % 2 == 0
     num_datasets = len(data_prefix) // 2
-    weights = [0]*num_datasets
-    prefixes = [0]*num_datasets
+    weights = [0] * num_datasets
+    prefixes = [0] * num_datasets
     for i in range(num_datasets):
-        weights[i] = float(data_prefix[2*i])
-        prefixes[i] = (data_prefix[2*i+1]).strip()
+        weights[i] = float(data_prefix[2 * i])
+        prefixes[i] = (data_prefix[2 * i + 1]).strip()
     # Normalize weights
     weight_sum = 0.0
     for weight in weights:
@@ -67,14 +82,18 @@ def get_datasets_weights_and_num_samples(data_prefix,
         datasets_train_valid_test_num_samples = []
         for weight in weights:
             datasets_train_valid_test_num_samples.append(
-                [int(math.ceil(val * weight * 1.005))
-                for val in train_valid_test_num_samples])
+                [
+                    int(math.ceil(val * weight * 1.005))
+                    for val in train_valid_test_num_samples
+                ]
+            )
     else:
         # Used when separate dataset files are provided for train,
         # valid and test
         datasets_train_valid_test_num_samples = [
             int(math.ceil(train_valid_test_num_samples * weight * 1.005))
-            for weight in weights]
+            for weight in weights
+        ]
 
     return prefixes, weights, datasets_train_valid_test_num_samples
 
@@ -84,11 +103,13 @@ def compile_helper():
     is invoked on a single process."""
     import os
     import subprocess
+
     path = os.path.abspath(os.path.dirname(__file__))
-    ret = subprocess.run(['make', '-C', path])
+    ret = subprocess.run(["make", "-C", path])
     if ret.returncode != 0:
         print("Making C++ dataset helpers module failed, exiting.")
         import sys
+
         sys.exit(1)
 
 
@@ -98,7 +119,7 @@ def get_a_and_b_segments(sample, np_rng):
     # Number of sentences in the sample.
     n_sentences = len(sample)
     # Make sure we always have two sentences.
-    assert n_sentences > 1, 'make sure each sample has at least two sentences.'
+    assert n_sentences > 1, "make sure each sample has at least two sentences."
 
     # First part:
     # `a_end` is how many sentences go into the `A`.
@@ -126,7 +147,7 @@ def get_a_and_b_segments(sample, np_rng):
 
 def truncate_segments(tokens_a, tokens_b, len_a, len_b, max_num_tokens, np_rng):
     """Truncates a pair of sequences to a maximum sequence length."""
-    #print(len_a, len_b, max_num_tokens)
+    # print(len_a, len_b, max_num_tokens)
     assert len_a > 0
     if len_a + len_b <= max_num_tokens:
         return False
@@ -171,8 +192,7 @@ def create_tokens_and_tokentypes(tokens_a, tokens_b, cls_id, sep_id):
     return tokens, tokentypes
 
 
-MaskedLmInstance = collections.namedtuple("MaskedLmInstance",
-                                          ["index", "label"])
+MaskedLmInstance = collections.namedtuple("MaskedLmInstance", ["index", "label"])
 
 
 def is_start_piece(piece):
@@ -184,18 +204,23 @@ def is_start_piece(piece):
     return not piece.startswith("##")
 
 
-def create_masked_lm_predictions(tokens,
-                                 vocab_id_list, vocab_id_to_token_dict,
-                                 masked_lm_prob,
-                                 cls_id, sep_id, mask_id,
-                                 max_predictions_per_seq,
-                                 np_rng,
-                                 max_ngrams=3,
-                                 do_whole_word_mask=True,
-                                 favor_longer_ngram=False,
-                                 do_permutation=False,
-                                 geometric_dist=False,
-                                 masking_style="bert"):
+def create_masked_lm_predictions(
+    tokens,
+    vocab_id_list,
+    vocab_id_to_token_dict,
+    masked_lm_prob,
+    cls_id,
+    sep_id,
+    mask_id,
+    max_predictions_per_seq,
+    np_rng,
+    max_ngrams=3,
+    do_whole_word_mask=True,
+    favor_longer_ngram=False,
+    do_permutation=False,
+    geometric_dist=False,
+    masking_style="bert",
+):
     """Creates the predictions for the masked LM objective.
     Note: Tokens here are vocab ids and not text tokens."""
 
@@ -205,7 +230,7 @@ def create_masked_lm_predictions(tokens,
     # on-the-fly whole word masking is possible.
     token_boundary = [0] * len(tokens)
 
-    for (i, token) in enumerate(tokens):
+    for i, token in enumerate(tokens):
         if token == cls_id or token == sep_id:
             token_boundary[i] = 1
             continue
@@ -215,8 +240,11 @@ def create_masked_lm_predictions(tokens,
         # Note that Whole Word Masking does *not* change the training code
         # at all -- we still predict each WordPiece independently, softmaxed
         # over the entire vocabulary.
-        if (do_whole_word_mask and len(cand_indexes) >= 1 and
-                not is_start_piece(vocab_id_to_token_dict[token])):
+        if (
+            do_whole_word_mask
+            and len(cand_indexes) >= 1
+            and not is_start_piece(vocab_id_to_token_dict[token])
+        ):
             cand_indexes[-1].append(i)
         else:
             cand_indexes.append([i])
@@ -229,17 +257,23 @@ def create_masked_lm_predictions(tokens,
     masked_lm_labels = []
 
     if masked_lm_prob == 0:
-        return (output_tokens, masked_lm_positions,
-                masked_lm_labels, token_boundary, None)
-
-    num_to_predict = min(max_predictions_per_seq,
-                         max(1, int(round(len(tokens) * masked_lm_prob))))
+        return (
+            output_tokens,
+            masked_lm_positions,
+            masked_lm_labels,
+            token_boundary,
+            None,
+        )
+
+    num_to_predict = min(
+        max_predictions_per_seq, max(1, int(round(len(tokens) * masked_lm_prob)))
+    )
 
     ngrams = np.arange(1, max_ngrams + 1, dtype=np.int64)
     if not geometric_dist:
         # Note(mingdachen):
         # By default, we set the probilities to favor shorter ngram sequences.
-        pvals = 1. / np.arange(1, max_ngrams + 1)
+        pvals = 1.0 / np.arange(1, max_ngrams + 1)
         pvals /= pvals.sum(keepdims=True)
         if favor_longer_ngram:
             pvals = pvals[::-1]
@@ -248,7 +282,7 @@ def create_masked_lm_predictions(tokens,
     for idx in range(len(cand_indexes)):
         ngram_index = []
         for n in ngrams:
-            ngram_index.append(cand_indexes[idx:idx + n])
+            ngram_index.append(cand_indexes[idx : idx + n])
         ngram_indexes.append(ngram_index)
 
     np_rng.shuffle(ngram_indexes)
@@ -268,9 +302,11 @@ def create_masked_lm_predictions(tokens,
                     continue
 
         if not geometric_dist:
-            n = np_rng.choice(ngrams[:len(cand_index_set)],
-                              p=pvals[:len(cand_index_set)] /
-                              pvals[:len(cand_index_set)].sum(keepdims=True))
+            n = np_rng.choice(
+                ngrams[: len(cand_index_set)],
+                p=pvals[: len(cand_index_set)]
+                / pvals[: len(cand_index_set)].sum(keepdims=True),
+            )
         else:
             # Sampling "n" from the geometric distribution and clipping it to
             # the max_ngrams. Using p=0.2 default from the SpanBERT paper
@@ -311,7 +347,9 @@ def create_masked_lm_predictions(tokens,
                         masked_token = tokens[index]
                     # 10% of the time, replace with random word
                     else:
-                        masked_token = vocab_id_list[np_rng.randint(0, len(vocab_id_list))]
+                        masked_token = vocab_id_list[
+                            np_rng.randint(0, len(vocab_id_list))
+                        ]
             elif masking_style == "t5":
                 masked_token = mask_id
             else:
@@ -320,9 +358,11 @@ def create_masked_lm_predictions(tokens,
             output_tokens[index] = masked_token
             masked_lms.append(MaskedLmInstance(index=index, label=tokens[index]))
 
-        masked_spans.append(MaskedLmInstance(
-            index=index_set,
-            label=[tokens[index] for index in index_set]))
+        masked_spans.append(
+            MaskedLmInstance(
+                index=index_set, label=[tokens[index] for index in index_set]
+            )
+        )
 
     assert len(masked_lms) <= num_to_predict
     np_rng.shuffle(ngram_indexes)
@@ -341,9 +381,11 @@ def create_masked_lm_predictions(tokens,
                     if index in covered_indexes or index in select_indexes:
                         continue
 
-            n = np.random.choice(ngrams[:len(cand_index_set)],
-                                 p=pvals[:len(cand_index_set)] /
-                                 pvals[:len(cand_index_set)].sum(keepdims=True))
+            n = np.random.choice(
+                ngrams[: len(cand_index_set)],
+                p=pvals[: len(cand_index_set)]
+                / pvals[: len(cand_index_set)].sum(keepdims=True),
+            )
             index_set = sum(cand_index_set[n - 1], [])
             n -= 1
 
@@ -383,11 +425,18 @@ def create_masked_lm_predictions(tokens,
     for p in masked_lms:
         masked_lm_positions.append(p.index)
         masked_lm_labels.append(p.label)
-    return (output_tokens, masked_lm_positions, masked_lm_labels, token_boundary, masked_spans)
+    return (
+        output_tokens,
+        masked_lm_positions,
+        masked_lm_labels,
+        token_boundary,
+        masked_spans,
+    )
 
 
-def pad_and_convert_to_numpy(tokens, tokentypes, masked_positions,
-                             masked_labels, pad_id, max_seq_length):
+def pad_and_convert_to_numpy(
+    tokens, tokentypes, masked_positions, masked_labels, pad_id, max_seq_length
+):
     """Pad sequences and convert them to numpy."""
 
     # Some checks.
@@ -403,8 +452,7 @@ def pad_and_convert_to_numpy(tokens, tokentypes, masked_positions,
     tokentypes_np = np.array(tokentypes + filler, dtype=np.int64)
 
     # Padding mask.
-    padding_mask_np = np.array([1] * num_tokens + [0] * padding_length,
-                               dtype=np.int64)
+    padding_mask_np = np.array([1] * num_tokens + [0] * padding_length, dtype=np.int64)
 
     # Lables and loss mask.
     labels = [-1] * max_seq_length
@@ -419,32 +467,44 @@ def pad_and_convert_to_numpy(tokens, tokentypes, masked_positions,
     return tokens_np, tokentypes_np, labels_np, padding_mask_np, loss_mask_np
 
 
-def build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
-                                    train_valid_test_num_samples,
-                                    max_seq_length,
-                                    masked_lm_prob, short_seq_prob, seed,
-                                    skip_warmup, binary_head=False,
-                                    max_seq_length_dec=None,
-                                    dataset_type='standard_bert'):
+def build_train_valid_test_datasets(
+    data_prefix,
+    data_impl,
+    splits_string,
+    train_valid_test_num_samples,
+    max_seq_length,
+    masked_lm_prob,
+    short_seq_prob,
+    seed,
+    skip_warmup,
+    binary_head=False,
+    max_seq_length_dec=None,
+    dataset_type="standard_bert",
+):
 
     if len(data_prefix) == 1:
-        return _build_train_valid_test_datasets(data_prefix[0],
-                                                data_impl, splits_string,
-                                                train_valid_test_num_samples,
-                                                max_seq_length, masked_lm_prob,
-                                                short_seq_prob, seed,
-                                                skip_warmup,
-                                                binary_head,
-                                                max_seq_length_dec,
-                                                dataset_type=dataset_type)
+        return _build_train_valid_test_datasets(
+            data_prefix[0],
+            data_impl,
+            splits_string,
+            train_valid_test_num_samples,
+            max_seq_length,
+            masked_lm_prob,
+            short_seq_prob,
+            seed,
+            skip_warmup,
+            binary_head,
+            max_seq_length_dec,
+            dataset_type=dataset_type,
+        )
     # Blending dataset.
     # Parse the values.
-    output = get_datasets_weights_and_num_samples(data_prefix,
-                                                  train_valid_test_num_samples)
+    output = get_datasets_weights_and_num_samples(
+        data_prefix, train_valid_test_num_samples
+    )
     prefixes, weights, datasets_train_valid_test_num_samples = output
     train_num_samples, valid_num_samples, test_num_samples = map(
-        sum,
-        zip(*datasets_train_valid_test_num_samples)
+        sum, zip(*datasets_train_valid_test_num_samples)
     )
 
     # Build individual datasets.
@@ -453,11 +513,19 @@ def build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
     test_datasets = []
     for i in range(len(prefixes)):
         train_ds, valid_ds, test_ds = _build_train_valid_test_datasets(
-            prefixes[i], data_impl, splits_string,
+            prefixes[i],
+            data_impl,
+            splits_string,
             datasets_train_valid_test_num_samples[i],
-            max_seq_length, masked_lm_prob, short_seq_prob,
-            seed, skip_warmup, binary_head, max_seq_length_dec,
-            dataset_type=dataset_type)
+            max_seq_length,
+            masked_lm_prob,
+            short_seq_prob,
+            seed,
+            skip_warmup,
+            binary_head,
+            max_seq_length_dec,
+            dataset_type=dataset_type,
+        )
         if train_ds:
             train_datasets.append(train_ds)
         if valid_ds:
@@ -468,39 +536,49 @@ def build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
     # Blend.
     blending_train_dataset = None
     if train_datasets:
-        blending_train_dataset = BlendableDataset(train_datasets, weights, train_num_samples)
+        blending_train_dataset = BlendableDataset(
+            train_datasets, weights, train_num_samples
+        )
     blending_valid_dataset = None
     if valid_datasets:
-        blending_valid_dataset = BlendableDataset(valid_datasets, weights, valid_num_samples)
+        blending_valid_dataset = BlendableDataset(
+            valid_datasets, weights, valid_num_samples
+        )
     blending_test_dataset = None
     if test_datasets:
-        blending_test_dataset = BlendableDataset(test_datasets, weights, test_num_samples)
-
-    return (blending_train_dataset, blending_valid_dataset,
-            blending_test_dataset)
-
-
-def _build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
-                                     train_valid_test_num_samples,
-                                     max_seq_length,
-                                     masked_lm_prob, short_seq_prob, seed,
-                                     skip_warmup, binary_head,
-                                     max_seq_length_dec,
-                                     dataset_type='standard_bert'):
+        blending_test_dataset = BlendableDataset(
+            test_datasets, weights, test_num_samples
+        )
+
+    return (blending_train_dataset, blending_valid_dataset, blending_test_dataset)
+
+
+def _build_train_valid_test_datasets(
+    data_prefix,
+    data_impl,
+    splits_string,
+    train_valid_test_num_samples,
+    max_seq_length,
+    masked_lm_prob,
+    short_seq_prob,
+    seed,
+    skip_warmup,
+    binary_head,
+    max_seq_length_dec,
+    dataset_type="standard_bert",
+):
 
     if dataset_type not in DSET_TYPES:
         raise ValueError("Invalid dataset_type: ", dataset_type)
 
     # Indexed dataset.
-    indexed_dataset = get_indexed_dataset_(data_prefix,
-                                           data_impl,
-                                           skip_warmup)
+    indexed_dataset = get_indexed_dataset_(data_prefix, data_impl, skip_warmup)
 
     if dataset_type == DSET_TYPE_ICT:
         args = get_args()
-        title_dataset = get_indexed_dataset_(args.titles_data_path,
-                                             data_impl,
-                                             skip_warmup)
+        title_dataset = get_indexed_dataset_(
+            args.titles_data_path, data_impl, skip_warmup
+        )
 
     # Get start and end indices of train/valid/train into doc-idx
     # Note that doc-idx is desinged to be num-docs + 1 so we can
@@ -509,26 +587,32 @@ def _build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
     splits = get_train_valid_test_split_(splits_string, total_num_of_documents)
 
     # Print stats about the splits.
-    print_rank_0(' > dataset split:')
+    print_rank_0(" > dataset split:")
 
     def print_split_stats(name, index):
-        print_rank_0('    {}:'.format(name))
-        print_rank_0('     document indices in [{}, {}) total of {} '
-                     'documents'.format(splits[index], splits[index + 1],
-                                        splits[index + 1] - splits[index]))
+        print_rank_0("    {}:".format(name))
+        print_rank_0(
+            "     document indices in [{}, {}) total of {} "
+            "documents".format(
+                splits[index], splits[index + 1], splits[index + 1] - splits[index]
+            )
+        )
         start_index = indexed_dataset.doc_idx[splits[index]]
         end_index = indexed_dataset.doc_idx[splits[index + 1]]
-        print_rank_0('     sentence indices in [{}, {}) total of {} '
-                     'sentences'.format(start_index, end_index,
-                                        end_index - start_index))
-    print_split_stats('train', 0)
-    print_split_stats('validation', 1)
-    print_split_stats('test', 2)
+        print_rank_0(
+            "     sentence indices in [{}, {}) total of {} "
+            "sentences".format(start_index, end_index, end_index - start_index)
+        )
+
+    print_split_stats("train", 0)
+    print_split_stats("validation", 1)
+    print_split_stats("test", 2)
 
     def build_dataset(index, name):
         from megatron.data.bert_dataset import BertDataset
         from megatron.data.ict_dataset import ICTDataset
         from megatron.data.t5_dataset import T5Dataset
+
         dataset = None
         if splits[index + 1] > splits[index]:
             # Get the pointer to the original doc-idx so we can set it later.
@@ -582,58 +666,56 @@ def build_dataset(index, name):
             indexed_dataset.set_doc_idx(doc_idx_ptr)
             # Checks.
             assert indexed_dataset.doc_idx[0] == 0
-            assert indexed_dataset.doc_idx.shape[0] == \
-                (total_num_of_documents + 1)
+            assert indexed_dataset.doc_idx.shape[0] == (total_num_of_documents + 1)
         return dataset
 
-    train_dataset = build_dataset(0, 'train')
-    valid_dataset = build_dataset(1, 'valid')
-    test_dataset = build_dataset(2, 'test')
+    train_dataset = build_dataset(0, "train")
+    valid_dataset = build_dataset(1, "valid")
+    test_dataset = build_dataset(2, "test")
 
     return (train_dataset, valid_dataset, test_dataset)
 
 
 def get_indexed_dataset_(data_prefix, data_impl, skip_warmup):
 
-    print_rank_0(' > building dataset index ...')
+    print_rank_0(" > building dataset index ...")
 
     start_time = time.time()
-    indexed_dataset = make_indexed_dataset(data_prefix,
-                                           data_impl,
-                                           skip_warmup)
+    indexed_dataset = make_indexed_dataset(data_prefix, data_impl, skip_warmup)
     assert indexed_dataset.sizes.shape[0] == indexed_dataset.doc_idx[-1]
-    print_rank_0(' > finished creating indexed dataset in {:4f} '
-                 'seconds'.format(time.time() - start_time))
+    print_rank_0(
+        " > finished creating indexed dataset in {:4f} "
+        "seconds".format(time.time() - start_time)
+    )
 
-    print_rank_0(' > indexed dataset stats:')
-    print_rank_0('    number of documents: {}'.format(
-        indexed_dataset.doc_idx.shape[0] - 1))
-    print_rank_0('    number of sentences: {}'.format(
-        indexed_dataset.sizes.shape[0]))
+    print_rank_0(" > indexed dataset stats:")
+    print_rank_0(
+        "    number of documents: {}".format(indexed_dataset.doc_idx.shape[0] - 1)
+    )
+    print_rank_0("    number of sentences: {}".format(indexed_dataset.sizes.shape[0]))
 
     return indexed_dataset
 
 
 def get_train_valid_test_split_(splits_string, size):
-    """ Get dataset splits from comma or '/' separated string list."""
+    """Get dataset splits from comma or '/' separated string list."""
 
     splits = []
-    if splits_string.find(',') != -1:
-        splits = [float(s) for s in splits_string.split(',')]
-    elif splits_string.find('/') != -1:
-        splits = [float(s) for s in splits_string.split('/')]
+    if splits_string.find(",") != -1:
+        splits = [float(s) for s in splits_string.split(",")]
+    elif splits_string.find("/") != -1:
+        splits = [float(s) for s in splits_string.split("/")]
     else:
         splits = [float(splits_string)]
     while len(splits) < 3:
-        splits.append(0.)
+        splits.append(0.0)
     splits = splits[:3]
     splits_sum = sum(splits)
     assert splits_sum > 0.0
     splits = [split / splits_sum for split in splits]
     splits_index = [0]
     for index, split in enumerate(splits):
-        splits_index.append(splits_index[index] +
-                            int(round(split * float(size))))
+        splits_index.append(splits_index[index] + int(round(split * float(size))))
     diff = splits_index[-1] - size
     for index in range(1, len(splits_index)):
         splits_index[index] -= diff
@@ -641,54 +723,59 @@ def get_train_valid_test_split_(splits_string, size):
     assert splits_index[-1] == size
     return splits_index
 
-def get_samples_mapping(indexed_dataset,
-                        data_prefix,
-                        num_epochs,
-                        max_num_samples,
-                        max_seq_length,
-                        short_seq_prob,
-                        seed,
-                        name,
-                        binary_head):
+
+def get_samples_mapping(
+    indexed_dataset,
+    data_prefix,
+    num_epochs,
+    max_num_samples,
+    max_seq_length,
+    short_seq_prob,
+    seed,
+    name,
+    binary_head,
+):
     """Get a list that maps a sample index to a starting sentence index, end sentence index, and length"""
     args = get_args()
-    if args.train_data_exact_num_epochs is not None and name == 'train':
+    if args.train_data_exact_num_epochs is not None and name == "train":
         num_epochs = args.train_data_exact_num_epochs
         max_num_samples = np.iinfo(np.int64).max - 1
     else:
         if not num_epochs:
             if not max_num_samples:
-                raise ValueError("Need to specify either max_num_samples "
-                                "or num_epochs")
+                raise ValueError(
+                    "Need to specify either max_num_samples " "or num_epochs"
+                )
             num_epochs = np.iinfo(np.int32).max - 1
         if not max_num_samples:
             max_num_samples = np.iinfo(np.int64).max - 1
 
     # Filename of the index mapping
     indexmap_filename = data_prefix
-    indexmap_filename += '_{}_indexmap'.format(name)
-    if args.train_data_exact_num_epochs is not None and name == 'train':
-        indexmap_filename += '_exact{}ep'.format(num_epochs)
+    indexmap_filename += "_{}_indexmap".format(name)
+    if args.train_data_exact_num_epochs is not None and name == "train":
+        indexmap_filename += "_exact{}ep".format(num_epochs)
     else:
         if num_epochs != (np.iinfo(np.int32).max - 1):
-            indexmap_filename += '_{}ep'.format(num_epochs)
+            indexmap_filename += "_{}ep".format(num_epochs)
         if max_num_samples != (np.iinfo(np.int64).max - 1):
-            indexmap_filename += '_{}mns'.format(max_num_samples)
-    indexmap_filename += '_{}msl'.format(max_seq_length)
-    indexmap_filename += '_{:0.2f}ssp'.format(short_seq_prob)
-    indexmap_filename += '_{}s'.format(seed)
-    indexmap_filename += '.npy'
+            indexmap_filename += "_{}mns".format(max_num_samples)
+    indexmap_filename += "_{}msl".format(max_seq_length)
+    indexmap_filename += "_{:0.2f}ssp".format(short_seq_prob)
+    indexmap_filename += "_{}s".format(seed)
+    indexmap_filename += ".npy"
 
-    if name == 'train':
+    if name == "train":
         # force to use certain index files
         if args.train_idx_path is not None:
             indexmap_filename = args.train_idx_path
 
     # Build the indexed mapping if not exist.
-    if torch.distributed.get_rank() == 0 and \
-       not os.path.isfile(indexmap_filename):
-        print(' > WARNING: could not find index map file {}, building '
-              'the indices on rank 0 ...'.format(indexmap_filename))
+    if torch.distributed.get_rank() == 0 and not os.path.isfile(indexmap_filename):
+        print(
+            " > WARNING: could not find index map file {}, building "
+            "the indices on rank 0 ...".format(indexmap_filename)
+        )
 
         # Make sure the types match the helpers input types.
         assert indexed_dataset.doc_idx.dtype == np.int64
@@ -697,10 +784,10 @@ def get_samples_mapping(indexed_dataset,
         # Build samples mapping
         verbose = torch.distributed.get_rank() == 0
         start_time = time.time()
-        print_rank_0(' > building samples index mapping for {} ...'.format(
-            name))
+        print_rank_0(" > building samples index mapping for {} ...".format(name))
         # First compile and then import.
         from megatron.data import helpers
+
         samples_mapping = helpers.build_mapping(
             indexed_dataset.doc_idx,
             indexed_dataset.sizes,
@@ -710,34 +797,39 @@ def get_samples_mapping(indexed_dataset,
             short_seq_prob,
             seed,
             verbose,
-            2 if binary_head else 1)
-        print_rank_0(' > done building samples index maping')
+            2 if binary_head else 1,
+        )
+        print_rank_0(" > done building samples index maping")
         np.save(indexmap_filename, samples_mapping, allow_pickle=True)
-        print_rank_0(' > saved the index mapping in {}'.format(
-            indexmap_filename))
+        print_rank_0(" > saved the index mapping in {}".format(indexmap_filename))
         # Make sure all the ranks have built the mapping
-        print_rank_0(' > elasped time to build and save samples mapping '
-                     '(seconds): {:4f}'.format(
-                         time.time() - start_time))
+        print_rank_0(
+            " > elasped time to build and save samples mapping "
+            "(seconds): {:4f}".format(time.time() - start_time)
+        )
     # This should be a barrier but nccl barrier assumes
     # device_index=rank which is not the case for model
     # parallel case
-    if get_accelerator().device_count() > 0: # Skip when CPU-only
+    if get_accelerator().device_count() > 0:  # Skip when CPU-only
         counts = get_accelerator().LongTensor([1])
         torch.distributed.all_reduce(counts, group=mpu.get_data_parallel_group())
-        torch.distributed.all_reduce(counts, group=mpu.get_pipeline_model_parallel_group())
+        torch.distributed.all_reduce(
+            counts, group=mpu.get_pipeline_model_parallel_group()
+        )
         assert counts[0].item() == (
-            torch.distributed.get_world_size() //
-            torch.distributed.get_world_size(group=mpu.get_tensor_model_parallel_group()))
+            torch.distributed.get_world_size()
+            // torch.distributed.get_world_size(
+                group=mpu.get_tensor_model_parallel_group()
+            )
+        )
 
     # Load indexed dataset.
-    print_rank_0(' > loading indexed mapping from {}'.format(
-        indexmap_filename))
+    print_rank_0(" > loading indexed mapping from {}".format(indexmap_filename))
     start_time = time.time()
-    samples_mapping = np.load(indexmap_filename, allow_pickle=True, mmap_mode='r')
-    print_rank_0('    loaded indexed file in {:3.3f} seconds'.format(
-        time.time() - start_time))
-    print_rank_0('    total number of samples: {}'.format(
-        samples_mapping.shape[0]))
+    samples_mapping = np.load(indexmap_filename, allow_pickle=True, mmap_mode="r")
+    print_rank_0(
+        "    loaded indexed file in {:3.3f} seconds".format(time.time() - start_time)
+    )
+    print_rank_0("    total number of samples: {}".format(samples_mapping.shape[0]))
 
     return samples_mapping
diff --git a/megatron/data/gpt_dataset.py b/megatron/data/gpt_dataset.py
index 210a92c85e8..d73983ea14a 100644
--- a/megatron/data/gpt_dataset.py
+++ b/megatron/data/gpt_dataset.py
@@ -9,168 +9,603 @@
 import numpy as np
 import torch
 from deepspeed.accelerator import get_accelerator
-from megatron import print_rank_0, is_rank_0, get_args
+from megatron import is_rank_0, get_args
 from megatron.core import mpu
+from megatron.data import helpers  # type:ignore
 from megatron.data.blendable_dataset import BlendableDataset
-from megatron.data.dataset_utils import get_datasets_weights_and_num_samples
+from megatron.data.dataset_utils import (
+    get_datasets_weights_and_num_samples,
+    get_datasets_corpuses_weights_and_num_samples,
+)
 from megatron.data.dataset_utils import get_train_valid_test_split_
 from megatron.data.indexed_dataset import make_dataset as make_indexed_dataset
 
-
-def build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
-                                    train_valid_test_num_samples,
-                                    seq_length, seed, skip_warmup,
-                                    train_data_prefix=None,
-                                    valid_data_prefix=None,
-                                    test_data_prefix=None,
-                                    return_doc_ids=False, *,
-                                    data_cache_path=None):
+from megatron.utils import PerfTrace, Profile, get_logger
+from mpi4py import MPI
+
+dlp = Profile("DATASET")
+
+log = get_logger(__name__, rank_zero_only=True)
+
+
+@dlp.log
+def build_train_valid_test_datasets(
+    data_prefix,
+    data_impl,
+    splits_string,
+    train_valid_test_num_samples,
+    seq_length,
+    seed,
+    skip_warmup,
+    train_data_prefix=None,
+    valid_data_prefix=None,
+    test_data_prefix=None,
+    return_doc_ids=False,
+    *,
+    data_cache_path=None,
+):
     """Build train, valid, and test datasets."""
 
     if data_prefix:
-        print_rank_0("Single data path provided for train, valid & test")
+        log.debug("Single data path provided for train, valid & test")
 
         # Single dataset.
         if len(data_prefix) == 1:
-            return _build_train_valid_test_datasets(data_prefix[0],
-                                                    data_impl, splits_string,
-                                                    train_valid_test_num_samples,
-                                                    seq_length, seed, skip_warmup,
-                                                    data_cache_path=data_cache_path)
+            return _build_train_valid_test_datasets(
+                data_prefix[0],
+                data_impl,
+                splits_string,
+                train_valid_test_num_samples,
+                seq_length,
+                seed,
+                skip_warmup,
+                data_cache_path=data_cache_path,
+            )
 
         # Blending dataset.
         # Parse the values.
-        output = get_datasets_weights_and_num_samples(data_prefix,
-                                                      train_valid_test_num_samples)
-        prefixes, weights, datasets_train_valid_test_num_samples = output
+        output = get_datasets_corpuses_weights_and_num_samples(
+            data_prefix, train_valid_test_num_samples
+        )
+        prefixes, corpuses, weights, datasets_train_valid_test_num_samples = output
+        corpus_list = sorted(set(corpuses))
         train_num_samples, valid_num_samples, test_num_samples = map(
-            sum,
-            zip(*datasets_train_valid_test_num_samples)
+            sum, zip(*datasets_train_valid_test_num_samples)
         )
 
-        # Build individual datasets.
+        class DatasetBuilder:
+            """
+            This is for building individual dataset from each dataset file
+            """
+
+            @dlp.log
+            def __init__(
+                self,
+                prefix,
+                corpus,
+                data_impl,
+                splits_string,
+                num_samples,
+                seq_length,
+                seed,
+                skip_warmup,
+                return_doc_ids,
+                data_cache_path=data_cache_path,
+                name="train",
+            ):
+                self.prefix = prefix
+                self.data_impl = data_impl
+                self.splits_string = splits_string
+                if name == "train":
+                    self.num_samples = num_samples[0]
+                elif name == "valid":
+                    self.num_samples = num_samples[1]
+                else:
+                    self.num_samples = num_samples[2]
+                self.num_samples_train_valid_test = num_samples
+                self.seq_length = seq_length
+                self.seed = seed
+                self.skip_warmup = skip_warmup
+                self.return_doc_ids = return_doc_ids
+                self.data_cache_path = data_cache_path
+                self.dataset = None
+                self.name = name
+                self.desc = prefix + f"{self.num_samples}" + f"{seq_length}" + f"{seed}"
+                self.build = False
+                self.corpus = corpus
+
+            @dlp.log
+            def Build(self):
+                self.dataset = _build_train_valid_test_datasets_single(
+                    self.prefix,
+                    self.data_impl,
+                    self.splits_string,
+                    self.num_samples_train_valid_test,
+                    self.seq_length,
+                    self.seed,
+                    self.skip_warmup,
+                    self.name,
+                    self.return_doc_ids,
+                    data_cache_path=self.data_cache_path,
+                )
+                self.build = True
+                return self.dataset
+
+        class BuildCorpusDataset(torch.utils.data.Dataset):
+
+            @dlp.log
+            def __init__(self, dataset_builders):
+                self.dataset_builders = dataset_builders
+                self.num_datasets = len(dataset_builders)
+                self.num_samples = np.sum([d.num_samples for d in dataset_builders])
+                self.indices = np.zeros((self.num_samples, 2), dtype=np.uint64)
+                self.desc = "CorpusDataset:"
+                # m = 0
+                num_samples_list = np.array([d.num_samples for d in dataset_builders])
+                self.num_samples = np.sum(num_samples_list)
+                args = get_args()
+
+                @dlp.log
+                def _build_indices_blended():
+                    start_time = time.time()
+                    dataset_index = np.zeros(self.num_samples, dtype=np.int64)
+                    dataset_sample_index = np.zeros(self.num_samples, dtype=np.int64)
+                    weights = num_samples_list / self.num_samples
+                    helpers.build_blending_indices(
+                        dataset_index,
+                        dataset_sample_index,
+                        weights,
+                        self.num_datasets,
+                        self.num_samples,
+                        torch.distributed.get_rank() == 0,
+                    )
+                    log.debug(
+                        f"> elapsed time for building blendable dataset indices for corpus {self.dataset_builders[0].corpus}: "
+                        "{:.2f} (sec)".format(time.time() - start_time)
+                    )
+                    return dataset_index, dataset_sample_index
+
+                @dlp.log
+                def _build_indices_concat():
+                    start_time = time.time()
+                    dataset_index = np.zeros(self.num_samples, dtype=np.int64)
+                    dataset_sample_index = np.zeros(self.num_samples, dtype=np.int64)
+                    helpers.build_concat_indices(
+                        dataset_index,
+                        dataset_sample_index,
+                        num_samples_list,
+                        self.num_datasets,
+                        torch.distributed.get_rank() == 0,
+                    )
+                    log.debug(
+                        "> elapsed time for building concat dataset indices: "
+                        "{:.2f} (sec)".format(time.time() - start_time)
+                    )
+                    return dataset_index, dataset_sample_index
+            
+                def _build_indices():
+                    if args.blend_sample_in_corpus:
+                        return _build_indices_blended()
+                    else:
+                        return _build_indices_concat()
+
+                def _cache_indices():
+                    desc = self.dataset_builders[0].corpus
+                    desc += f"\n {self.num_samples}"
+                    self.dataset_index = np.zeros(self.num_samples, dtype=np.int64)
+                    self.dataset_sample_index = np.zeros(self.num_samples, dtype=np.int64)
+                    if data_cache_path:
+                        desc_hash = hashlib.md5(desc.encode('utf-8')).hexdigest()
+                        desc_path = os.path.join(data_cache_path, desc_hash + ".dsc")
+                        index_path = os.path.join(data_cache_path, desc_hash + "_index.npy")
+                        sample_index_path = os.path.join(data_cache_path, desc_hash + "_sample_index.npy")
+                        cache_hit = os.path.isfile(index_path) and os.path.isfile(sample_index_path)
+                        cache_success = True
+                        if torch.distributed.get_rank() == 0 and not cache_hit:
+                            print(' > WARNING: could not find index map files for blendable'
+                                  ' dataset, building indices on rank 0 ...', flush=True)
+                            dataset_index, dataset_sample_index = _build_indices()
+                            try:
+                                log.debug(" > saving index map files")
+                                start_time = time.perf_counter()
+                                os.makedirs(os.path.dirname(index_path), exist_ok=True)
+                                with open(desc_path, 'wt') as fd:
+                                    fd.write(desc)
+                                    np.save(index_path, dataset_index, allow_pickle=True)
+                                    np.save(sample_index_path, dataset_sample_index,
+                                            allow_pickle=True)
+                                log.info(f" > finished saving {self.dataset_builders[0].corpus} corpus index map files in {time.perf_counter() - start_time} seconds")
+                            except OSError:
+                                print(f'There was an error trying to create the data cache directory ({data_cache_path})')
+                                print('or a file in it. This is set with the --data-cache-path argument. Please')
+                                print('ensure you have write access to this directory or specify one that you do have')
+                                print('write access to.')
+                                cache_success = False
+                            self.dataset_index = dataset_index
+                            self.dataset_sample_index = dataset_sample_index
+                        torch.distributed.barrier(group=mpu.get_data_parallel_group())
+                        torch.distributed.barrier(group=mpu.get_pipeline_model_parallel_group())
+                        torch.distributed.barrier(group=mpu.get_data_parallel_group())
+            
+                        start_time = time.perf_counter()
+                        log.info(f'> loading {self.dataset_builders[0].corpus} corpus dataset index: {index_path}')
+                        self.dataset_index = np.load(index_path, allow_pickle=True, mmap_mode='r')
+                        assert self.dataset_index.size == self.num_samples
+                        log.info(f'> loading {self.dataset_builders[0].corpus} corpus dataset sample index: {sample_index_path}')
+                        self.dataset_sample_index = np.load(sample_index_path, allow_pickle=True, mmap_mode='r')
+                        assert self.dataset_sample_index.size == self.num_samples
+                        log.info(f'> finished loading in {time.perf_counter() - start_time} seconds')
+                    else:
+                        self.dataset_index, self.dataset_sample_index = _build_indices()
+
+                _cache_indices()
+                    
+                np_rng = np.random.RandomState(seed=dataset_builders[0].seed)
+                self.shuffle_index = np.arange(self.num_samples)
+                if args.shuffle_sample_in_corpus:
+                    np_rng.shuffle(self.shuffle_index)
+                for i in range(self.num_datasets):
+                    self.desc += dataset_builders[i].prefix + ","
+
+                log.info(
+                    f"[BuildCorpusDataset] Caught {args.shuffle_sample_in_corpus=} across"
+                    f" {self.num_samples} samples"
+                )
+                self.desc += (
+                    f"-{self.num_samples}"
+                    + f"-{dataset_builders[0].seq_length}"
+                    + f"{dataset_builders[0].seed}"
+                )
+
+            def __len__(self):
+                return self.num_samples
+
+            @dlp.log
+            def __getitem__(self, idx):
+                id_shuffle = self.shuffle_index[idx]
+                i = self.dataset_index[id_shuffle]
+                j = self.dataset_sample_index[id_shuffle]
+                if self.dataset_builders[i].build:
+                    return self.dataset_builders[i].dataset[j]
+                else:
+                    return self.dataset_builders[i].Build()[j]
+
+        # Predetermine whether need to build the specific dataset or not.
+        start_time = time.time()
+        log.debug(" >>> Started building datasets in distributed way ... ")
+
+        a, b, c = [int(d) for d in splits_string.split(",")]
+
         train_datasets = []
         valid_datasets = []
         test_datasets = []
-        for i in range(len(prefixes)):
-            train_ds, valid_ds, test_ds = _build_train_valid_test_datasets(
-                prefixes[i], data_impl, splits_string,
-                datasets_train_valid_test_num_samples[i],
-                seq_length, seed, skip_warmup,
-                return_doc_ids,
-                data_cache_path=data_cache_path)
-            if train_ds:
-                train_datasets.append(train_ds)
-            if valid_ds:
-                valid_datasets.append(valid_ds)
-            if test_ds:
-                test_datasets.append(test_ds)
+        # Build individual datasets.
+        args = get_args()
+
+        @dlp.log
+        def build_corpus_datasets(dataset_type="train"):
+            start_time = time.time()
+            log.debug(f" >>> Building {dataset_type} corpus datasets ...")
+            datasets = []
+            corpus_builders = {}
+            corpus_weights = {}
+            for c in corpus_list:
+                corpus_builders[c] = []
+                corpus_weights[c] = 0.0
+            dataset_builders = [
+                DatasetBuilder(
+                    prefixes[i],
+                    corpuses[i],
+                    data_impl,
+                    splits_string,
+                    datasets_train_valid_test_num_samples[i],
+                    seq_length,
+                    seed,
+                    skip_warmup,
+                    return_doc_ids,
+                    data_cache_path,
+                    dataset_type,
+                )
+                for i in range(len(weights))
+            ]
+            for i in range(
+                torch.distributed.get_rank()
+                // mpu.get_tensor_model_parallel_world_size(),
+                len(weights),
+                torch.distributed.get_world_size()
+                // mpu.get_tensor_model_parallel_world_size(),
+            ):
+                dataset_builders[i].Build()
+            log.debug(
+                f" >>> Finished building individual datasets in {time.time() - start_time} seconds"
+            )
+            start_concating_time = time.time()
+            for i, d in zip(range(len(weights)), dataset_builders):
+                corpus_builders[d.corpus].append(d)
+                corpus_weights[d.corpus] += weights[i]
+            total = 0
+            log.debug(" > number of samples for each corpus ")
+            corpus_weights_achieved = {}
+            for c in corpus_list:
+                datasets.append(BuildCorpusDataset(corpus_builders[c]))
+                total += datasets[-1].num_samples
+                corpus_weights_achieved[c] = (
+                    float(datasets[-1].num_samples) / train_num_samples
+                )
+                log.debug(
+                    f"    {c}: {datasets[-1].num_samples} w={corpus_weights_achieved[c]} (expected: {corpus_weights[c]})"
+                )
 
+            log.debug(f" > total number of samples: {total}")
+            log.debug(
+                f" >>> Finished concatenating datasets in {time.time() - start_concating_time} seconds"
+            )
+            log.debug(
+                f" >>> Finished building {dataset_type} corpus datasets in {time.time() - start_time} seconds"
+            )
+            return datasets, [corpus_weights_achieved[c] for c in corpus_list]
+
+        train_weights = None
+        if a > 0:
+            train_datasets, train_weights = build_corpus_datasets("train")
+        valid_weights = None
+        if b > 0:
+            valid_datasets, valid_weights = build_corpus_datasets("valid")
+        test_weights = None
+        if c > 0:
+            test_datasets, test_weights = build_corpus_datasets("test")
+
+        # This barrier is critical to make sure that all the datasets are built once
+        # and the metadata were written to the cache folder before other ranks touch them
+        log.debug(
+            f" >>> Rank 0 - finished building datasets in {time.time() - start_time} seconds"
+        )
+        torch.distributed.barrier(group=mpu.get_data_parallel_group())
+        torch.distributed.barrier(group=mpu.get_pipeline_model_parallel_group())
+        torch.distributed.barrier(group=mpu.get_data_parallel_group())
+        log.debug(
+            f" >>> Finished building datasets (all ranks) in distributed way in {time.time() - start_time} seconds"
+        )
+        log.debug(" >>> Starting to build BlendableDataset")
         # Blend.
+        start_time = time.time()
         blending_train_dataset = None
-        if train_datasets:
-            blending_train_dataset = BlendableDataset(train_datasets, weights, train_num_samples,
-                                                      data_cache_path=data_cache_path)
+        if train_datasets and train_weights:
+            blending_train_dataset = BlendableDataset(
+                train_datasets,
+                train_weights,
+                train_num_samples,
+                data_cache_path=data_cache_path,
+            )
         blending_valid_dataset = None
-        if valid_datasets:
-            blending_valid_dataset = BlendableDataset(valid_datasets, weights, valid_num_samples,
-                                                      data_cache_path=data_cache_path)
+        if valid_datasets and valid_weights:
+            blending_valid_dataset = BlendableDataset(
+                valid_datasets,
+                valid_weights,
+                valid_num_samples,
+                data_cache_path=data_cache_path,
+            )
         blending_test_dataset = None
-        if test_datasets:
-            blending_test_dataset = BlendableDataset(test_datasets, weights, test_num_samples,
-                                                     data_cache_path=data_cache_path)
-
-        return (blending_train_dataset, blending_valid_dataset,
-                blending_test_dataset)
+        if test_datasets and test_weights:
+            blending_test_dataset = BlendableDataset(
+                test_datasets,
+                test_weights,
+                test_num_samples,
+                data_cache_path=data_cache_path,
+            )
+        end_time = time.time()
+        log.debug(
+            f" >>> Finished building BlendableDataset in {end_time - start_time} seconds"
+        )
+        return (blending_train_dataset, blending_valid_dataset, blending_test_dataset)
 
     else:
-        print_rank_0("Separate data paths provided for train, valid & test. Split string will be ignored.")
+        log.debug(
+            "Separate data paths provided for train, valid & test. Split string will be ignored."
+        )
 
         train_dataset, valid_dataset, test_dataset = None, None, None
         # Single dataset.
         if train_data_prefix is not None:
-            train_dataset = build_dataset("train", train_data_prefix, data_impl,
-                                          splits_string,
-                                          train_valid_test_num_samples[0],
-                                          seq_length, seed, skip_warmup,
-                                          data_cache_path=data_cache_path)
+            train_dataset = build_dataset(
+                "train",
+                train_data_prefix,
+                data_impl,
+                splits_string,
+                train_valid_test_num_samples[0],
+                seq_length,
+                seed,
+                skip_warmup,
+                data_cache_path=data_cache_path,
+            )
 
         if valid_data_prefix is not None:
-            valid_dataset = build_dataset("valid", valid_data_prefix, data_impl,
-                                          splits_string,
-                                          train_valid_test_num_samples[1],
-                                          seq_length, seed, False,
-                                          data_cache_path=data_cache_path)
-
+            valid_dataset = build_dataset(
+                "valid",
+                valid_data_prefix,
+                data_impl,
+                splits_string,
+                train_valid_test_num_samples[1],
+                seq_length,
+                seed,
+                False,
+                data_cache_path=data_cache_path,
+            )
 
         if test_data_prefix is not None:
-            test_dataset = build_dataset("test", test_data_prefix, data_impl,
-                                         splits_string,
-                                         train_valid_test_num_samples[2],
-                                         seq_length, seed, False,
-                                         data_cache_path=data_cache_path)
+            test_dataset = build_dataset(
+                "test",
+                test_data_prefix,
+                data_impl,
+                splits_string,
+                train_valid_test_num_samples[2],
+                seq_length,
+                seed,
+                False,
+                data_cache_path=data_cache_path,
+            )
 
         return (train_dataset, valid_dataset, test_dataset)
 
 
-def _build_train_valid_test_datasets(data_prefix, data_impl, splits_string,
-                                     train_valid_test_num_samples,
-                                     seq_length, seed, skip_warmup,
-                                     return_doc_ids=False, *,
-                                     data_cache_path=None):
+@dlp.log
+def _build_train_valid_test_datasets(
+    data_prefix,
+    data_impl,
+    splits_string,
+    train_valid_test_num_samples,
+    seq_length,
+    seed,
+    skip_warmup,
+    return_doc_ids=False,
+    *,
+    data_cache_path=None,
+):
     """Build train, valid, and test datasets."""
 
     # Indexed dataset.
-    indexed_dataset = get_indexed_dataset_(data_prefix,
-                                           data_impl,
-                                           skip_warmup)
+    indexed_dataset = get_indexed_dataset_(data_prefix, data_impl, skip_warmup)
 
     total_num_of_documents = indexed_dataset.sizes.shape[0]
     splits = get_train_valid_test_split_(splits_string, total_num_of_documents)
 
     # Print stats about the splits.
-    print_rank_0(' > dataset split:')
+    log.debug(" > dataset split:")
 
     def print_split_stats(name, index):
-        print_rank_0('    {}:'.format(name))
-        print_rank_0('     document indices in [{}, {}) total of {} '
-                     'documents'.format(splits[index], splits[index + 1],
-                                        splits[index + 1] - splits[index]))
-    print_split_stats('train', 0)
-    print_split_stats('validation', 1)
-    print_split_stats('test', 2)
+        log.debug("    {}:".format(name))
+        log.debug(
+            "     document indices in [{}, {}) total of {} "
+            "documents".format(
+                splits[index], splits[index + 1], splits[index + 1] - splits[index]
+            )
+        )
+
+    print_split_stats("train", 0)
+    print_split_stats("validation", 1)
+    print_split_stats("test", 2)
 
     def build_dataset(index, name):
         dataset = None
         if splits[index + 1] > splits[index]:
-            documents = np.arange(start=splits[index], stop=splits[index + 1],
-                                  step=1, dtype=np.int32)
-            dataset = GPTDataset(name, data_prefix, documents, indexed_dataset,
-                                 splits_string,
-                                 train_valid_test_num_samples[index],
-                                 seq_length, seed,
-                                 return_doc_ids,
-                                 data_cache_path=data_cache_path)
+            documents = np.arange(
+                start=splits[index], stop=splits[index + 1], step=1, dtype=np.int32
+            )
+            dataset = GPTDataset(
+                name,
+                data_prefix,
+                documents,
+                indexed_dataset,
+                splits_string,
+                train_valid_test_num_samples[index],
+                seq_length,
+                seed,
+                return_doc_ids,
+                data_cache_path=data_cache_path,
+            )
         return dataset
 
-    train_dataset = build_dataset(0, 'train')
-    valid_dataset = build_dataset(1, 'valid')
-    test_dataset = build_dataset(2, 'test')
+    train_dataset = build_dataset(0, "train")
+    valid_dataset = build_dataset(1, "valid")
+    test_dataset = build_dataset(2, "test")
 
     return (train_dataset, valid_dataset, test_dataset)
 
 
-def build_dataset(dataset_name, data_prefix, data_impl,
-                  splits_string, num_samples,
-                  seq_length, seed, skip_warmup,
-                  *,
-                  data_cache_path=None):
+@dlp.log
+def _build_train_valid_test_datasets_single(
+    data_prefix,
+    data_impl,
+    splits_string,
+    train_valid_test_num_samples,
+    seq_length,
+    seed,
+    skip_warmup,
+    name,
+    return_doc_ids=False,
+    *,
+    data_cache_path=None,
+):
+    """Build train, valid, and test datasets."""
+
+    # Each rank print out information
+    log.debug(f" >> building dataset for {data_prefix}")
+    # Indexed dataset.
+    indexed_dataset = get_indexed_dataset_(data_prefix, data_impl, skip_warmup)
+
+    total_num_of_documents = indexed_dataset.sizes.shape[0]
+    splits = get_train_valid_test_split_(splits_string, total_num_of_documents)
+
+    # Print stats about the splits.
+    log.debug(" > dataset split:")
+
+    def print_split_stats(name, index):
+        log.debug("    {}:".format(name))
+        log.debug(
+            "     document indices in [{}, {}) total of {} "
+            "documents".format(
+                splits[index], splits[index + 1], splits[index + 1] - splits[index]
+            )
+        )
+
+    print_split_stats("train", 0)
+    print_split_stats("validation", 1)
+    print_split_stats("test", 2)
+
+    def build_dataset(index, name):
+        dataset = None
+        if splits[index + 1] > splits[index]:
+            documents = np.arange(
+                start=splits[index], stop=splits[index + 1], step=1, dtype=np.int32
+            )
+            dataset = GPTDataset(
+                name,
+                data_prefix,
+                documents,
+                indexed_dataset,
+                splits_string,
+                train_valid_test_num_samples[index],
+                seq_length,
+                seed,
+                return_doc_ids,
+                data_cache_path=data_cache_path,
+            )
+        return dataset
+
+    if name.find("train") != -1:
+        return build_dataset(0, "train")
+    if name.find("valid") != -1:
+        return build_dataset(1, "valid")
+    if name.find("test") != -1:
+        return build_dataset(2, "test")
+
+
+@dlp.log
+def build_dataset(
+    dataset_name,
+    data_prefix,
+    data_impl,
+    splits_string,
+    num_samples,
+    seq_length,
+    seed,
+    skip_warmup,
+    *,
+    data_cache_path=None,
+):
     dataset = None
     if len(data_prefix) == 1:
-        dataset = _build_dataset(dataset_name, data_prefix[0], data_impl,
-                                 splits_string, num_samples, seq_length,
-                                 seed, skip_warmup,
-                                 data_cache_path=data_cache_path)
+        dataset = _build_dataset(
+            dataset_name,
+            data_prefix[0],
+            data_impl,
+            splits_string,
+            num_samples,
+            seq_length,
+            seed,
+            skip_warmup,
+            data_cache_path=data_cache_path,
+        )
     else:
         # Blending dataset.
         # Parse the values.
@@ -181,73 +616,107 @@ def build_dataset(dataset_name, data_prefix, data_impl,
         # Build individual datasets.
         datasets = []
         for i in range(len(prefixes)):
-            ds = _build_dataset(dataset_name, prefixes[i], data_impl,
-                                splits_string, dataset_num_samples[i],
-                                seq_length, seed, skip_warmup,
-                                data_cache_path=data_cache_path)
+            ds = _build_dataset(
+                dataset_name,
+                prefixes[i],
+                data_impl,
+                splits_string,
+                dataset_num_samples[i],
+                seq_length,
+                seed,
+                skip_warmup,
+                data_cache_path=data_cache_path,
+            )
             if ds:
                 datasets.append(ds)
 
         if datasets:
-            dataset = BlendableDataset(datasets, weights, num_samples,
-                                       data_cache_path=data_cache_path)
+            dataset = BlendableDataset(
+                datasets, weights, num_samples, data_cache_path=data_cache_path
+            )
 
     return dataset
 
 
-def _build_dataset(dataset_name, data_prefix, data_impl, splits_string,
-                   num_samples, seq_length, seed, skip_warmup,
-                   *,
-                   data_cache_path=None):
+@dlp.log
+def _build_dataset(
+    dataset_name,
+    data_prefix,
+    data_impl,
+    splits_string,
+    num_samples,
+    seq_length,
+    seed,
+    skip_warmup,
+    *,
+    data_cache_path=None,
+):
     """
     Build dataset. This method is called when individual
     train, valid, test datasets are provided
     """
 
     # Indexed dataset.
-    indexed_dataset = get_indexed_dataset_(data_prefix,
-                                           data_impl,
-                                           skip_warmup)
+    indexed_dataset = get_indexed_dataset_(data_prefix, data_impl, skip_warmup)
 
     total_num_of_documents = indexed_dataset.sizes.shape[0]
 
-    print_rank_0('    {}:'.format(dataset_name))
-    print_rank_0('     document indices in [0, {}) total of {} '
-                 'documents'.format(total_num_of_documents, total_num_of_documents))
-
-    documents = np.arange(start=0, stop=total_num_of_documents,
-                        step=1, dtype=np.int32)
-
-    dataset = GPTDataset(dataset_name, data_prefix, documents, indexed_dataset,
-                         splits_string, num_samples, seq_length, seed,
-                         data_cache_path=data_cache_path)
+    log.debug("    {}:".format(dataset_name))
+    log.debug(
+        "     document indices in [0, {}) total of {} "
+        "documents".format(total_num_of_documents, total_num_of_documents)
+    )
+
+    documents = np.arange(start=0, stop=total_num_of_documents, step=1, dtype=np.int32)
+
+    dataset = GPTDataset(
+        dataset_name,
+        data_prefix,
+        documents,
+        indexed_dataset,
+        splits_string,
+        num_samples,
+        seq_length,
+        seed,
+        data_cache_path=data_cache_path,
+    )
 
     return dataset
 
 
+@dlp.log
 def get_indexed_dataset_(data_prefix, data_impl, skip_warmup):
     """Build indexed dataset."""
-    print_rank_0(' > building dataset index ...')
+    log.debug(" > building dataset index ...")
 
     start_time = time.time()
-    indexed_dataset = make_indexed_dataset(data_prefix,
-                                           data_impl,
-                                           skip_warmup)
-    print_rank_0(' > finished creating indexed dataset in {:4f} '
-                 'seconds'.format(time.time() - start_time))
-    print_rank_0('    number of documents: {}'.format(
-        indexed_dataset.sizes.shape[0]))
+    indexed_dataset = make_indexed_dataset(data_prefix, data_impl, skip_warmup)
+    log.debug(
+        " > finished creating indexed dataset in {:4f} "
+        "seconds".format(time.time() - start_time)
+    )
+    log.debug("    number of documents: {}".format(indexed_dataset.sizes.shape[0]))
 
     return indexed_dataset
 
 
 class GPTDataset(torch.utils.data.Dataset):
 
-    def __init__(self, name, data_prefix, documents, indexed_dataset,
-                 splits_string, num_samples, seq_length, seed,
-                 return_doc_ids=False, *,
-                 data_cache_path=None):
-
+    @dlp.log
+    def __init__(
+        self,
+        name,
+        data_prefix,
+        documents,
+        indexed_dataset,
+        splits_string,
+        num_samples,
+        seq_length,
+        seed,
+        return_doc_ids=False,
+        *,
+        data_cache_path=None,
+    ):
         self.name = name
         self.indexed_dataset = indexed_dataset
         self.return_doc_ids = return_doc_ids
@@ -257,20 +726,29 @@ def __init__(self, name, data_prefix, documents, indexed_dataset,
         assert np.max(documents) < indexed_dataset.sizes.shape[0]
 
         # Build index mappings.
-        self.doc_idx, self.sample_idx, self.shuffle_idx, self.desc, self.desc_hash = \
-            _build_index_mappings(self.name, data_prefix,
-                                  documents, self.indexed_dataset.sizes,
-                                  splits_string, num_samples, seq_length, seed,
-                                  data_cache_path=data_cache_path)
-
+        self.doc_idx, self.sample_idx, self.shuffle_idx, self.desc, self.desc_hash = (
+            _build_index_mappings(
+                self.name,
+                data_prefix,
+                documents,
+                self.indexed_dataset.sizes,
+                splits_string,
+                num_samples,
+                seq_length,
+                seed,
+                data_cache_path=data_cache_path,
+            )
+        )
 
     def __len__(self):
         # -1 is due to data structure used to retieve the index:
         #    sample i --> [sample_idx[i], sample_idx[i+1])
         return self.sample_idx.shape[0] - 1
 
+    @dlp.log
     def __getitem__(self, idx):
         args = get_args()
+        assert args is not None
         orig_idx = idx
         # Get the shuffled index.
         try:
@@ -279,21 +757,24 @@ def __getitem__(self, idx):
             if is_rank_0():
                 import json
                 from rich import print_json
+
                 print(exc)
                 print(
-                    '\n'.join(
-                        ['-------------------------------------------------',
-                         f'Trying to access {idx=} from self.shuffle_idx,',
-                         f'but {len(self.shuffle_idx)=}',
-                         '-------------------------------------------------']
+                    "\n".join(
+                        [
+                            "-------------------------------------------------",
+                            f"Trying to access {idx=} from self.shuffle_idx,",
+                            f"but {len(self.shuffle_idx)=}",
+                            "-------------------------------------------------",
+                        ]
                     )
                 )
                 print_json(
                     json.dumps(
                         {
-                            'doc_idx': len(self.doc_idx),
-                            'sample_idx': len(self.sample_idx),
-                            'shuffle_idx': len(self.shuffle_idx),
+                            "doc_idx": len(self.doc_idx),
+                            "sample_idx": len(self.sample_idx),
+                            "shuffle_idx": len(self.shuffle_idx),
                         },
                         indent=4,
                     )
@@ -307,45 +788,57 @@ def __getitem__(self, idx):
         doc_ids = []
         if doc_index_f == doc_index_l:
             doc_ids.append(self.doc_idx[doc_index_f])
-            sample = self.indexed_dataset.get(self.doc_idx[doc_index_f],
-                                              offset=offset_f,
-                                              length=offset_l - offset_f + 1)
+            sample = self.indexed_dataset.get(
+                self.doc_idx[doc_index_f],
+                offset=offset_f,
+                length=offset_l - offset_f + 1,
+            )
         else:
             # Otherwise, get the rest of the initial document.
             doc_ids.append(self.doc_idx[doc_index_f])
-            sample_list = [self.indexed_dataset.get(self.doc_idx[doc_index_f],
-                                                    offset=offset_f)]
+            sample_list = [
+                self.indexed_dataset.get(self.doc_idx[doc_index_f], offset=offset_f)
+            ]
             # Loop over all in between documents and add the entire document.
             for i in range(doc_index_f + 1, doc_index_l):
                 doc_ids.append(self.doc_idx[i])
                 sample_list.append(self.indexed_dataset.get(self.doc_idx[i]))
             # And finally add the relevant portion of last document.
             doc_ids.append(self.doc_idx[doc_index_l])
-            sample_list.append(self.indexed_dataset.get(
-                self.doc_idx[doc_index_l],
-                length=offset_l + 1))
+            sample_list.append(
+                self.indexed_dataset.get(self.doc_idx[doc_index_l], length=offset_l + 1)
+            )
             sample = np.concatenate(sample_list)
 
-        text_name = 'text'
+        text_name = "text"
         if args.use_dataset_only:
-            text_name = 'input_ids'
+            text_name = "input_ids"
         sample_dict = {text_name: np.array(sample, dtype=np.int64)}
         if args.return_data_index:
-            sample_dict.update({'index': np.array([orig_idx], dtype=np.int64)})
+            sample_dict.update({"index": np.array([orig_idx], dtype=np.int64)})
 
-        if self.return_doc_ids: # for retro preprocessing
-            sample_dict.update({'doc_ids': np.array(doc_ids, dtype=np.int64)})
+        if self.return_doc_ids:  # for retro preprocessing
+            sample_dict.update({"doc_ids": np.array(doc_ids, dtype=np.int64)})
 
         if args.use_dataset_only:
-            sample_dict.update({'labels': np.array(sample, dtype=np.int64)})
+            sample_dict.update({"labels": np.array(sample, dtype=np.int64)})
 
         return sample_dict
 
 
-def _build_index_mappings(name, data_prefix, documents, sizes,
-                          splits_string, num_samples, seq_length, seed,
-                          *,
-                          data_cache_path):
+@dlp.log
+def _build_index_mappings(
+    name,
+    data_prefix,
+    documents,
+    sizes,
+    splits_string,
+    num_samples,
+    seq_length,
+    seed,
+    *,
+    data_cache_path,
+):
     """Build doc-idx, sample-idx, and shuffle-idx.
     doc-idx: is an array (ordered) of documents to be used in training.
     sample-idx: is the start document index and document offset for each
@@ -353,10 +846,11 @@ def _build_index_mappings(name, data_prefix, documents, sizes,
     shuffle-idx: maps the sample index into a random index into sample-idx.
     """
     args = get_args()
+    assert args is not None
     # Number of tokens in each epoch and number of required epochs.
     tokens_per_epoch = _num_tokens(documents, sizes)
     num_epochs = _num_epochs(tokens_per_epoch, seq_length, num_samples)
-    if args.train_data_exact_num_epochs is not None and name == 'train':
+    if args.train_data_exact_num_epochs is not None and name == "train":
         num_epochs = args.train_data_exact_num_epochs
 
     # rng state
@@ -371,13 +865,13 @@ def _build_index_mappings(name, data_prefix, documents, sizes,
     desc += f"Sequence length {seq_length}\n"
     desc += f"Random seed {seed}\n"
     desc += f"Split {splits_string}\n"
-    desc_hash = hashlib.md5(desc.encode('utf-8')).hexdigest()
+    desc_hash = hashlib.md5(desc.encode("utf-8")).hexdigest()
     desc_filename = desc_hash + ".dsc"
-    doc_idx_filename = desc_hash + '_doc_idx.npy'
-    sample_idx_filename = desc_hash + '_sample_idx.npy'
-    shuffle_idx_filename = desc_hash + '_shuffle_idx.npy'
+    doc_idx_filename = desc_hash + "_doc_idx.npy"
+    sample_idx_filename = desc_hash + "_sample_idx.npy"
+    shuffle_idx_filename = desc_hash + "_shuffle_idx.npy"
 
-    if name == 'train':
+    if name == "train":
         # force to use certain index files
         if args.train_desc_path is not None:
             desc_filename = args.train_desc_path
@@ -392,15 +886,15 @@ def _build_index_mappings(name, data_prefix, documents, sizes,
     # duplication, then look in data-cache-path if specified,
     # If nothing is found, use the last path looked in
     build_indices = True
-    prefixes = [os.path.join(os.path.dirname(data_prefix), 'index-cache')]
+    prefixes = [os.path.join(os.path.dirname(data_prefix), "index-cache")]
     if data_cache_path is not None:
         prefixes.append(data_cache_path)
     for prefix in prefixes:
         idx_path = {
-            'desc': os.path.join(prefix, desc_filename),
-            'doc': os.path.join(prefix, doc_idx_filename),
-            'sample': os.path.join(prefix, sample_idx_filename),
-            'shuffle': os.path.join(prefix, shuffle_idx_filename)
+            "desc": os.path.join(prefix, desc_filename),
+            "doc": os.path.join(prefix, doc_idx_filename),
+            "sample": os.path.join(prefix, sample_idx_filename),
+            "shuffle": os.path.join(prefix, shuffle_idx_filename),
         }
         for f in idx_path.values():
             if not os.path.isfile(f):
@@ -409,13 +903,17 @@ def _build_index_mappings(name, data_prefix, documents, sizes,
             # Found our files!
             build_indices = False
             break
-    data_cache_dir = os.path.dirname(idx_path['desc'])
+    data_cache_dir = os.path.dirname(idx_path["desc"])
     data_cache_success = True
 
     # Build the indexed mapping if not exist.
-    if build_indices and is_rank_0():
-        print_rank_0(' > WARNING: could not find index map files, building '
-                     'the indices on rank 0 ...')
+    if build_indices:
+        # Since this function will be called by all the rank in the very beginning. Therefore, we assume that all the
+        # ranks will first create the document files, and then read it.
+        # There will not be contension effects going on either
+        log.warning(
+            f" > WARNING: could not find index map files, building on rank {torch.distributed.get_rank()}"
+        )
 
         # For the last epoch, decide whether include the entire epoch
         # in the global shuffle or not.
@@ -424,64 +922,80 @@ def _build_index_mappings(name, data_prefix, documents, sizes,
         # not mean anything.
         if num_epochs == 1:
             separate_last_epoch = False
-            print(' > only one epoch required, setting '
-                  'separate_last_epoch to False', flush=True)
+            log.debug(
+                " > only one epoch required, setting " "separate_last_epoch to False"
+            )
 
         else:
             # Get the number of samples for the last epoch
             num_samples_from_epochs_minus_one = (
-                (num_epochs - 1) * tokens_per_epoch - 1) // seq_length
-            last_epoch_num_samples = num_samples - \
-                                     num_samples_from_epochs_minus_one
-            assert last_epoch_num_samples >= 0, \
-                'last epoch number of samples should be non-negative.'
+                (num_epochs - 1) * tokens_per_epoch - 1
+            ) // seq_length
+            last_epoch_num_samples = num_samples - num_samples_from_epochs_minus_one
+            assert (
+                last_epoch_num_samples >= 0
+            ), "last epoch number of samples should be non-negative."
             num_samples_per_epoch = (tokens_per_epoch - 1) // seq_length
-            assert last_epoch_num_samples <= (num_samples_per_epoch + 1), \
-                'last epoch number of samples exceeded max value.'
+            assert last_epoch_num_samples <= (
+                num_samples_per_epoch + 1
+            ), "last epoch number of samples exceeded max value."
             # If we have less than 80% of the samples for the last epoch,
             # seperate out the epoch and treat it differently.
             # Note: the 80% number is just based on common sense and can
             # be adjusted if needed.
-            separate_last_epoch = (last_epoch_num_samples <
-                                   int(0.80 * num_samples_per_epoch))
+            separate_last_epoch = last_epoch_num_samples < int(
+                0.80 * num_samples_per_epoch
+            )
             if separate_last_epoch:
-                string = ' > last epoch number of samples ({}) is smaller '\
-                         'than 80% of number of samples per epoch ({}), '\
-                         'setting separate_last_epoch to True'
+                string = (
+                    " > last epoch number of samples ({}) is smaller "
+                    "than 80% of number of samples per epoch ({}), "
+                    "setting separate_last_epoch to True"
+                )
             else:
-                string = ' > last epoch number of samples ({}) is larger '\
-                         'than 80% of number of samples per epoch ({}), '\
-                         'setting separate_last_epoch to False'
-            print(string.format(last_epoch_num_samples,
-                                num_samples_per_epoch), flush=True)
-
+                string = (
+                    " > last epoch number of samples ({}) is larger "
+                    "than 80% of number of samples per epoch ({}), "
+                    "setting separate_last_epoch to False"
+                )
+            log.debug(string.format(last_epoch_num_samples, num_samples_per_epoch))
 
         try:
             os.makedirs(data_cache_dir, exist_ok=True)
 
             # description
-            with open(idx_path['desc'], 'wt') as fd:
+            with open(idx_path["desc"], "wt") as fd:
                 fd.write(desc)
 
             # doc-idx.
             start_time = time.time()
-            doc_idx = _build_doc_idx(documents, num_epochs, np_rng,
-                                     separate_last_epoch)
-            np.save(idx_path['doc'], doc_idx, allow_pickle=True)
-            print_rank_0(' > elasped time to build and save doc-idx mapping '
-                         '(seconds): {:4f}'.format(time.time() - start_time))
+            doc_idx = _build_doc_idx(documents, num_epochs, np_rng, separate_last_epoch)
+            np.save(idx_path["doc"], doc_idx, allow_pickle=True)
+            log.debug(
+                " > elasped time to build and save doc-idx mapping "
+                "(seconds): {:4f}".format(time.time() - start_time)
+            )
             # sample-idx.
             start_time = time.time()
             # Use C++ implementation for speed.
             # First compile and then import.
             from megatron.data import helpers
+
             assert doc_idx.dtype == np.int32
             assert sizes.dtype == np.int32
-            sample_idx = helpers.build_sample_idx(sizes, doc_idx, seq_length,
-                                                  num_epochs, tokens_per_epoch)
-            np.save(idx_path['sample'], sample_idx, allow_pickle=True)
-            print_rank_0(' > elasped time to build and save sample-idx mapping '
-                         '(seconds): {:4f}'.format(time.time() - start_time))
+            sample_idx = helpers.build_sample_idx(
+                sizes,
+                doc_idx,
+                seq_length,
+                num_epochs,
+                tokens_per_epoch,
+                torch.distributed.get_rank() == 0,
+            )
+            np.save(idx_path["sample"], sample_idx, allow_pickle=True)
+            log.debug(
+                " > elasped time to build and save sample-idx mapping "
+                "(seconds): {:4f}".format(time.time() - start_time)
+            )
             # shuffle-idx.
             start_time = time.time()
             # -1 is due to data structure used to retieve the index:
@@ -490,45 +1004,46 @@ def _build_index_mappings(name, data_prefix, documents, sizes,
                 num_samples_ = num_samples_from_epochs_minus_one
             else:
                 num_samples_ = sample_idx.shape[0] - 1
-            shuffle_idx = _build_shuffle_idx(num_samples_,
-                                             sample_idx.shape[0] - 1, np_rng)
-            np.save(idx_path['shuffle'], shuffle_idx, allow_pickle=True)
-            print_rank_0(' > elasped time to build and save shuffle-idx mapping'
-                         ' (seconds): {:4f}'.format(time.time() - start_time))
+            shuffle_idx = _build_shuffle_idx(
+                num_samples_, sample_idx.shape[0] - 1, np_rng
+            )
+            np.save(idx_path["shuffle"], shuffle_idx, allow_pickle=True)
+            log.debug(
+                " > elasped time to build and save shuffle-idx mapping"
+                " (seconds): {:4f}".format(time.time() - start_time)
+            )
         except OSError:
-            print(f'There was an error trying to create the data cache directory ({data_cache_dir})')
-            print('or a file in it. This defaults to a directory "index-cache" within the directory')
-            print('the data files are in and can be set with the --data-cache-path argument. Please')
-            print('ensure you have write access to this directory or specify one that you do have')
-            print('write access to.')
+            print(
+                f"There was an error trying to create the data cache directory ({data_cache_dir})"
+            )
+            print(
+                'or a file in it. This defaults to a directory "index-cache" within the directory'
+            )
+            print(
+                "the data files are in and can be set with the --data-cache-path argument. Please"
+            )
+            print(
+                "ensure you have write access to this directory or specify one that you do have"
+            )
+            print("write access to.")
             data_cache_success = False
 
-    counts = get_accelerator().LongTensor([data_cache_success])
-    torch.distributed.all_reduce(counts, group=mpu.get_data_parallel_group())
-    torch.distributed.all_reduce(counts, group=mpu.get_pipeline_model_parallel_group())
-    if counts[0].item() != (
-        torch.distributed.get_world_size() //
-        torch.distributed.get_world_size(group=mpu.get_tensor_model_parallel_group()) //
-        torch.distributed.get_world_size(group=mpu.get_sequence_parallel_group())):
-        print_rank_0("Data index creation unsuccessful, exiting.")
-        exit()
-
     # Load mappings.
     start_time = time.time()
-    print_rank_0(f" > loading doc-idx mapping from {idx_path['doc']}")
-    doc_idx = np.load(idx_path['doc'], allow_pickle=True, mmap_mode='r')
+    log.debug(f" > loading doc-idx mapping from {idx_path['doc']}")
+    doc_idx = np.load(idx_path["doc"], allow_pickle=True, mmap_mode="r")
 
-    print_rank_0(f" > loading sample-idx mapping from {idx_path['sample']}")
-    sample_idx = np.load(idx_path['sample'], allow_pickle=True, mmap_mode='r')
+    log.debug(f" > loading sample-idx mapping from {idx_path['sample']}")
+    sample_idx = np.load(idx_path["sample"], allow_pickle=True, mmap_mode="r")
 
-    print_rank_0(f" > loading shuffle-idx mapping from {idx_path['shuffle']}")
-    shuffle_idx = np.load(idx_path['shuffle'], allow_pickle=True, mmap_mode='r')
+    log.debug(f" > loading shuffle-idx mapping from {idx_path['shuffle']}")
+    shuffle_idx = np.load(idx_path["shuffle"], allow_pickle=True, mmap_mode="r")
 
-    print_rank_0('    loaded indexed file in {:3.3f} seconds'.format(
-        time.time() - start_time))
-    print_rank_0('    total number of samples: {}'.format(
-        sample_idx.shape[0]))
-    print_rank_0('    total number of epochs: {}'.format(num_epochs))
+    log.debug(
+        "    loaded indexed file in {:3.3f} seconds".format(time.time() - start_time)
+    )
+    log.debug("    total number of samples: {}".format(sample_idx.shape[0]))
+    log.debug("    total number of epochs: {}".format(num_epochs))
 
     return doc_idx, sample_idx, shuffle_idx, desc, desc_hash
 
@@ -553,24 +1068,25 @@ def _num_epochs(tokens_per_epoch, seq_length, num_samples):
             return num_epochs
 
 
+@dlp.log
 def _build_doc_idx(documents, num_epochs, np_rng, separate_last_epoch):
     """Build an array with length = number-of-epochs * number-of-dcuments.
     Each index is mapped to a corresponding document."""
     if not separate_last_epoch or num_epochs == 1:
-        doc_idx = np.mgrid[0:num_epochs, 0:len(documents)][1]
+        doc_idx = np.mgrid[0:num_epochs, 0 : len(documents)][1]
         doc_idx[:] = documents
         doc_idx = doc_idx.reshape(-1)
         doc_idx = doc_idx.astype(np.int32)
         np_rng.shuffle(doc_idx)
         return doc_idx
 
-    doc_idx_first = _build_doc_idx(documents, num_epochs-1, np_rng, False)
+    doc_idx_first = _build_doc_idx(documents, num_epochs - 1, np_rng, False)
     doc_idx_last = _build_doc_idx(documents, 1, np_rng, False)
     return np.concatenate((doc_idx_first, doc_idx_last))
 
 
-def _build_sample_idx(sizes, doc_idx, seq_length,
-                      num_epochs, tokens_per_epoch):
+@dlp.log
+def _build_sample_idx(sizes, doc_idx, seq_length, num_epochs, tokens_per_epoch):
     """Sample index mapping is a 2D array with sizes
     [number-of-samples + 1, 2] where [..., 0] contains
     the index into `doc_idx` and [..., 1] is the
@@ -604,7 +1120,7 @@ def _build_sample_idx(sizes, doc_idx, seq_length,
             # Note that -1 here is for the same reason we have -1 in
             # `_num_epochs` calculations.
             if remaining_seq_length <= 0:
-                doc_offset += (remaining_seq_length + doc_length - 1)
+                doc_offset += remaining_seq_length + doc_length - 1
                 remaining_seq_length = 0
             else:
                 # Otherwise, start from the begining of the next document.
@@ -618,23 +1134,26 @@ def _build_sample_idx(sizes, doc_idx, seq_length,
     return sample_idx
 
 
+@dlp.log
 def _build_shuffle_idx(num_samples, total_size, np_rng):
     """Build the range [0, size) and shuffle."""
-    print(' > building shuffle index with split [0, {}) and [{}, {}) '
-          '...'.format(num_samples, num_samples, total_size), flush=True)
+    log.debug(
+        " > building shuffle index with split [0, {}) and [{}, {}) "
+        "...".format(num_samples, num_samples, total_size)
+    )
 
     dtype_ = np.uint32
     if total_size >= (np.iinfo(np.uint32).max - 1):
         dtype_ = np.int64
 
-    shuffle_idx_first = np.arange(start=0, stop=num_samples,
-                                  step=1, dtype=dtype_)
+    shuffle_idx_first = np.arange(start=0, stop=num_samples, step=1, dtype=dtype_)
     np_rng.shuffle(shuffle_idx_first)
     if num_samples == total_size:
         return shuffle_idx_first
 
-    shuffle_idx_last = np.arange(start=num_samples, stop=total_size,
-                                 step=1, dtype=dtype_)
+    shuffle_idx_last = np.arange(
+        start=num_samples, stop=total_size, step=1, dtype=dtype_
+    )
     np_rng.shuffle(shuffle_idx_last)
 
     return np.concatenate((shuffle_idx_first, shuffle_idx_last))
diff --git a/megatron/data/helpers.cpp b/megatron/data/helpers.cpp
index 142f159dd37..9dee0589b6d 100644
--- a/megatron/data/helpers.cpp
+++ b/megatron/data/helpers.cpp
@@ -15,7 +15,23 @@ namespace py = pybind11;
 using namespace std;
 
 const int32_t LONG_SENTENCE_LEN = 512;
-
+void build_concat_indices(py::array_t<int64_t>& dataset_index, py::array_t<int64_t>& dataset_sample_index,
+			  const py::array_t<int64_t> &num_samples,
+			  const int64_t num_datasets, const bool verbose) {
+  if (verbose) {
+    std::cout << "> building indices for corpus datasets ..." << std::endl;    
+  }
+  auto dataset_index_ptr = dataset_index.mutable_unchecked<1>();
+  auto num_samples_ptr = num_samples.unchecked<1>();  
+  auto dataset_sample_index_ptr = dataset_sample_index.mutable_unchecked<1>();  
+  int64_t m = 0; 
+  for(uint64_t i=0; i<num_datasets; i++)
+    for(uint64_t j=0; j<num_samples_ptr[i]; j++) {
+      dataset_index_ptr[m] = i;
+      dataset_sample_index_ptr[m] = j;
+      m++;
+    }
+}
 
 void build_blending_indices(py::array_t<int64_t>& dataset_index,
 			    py::array_t<int64_t>& dataset_sample_index,
@@ -84,7 +100,7 @@ py::array build_sample_idx(const py::array_t<int32_t>& sizes_,
 			   const py::array_t<int32_t>& doc_idx_,
 			   const int32_t seq_length,
 			   const int32_t num_epochs,
-			   const int64_t tokens_per_epoch) {
+			   const int64_t tokens_per_epoch, const bool verbose=false) {
     /* Sample index (sample_idx) is used for gpt2 like dataset for which
        the documents are flattened and the samples are built based on this
        1-D flatten array. It is a 2D array with sizes [number-of-samples + 1, 2]
@@ -103,16 +119,17 @@ py::array build_sample_idx(const py::array_t<int32_t>& sizes_,
     // Mapping and it's length (1D).
     int64_t num_samples = (num_epochs * tokens_per_epoch - 1) / seq_length;
     int64_t* sample_idx = new int64_t[2*(num_samples+1)];
-
-    cout << "    using:" << endl << std::flush;
-    cout << "     number of documents:       " <<
-      doc_idx_.shape(0) / num_epochs << endl << std::flush;
-    cout << "     number of epochs:          " << num_epochs <<
-      endl << std::flush;
-    cout << "     sequence length:           " << seq_length <<
-      endl << std::flush;
-    cout << "     total number of samples:   " << num_samples <<
-      endl << std::flush;
+    if (verbose) {
+      cout << "    using:" << endl << std::flush;
+      cout << "     number of documents:       " <<
+	doc_idx_.shape(0) / num_epochs << endl << std::flush;
+      cout << "     number of epochs:          " << num_epochs <<
+	endl << std::flush;
+      cout << "     sequence length:           " << seq_length <<
+	endl << std::flush;
+      cout << "     total number of samples:   " << num_samples <<
+	endl << std::flush;
+    }
 
     // Index into sample_idx.
     int64_t sample_index = 0;
@@ -698,4 +715,5 @@ PYBIND11_MODULE(helpers, m) {
     m.def("build_blocks_mapping", &build_blocks_mapping);
     m.def("build_sample_idx", &build_sample_idx);
     m.def("build_blending_indices", &build_blending_indices);
+    m.def("build_concat_indices", &build_concat_indices);
 }
diff --git a/megatron/data/ict_dataset.py b/megatron/data/ict_dataset.py
index 6dac35ff9d4..9adc216bb85 100644
--- a/megatron/data/ict_dataset.py
+++ b/megatron/data/ict_dataset.py
@@ -9,6 +9,7 @@
 from megatron.data.dataset_utils import get_indexed_dataset_
 from megatron.data.realm_dataset_utils import get_block_samples_mapping
 
+
 def make_attention_mask(source_block, target_block):
     """
     Returns a 2-dimensional (2-D) attention mask
@@ -20,16 +21,17 @@ def make_attention_mask(source_block, target_block):
     # (source_length, target_length)
     return mask
 
+
 def get_ict_dataset(use_titles=True, query_in_block_prob=1):
     """Get a dataset which uses block samples mappings to get ICT/block indexing data (via get_block())
     rather than for training, since it is only built with a single epoch sample mapping.
     """
     args = get_args()
-    block_dataset = get_indexed_dataset_(args.data_path, 'mmap', True)
-    titles_dataset = get_indexed_dataset_(args.titles_data_path, 'mmap', True)
+    block_dataset = get_indexed_dataset_(args.data_path, "mmap", True)
+    titles_dataset = get_indexed_dataset_(args.titles_data_path, "mmap", True)
 
     kwargs = dict(
-        name='full',
+        name="full",
         block_dataset=block_dataset,
         title_dataset=titles_dataset,
         data_prefix=args.data_path,
@@ -39,7 +41,7 @@ def get_ict_dataset(use_titles=True, query_in_block_prob=1):
         seed=1,
         query_in_block_prob=query_in_block_prob,
         use_titles=use_titles,
-        use_one_sent_docs=args.use_one_sent_docs
+        use_one_sent_docs=args.use_one_sent_docs,
     )
     dataset = ICTDataset(**kwargs)
     return dataset
@@ -47,9 +49,22 @@ def get_ict_dataset(use_titles=True, query_in_block_prob=1):
 
 class ICTDataset(Dataset):
     """Dataset containing sentences and their blocks for an inverse cloze task."""
-    def __init__(self, name, block_dataset, title_dataset, data_prefix,
-                 num_epochs, max_num_samples, max_seq_length, query_in_block_prob,
-                 seed, use_titles=True, use_one_sent_docs=False, binary_head=False):
+
+    def __init__(
+        self,
+        name,
+        block_dataset,
+        title_dataset,
+        data_prefix,
+        num_epochs,
+        max_num_samples,
+        max_seq_length,
+        query_in_block_prob,
+        seed,
+        use_titles=True,
+        use_one_sent_docs=False,
+        binary_head=False,
+    ):
         self.name = name
         self.seed = seed
         self.max_seq_length = max_seq_length
@@ -61,8 +76,16 @@ def __init__(self, name, block_dataset, title_dataset, data_prefix,
         self.use_one_sent_docs = use_one_sent_docs
 
         self.samples_mapping = get_block_samples_mapping(
-            block_dataset, title_dataset, data_prefix, num_epochs,
-            max_num_samples, max_seq_length, seed, name, use_one_sent_docs)
+            block_dataset,
+            title_dataset,
+            data_prefix,
+            num_epochs,
+            max_num_samples,
+            max_seq_length,
+            seed,
+            name,
+            use_one_sent_docs,
+        )
         self.tokenizer = get_tokenizer()
         self.vocab_id_list = list(self.tokenizer.inv_vocab.keys())
         self.vocab_id_to_token_list = self.tokenizer.inv_vocab
@@ -99,8 +122,8 @@ def __getitem__(self, idx):
 
         # still need to truncate because blocks are concluded when
         # the sentence lengths have exceeded max_seq_length.
-        query = query[:self.max_seq_length - 2]
-        block = list(itertools.chain(*block))[:self.max_seq_length - title_pad_offset]
+        query = query[: self.max_seq_length - 2]
+        block = list(itertools.chain(*block))[: self.max_seq_length - title_pad_offset]
 
         query_tokens, query_pad_mask = self.concat_and_pad_tokens(query)
         context_tokens, context_pad_mask = self.concat_and_pad_tokens(block, title)
@@ -111,13 +134,13 @@ def __getitem__(self, idx):
         block_data = sample_data.as_array()
 
         sample = {
-            'query_tokens': query_tokens,
-            'query_mask': query_mask,
-            'query_pad_mask': query_pad_mask,
-            'context_tokens': context_tokens,
-            'context_mask': context_mask,
-            'context_pad_mask': context_pad_mask,
-            'block_data': block_data,
+            "query_tokens": query_tokens,
+            "query_mask": query_mask,
+            "query_pad_mask": query_pad_mask,
+            "context_tokens": context_tokens,
+            "context_mask": context_mask,
+            "context_pad_mask": context_pad_mask,
+            "block_data": block_data,
         }
 
         return sample
@@ -127,7 +150,7 @@ def get_block(self, start_idx, end_idx, doc_idx):
         block = [self.block_dataset[i] for i in range(start_idx, end_idx)]
         title = self.title_dataset[int(doc_idx)]
 
-        block = list(itertools.chain(*block))[:self.max_seq_length - (3 + len(title))]
+        block = list(itertools.chain(*block))[: self.max_seq_length - (3 + len(title))]
         block_tokens, block_pad_mask = self.concat_and_pad_tokens(block, title)
 
         return block_tokens, block_pad_mask
diff --git a/megatron/data/image_folder.py b/megatron/data/image_folder.py
index de15b29bf06..a49eda08e7e 100644
--- a/megatron/data/image_folder.py
+++ b/megatron/data/image_folder.py
@@ -1,6 +1,6 @@
 # BSD 3-Clause License
 #
-# Copyright (c) Soumith Chintala 2016, 
+# Copyright (c) Soumith Chintala 2016,
 # All rights reserved.
 #
 # Redistribution and use in source and binary forms, with or without
@@ -28,7 +28,7 @@
 # OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
-# code taken from 
+# code taken from
 # https://github.com/pytorch/vision/blob/main/torchvision/datasets/folder.py
 # added support for classes_fraction and data_per_class_fraction
 
@@ -40,6 +40,7 @@
 from typing import Any, Callable, cast, Dict, List, Optional, Tuple
 import numpy as np
 
+
 def has_file_allowed_extension(filename: str, extensions: Tuple[str, ...]) -> bool:
     """Checks if a file is an allowed extension.
     Args:
@@ -88,10 +89,14 @@ def make_dataset(
     both_none = extensions is None and is_valid_file is None
     both_something = extensions is not None and is_valid_file is not None
     if both_none or both_something:
-        raise ValueError("Both extensions and is_valid_file cannot be None or not None at the same time")
+        raise ValueError(
+            "Both extensions and is_valid_file cannot be None or not None at the same time"
+        )
     if extensions is not None:
+
         def is_valid_file(x: str) -> bool:
             return has_file_allowed_extension(x, cast(Tuple[str, ...], extensions))
+
     is_valid_file = cast(Callable[[str], bool], is_valid_file)
     for target_class in sorted(class_to_idx.keys()):
         class_index = class_to_idx[target_class]
@@ -106,7 +111,9 @@ def is_valid_file(x: str) -> bool:
                     item = path, class_index
                     local_instances.append(item)
 
-        instances.extend(local_instances[0:int(len(local_instances) * data_per_class_fraction)])
+        instances.extend(
+            local_instances[0 : int(len(local_instances) * data_per_class_fraction)]
+        )
 
     return instances
 
@@ -140,26 +147,29 @@ class DatasetFolder(VisionDataset):
     """
 
     def __init__(
-            self,
-            root: str,
-            loader: Callable[[str], Any],
-            extensions: Optional[Tuple[str, ...]] = None,
-            transform: Optional[Callable] = None,
-            target_transform: Optional[Callable] = None,
-            classes_fraction=1.0,
-            data_per_class_fraction=1.0,
-            is_valid_file: Optional[Callable[[str], bool]] = None,
+        self,
+        root: str,
+        loader: Callable[[str], Any],
+        extensions: Optional[Tuple[str, ...]] = None,
+        transform: Optional[Callable] = None,
+        target_transform: Optional[Callable] = None,
+        classes_fraction=1.0,
+        data_per_class_fraction=1.0,
+        is_valid_file: Optional[Callable[[str], bool]] = None,
     ) -> None:
-        super(DatasetFolder, self).__init__(root, transform=transform,
-                                            target_transform=target_transform)
+        super(DatasetFolder, self).__init__(
+            root, transform=transform, target_transform=target_transform
+        )
         self.classes_fraction = classes_fraction
         self.data_per_class_fraction = data_per_class_fraction
         classes, class_to_idx = self._find_classes(self.root)
-        samples = self.make_dataset(self.root,
-                                    class_to_idx,
-                                    self.data_per_class_fraction,
-                                    extensions,
-                                    is_valid_file)
+        samples = self.make_dataset(
+            self.root,
+            class_to_idx,
+            self.data_per_class_fraction,
+            extensions,
+            is_valid_file,
+        )
         if len(samples) == 0:
             msg = "Found 0 files in subfolders of: {}\n".format(self.root)
             if extensions is not None:
@@ -182,11 +192,13 @@ def make_dataset(
         extensions: Optional[Tuple[str, ...]] = None,
         is_valid_file: Optional[Callable[[str], bool]] = None,
     ) -> List[Tuple[str, int]]:
-        return make_dataset(directory,
-                            class_to_idx,
-                            data_per_class_fraction,
-                            extensions=extensions,
-                            is_valid_file=is_valid_file)
+        return make_dataset(
+            directory,
+            class_to_idx,
+            data_per_class_fraction,
+            extensions=extensions,
+            is_valid_file=is_valid_file,
+        )
 
     def _find_classes(self, dir: str) -> Tuple[List[str], Dict[str, int]]:
         """
@@ -199,7 +211,7 @@ def _find_classes(self, dir: str) -> Tuple[List[str], Dict[str, int]]:
             No class is a subdirectory of another.
         """
         all_classes = [d.name for d in os.scandir(dir) if d.is_dir()]
-        classes = all_classes[0:int(len(all_classes) * self.classes_fraction)]
+        classes = all_classes[0 : int(len(all_classes) * self.classes_fraction)]
         classes.sort()
         class_to_idx = {cls_name: i for i, cls_name in enumerate(classes)}
         return classes, class_to_idx
@@ -231,19 +243,30 @@ def __len__(self) -> int:
         return len(self.samples)
 
 
-IMG_EXTENSIONS = ('.jpg', '.jpeg', '.png', '.ppm', '.bmp', '.pgm', '.tif', '.tiff', '.webp')
+IMG_EXTENSIONS = (
+    ".jpg",
+    ".jpeg",
+    ".png",
+    ".ppm",
+    ".bmp",
+    ".pgm",
+    ".tif",
+    ".tiff",
+    ".webp",
+)
 
 
 def pil_loader(path: str) -> Image.Image:
     # open path as file to avoid ResourceWarning (https://github.com/python-pillow/Pillow/issues/835)
-    with open(path, 'rb') as f:
+    with open(path, "rb") as f:
         img = Image.open(f)
-        return img.convert('RGB')
+        return img.convert("RGB")
 
 
 # TODO: specify the return type
 def accimage_loader(path: str) -> Any:
     import accimage
+
     try:
         return accimage.Image(path)
     except IOError:
@@ -253,7 +276,8 @@ def accimage_loader(path: str) -> Any:
 
 def default_loader(path: str) -> Any:
     from torchvision import get_image_backend
-    if get_image_backend() == 'accimage':
+
+    if get_image_backend() == "accimage":
         return accimage_loader(path)
     else:
         return pil_loader(path)
@@ -283,20 +307,23 @@ class ImageFolder(DatasetFolder):
     """
 
     def __init__(
-            self,
-            root: str,
-            transform: Optional[Callable] = None,
-            target_transform: Optional[Callable] = None,
-            classes_fraction=1.0,
-            data_per_class_fraction=1.0,
-            loader: Callable[[str], Any] = default_loader,
-            is_valid_file: Optional[Callable[[str], bool]] = None,
+        self,
+        root: str,
+        transform: Optional[Callable] = None,
+        target_transform: Optional[Callable] = None,
+        classes_fraction=1.0,
+        data_per_class_fraction=1.0,
+        loader: Callable[[str], Any] = default_loader,
+        is_valid_file: Optional[Callable[[str], bool]] = None,
     ):
-        super(ImageFolder, self).__init__(root, loader, IMG_EXTENSIONS if is_valid_file is None else None,
-                                          transform=transform,
-                                          target_transform=target_transform,
-                                          classes_fraction=classes_fraction,
-                                          data_per_class_fraction=data_per_class_fraction,
-                                          is_valid_file=is_valid_file)
+        super(ImageFolder, self).__init__(
+            root,
+            loader,
+            IMG_EXTENSIONS if is_valid_file is None else None,
+            transform=transform,
+            target_transform=target_transform,
+            classes_fraction=classes_fraction,
+            data_per_class_fraction=data_per_class_fraction,
+            is_valid_file=is_valid_file,
+        )
         self.imgs = self.samples
-
diff --git a/megatron/data/indexed_dataset.py b/megatron/data/indexed_dataset.py
index 62ebdc9813a..f7f6e0e1d3a 100644
--- a/megatron/data/indexed_dataset.py
+++ b/megatron/data/indexed_dataset.py
@@ -15,13 +15,20 @@
 
 from functools import lru_cache
 import os
+
 import shutil
 import struct
 from itertools import accumulate
 
 import numpy as np
 import torch
-from megatron import print_rank_0
+
+# from megatron import print_rank_0
+from megatron.utils import Profile, get_logger
+
+log = get_logger(__name__)
+
+dlp = Profile("DATASET")
 
 
 def __best_fitting_dtype(vocab_size=None):
@@ -32,28 +39,32 @@ def __best_fitting_dtype(vocab_size=None):
 
 
 def get_available_dataset_impl():
-    return ['lazy', 'cached', 'mmap']
+    return ["lazy", "cached", "mmap"]
 
 
 def infer_dataset_impl(path):
     if IndexedDataset.exists(path):
-        with open(index_file_path(path), 'rb') as f:
+        with open(index_file_path(path), "rb") as f:
             magic = f.read(8)
             if magic == IndexedDataset._HDR_MAGIC:
-                return 'cached'
+                return "cached"
             elif magic == MMapIndexedDataset.Index._HDR_MAGIC[:8]:
-                return 'mmap'
+                return "mmap"
             else:
                 return None
     else:
         print(f"Dataset does not exist: {path}")
-        print("Path should be a basename that both .idx and .bin can be appended to get full filenames.")
+        print(
+            "Path should be a basename that both .idx and .bin can be appended to get full filenames."
+        )
         return None
 
 
 def make_builder(out_file, impl, vocab_size=None):
-    if impl == 'mmap':
-        return MMapIndexedDatasetBuilder(out_file, dtype=__best_fitting_dtype(vocab_size))
+    if impl == "mmap":
+        return MMapIndexedDatasetBuilder(
+            out_file, dtype=__best_fitting_dtype(vocab_size)
+        )
     else:
         return IndexedDatasetBuilder(out_file)
 
@@ -61,22 +72,24 @@ def make_builder(out_file, impl, vocab_size=None):
 def make_dataset(path, impl, skip_warmup=False):
     if not IndexedDataset.exists(path):
         print(f"Dataset does not exist: {path}")
-        print("Path should be a basename that both .idx and .bin can be appended to get full filenames.")
+        print(
+            "Path should be a basename that both .idx and .bin can be appended to get full filenames."
+        )
         return None
-    if impl == 'infer':
+    if impl == "infer":
         impl = infer_dataset_impl(path)
-    if impl == 'lazy' and IndexedDataset.exists(path):
+    if impl == "lazy" and IndexedDataset.exists(path):
         return IndexedDataset(path)
-    elif impl == 'cached' and IndexedDataset.exists(path):
+    elif impl == "cached" and IndexedDataset.exists(path):
         return IndexedCachedDataset(path)
-    elif impl == 'mmap' and MMapIndexedDataset.exists(path):
+    elif impl == "mmap" and MMapIndexedDataset.exists(path):
         return MMapIndexedDataset(path, skip_warmup)
     print(f"Unknown dataset implementation: {impl}")
     return None
 
 
 def dataset_exists(path, impl):
-    if impl == 'mmap':
+    if impl == "mmap":
         return MMapIndexedDataset.exists(path)
     else:
         return IndexedDataset.exists(path)
@@ -112,11 +125,11 @@ def code(dtype):
 
 
 def index_file_path(prefix_path):
-    return prefix_path + '.idx'
+    return prefix_path + ".idx"
 
 
 def data_file_path(prefix_path):
-    return prefix_path + '.bin'
+    return prefix_path + ".bin"
 
 
 def create_doc_idx(sizes):
@@ -129,7 +142,8 @@ def create_doc_idx(sizes):
 
 class IndexedDataset(torch.utils.data.Dataset):
     """Loader for IndexedDataset"""
-    _HDR_MAGIC = b'TNTIDX\x00\x00'
+
+    _HDR_MAGIC = b"TNTIDX\x00\x00"
 
     def __init__(self, path):
         super().__init__()
@@ -137,43 +151,46 @@ def __init__(self, path):
         self.data_file = None
         self.read_index(path)
 
+    @dlp.log
     def read_index(self, path):
-        with open(index_file_path(path), 'rb') as f:
+        with open(index_file_path(path), "rb") as f:
             magic = f.read(8)
             assert magic == self._HDR_MAGIC, (
-                'Index file doesn\'t match expected format. '
-                'Make sure that --dataset-impl is configured properly.'
+                "Index file doesn't match expected format. "
+                "Make sure that --dataset-impl is configured properly."
             )
             version = f.read(8)
-            assert struct.unpack('<Q', version) == (1,)
-            code, self.element_size = struct.unpack('<QQ', f.read(16))
+            assert struct.unpack("<Q", version) == (1,)
+            code, self.element_size = struct.unpack("<QQ", f.read(16))
             self.dtype = dtypes[code]
-            self._len, self.s = struct.unpack('<QQ', f.read(16))
-            self.doc_count = struct.unpack('<Q', f.read(8))
+            self._len, self.s = struct.unpack("<QQ", f.read(16))
+            self.doc_count = struct.unpack("<Q", f.read(8))
             self.dim_offsets = read_longs(f, self._len + 1)
             self.data_offsets = read_longs(f, self._len + 1)
             self.sizes = read_longs(f, self.s)
             self.doc_idx = read_longs(f, self.doc_count)
 
+    @dlp.log
     def read_data(self, path):
-        self.data_file = open(data_file_path(path), 'rb', buffering=0)
+        self.data_file = open(data_file_path(path), "rb", buffering=0)
 
     def check_index(self, i):
         if i < 0 or i >= self._len:
-            raise IndexError('index out of range')
+            raise IndexError("index out of range")
 
     def __del__(self):
         if self.data_file:
             self.data_file.close()
 
     # @lru_cache(maxsize=8)
+    @dlp.log
     def __getitem__(self, idx):
         if not self.data_file:
             self.read_data(self.path)
         if isinstance(idx, int):
             i = idx
             self.check_index(i)
-            tensor_size = self.sizes[self.dim_offsets[i]:self.dim_offsets[i + 1]]
+            tensor_size = self.sizes[self.dim_offsets[i] : self.dim_offsets[i + 1]]
             a = np.empty(tensor_size, dtype=self.dtype)
             self.data_file.seek(self.data_offsets[i] * self.element_size)
             self.data_file.readinto(a)
@@ -182,7 +199,7 @@ def __getitem__(self, idx):
             start, stop, step = idx.indices(len(self))
             if step != 1:
                 raise ValueError("Slices into indexed_dataset must be contiguous")
-            sizes = self.sizes[self.dim_offsets[start]:self.dim_offsets[stop]]
+            sizes = self.sizes[self.dim_offsets[start] : self.dim_offsets[stop]]
             size = sum(sizes)
             a = np.empty(size, dtype=self.dtype)
             self.data_file.seek(self.data_offsets[start] * self.element_size)
@@ -202,8 +219,8 @@ def size(self, index):
 
     @staticmethod
     def exists(path):
-        return (
-            os.path.exists(index_file_path(path)) and os.path.exists(data_file_path(path))
+        return os.path.exists(index_file_path(path)) and os.path.exists(
+            data_file_path(path)
         )
 
     @property
@@ -222,6 +239,7 @@ def __init__(self, path):
     def supports_prefetch(self):
         return True
 
+    @dlp.log
     def prefetch(self, indices):
         if all(i in self.cache_index for i in indices):
             return
@@ -237,7 +255,7 @@ def prefetch(self, indices):
         for i in indices:
             self.cache_index[i] = ptx
             size = self.data_offsets[i + 1] - self.data_offsets[i]
-            a = self.cache[ptx: ptx + size]
+            a = self.cache[ptx : ptx + size]
             self.data_file.seek(self.data_offsets[i] * self.element_size)
             self.data_file.readinto(a)
             ptx += size
@@ -247,14 +265,15 @@ def prefetch(self, indices):
             self.data_file = None
 
     # @lru_cache(maxsize=8)
+    @dlp.log
     def __getitem__(self, idx):
         if isinstance(idx, int):
             i = idx
             self.check_index(i)
-            tensor_size = self.sizes[self.dim_offsets[i]:self.dim_offsets[i + 1]]
+            tensor_size = self.sizes[self.dim_offsets[i] : self.dim_offsets[i + 1]]
             a = np.empty(tensor_size, dtype=self.dtype)
             ptx = self.cache_index[i]
-            np.copyto(a, self.cache[ptx: ptx + a.size])
+            np.copyto(a, self.cache[ptx : ptx + a.size])
             return a
         elif isinstance(idx, slice):
             # Hack just to make this work, can optimizer later if necessary
@@ -275,8 +294,9 @@ class IndexedDatasetBuilder(object):
         np.float64: 8,
     }
 
+    @dlp.log
     def __init__(self, out_file, dtype=np.int32):
-        self.out_file = open(out_file, 'wb')
+        self.out_file = open(out_file, "wb")
         self.dtype = dtype
         self.data_offsets = [0]
         self.dim_offsets = [0]
@@ -284,6 +304,7 @@ def __init__(self, out_file, dtype=np.int32):
         self.element_size = self.element_sizes[self.dtype]
         self.doc_idx = [0]
 
+    @dlp.log
     def add_item(self, tensor):
         bytes = self.out_file.write(np.array(tensor.numpy(), dtype=self.dtype))
         self.data_offsets.append(self.data_offsets[-1] + bytes / self.element_size)
@@ -294,6 +315,7 @@ def add_item(self, tensor):
     def end_document(self):
         self.doc_idx.append(len(self.sizes))
 
+    @dlp.log
     def merge_file_(self, another_file):
         index = IndexedDataset(another_file)
         assert index.dtype == self.dtype
@@ -311,7 +333,7 @@ def merge_file_(self, another_file):
 
         self.doc_idx.extend((doc_offset + index.doc_idx)[1:])
 
-        with open(data_file_path(another_file), 'rb') as f:
+        with open(data_file_path(another_file), "rb") as f:
             while True:
                 data = f.read(1024)
                 if data:
@@ -321,12 +343,12 @@ def merge_file_(self, another_file):
 
     def finalize(self, index_file):
         self.out_file.close()
-        index = open(index_file, 'wb')
-        index.write(b'TNTIDX\x00\x00')
-        index.write(struct.pack('<Q', 1))
-        index.write(struct.pack('<QQ', code(self.dtype), self.element_size))
-        index.write(struct.pack('<QQ', len(self.data_offsets) - 1, len(self.sizes)))
-        index.write(struct.pack('<Q', len(self.doc_idx)))
+        index = open(index_file, "wb")
+        index.write(b"TNTIDX\x00\x00")
+        index.write(struct.pack("<Q", 1))
+        index.write(struct.pack("<QQ", code(self.dtype), self.element_size))
+        index.write(struct.pack("<QQ", len(self.data_offsets) - 1, len(self.sizes)))
+        index.write(struct.pack("<Q", len(self.doc_idx)))
         write_longs(index, self.dim_offsets)
         write_longs(index, self.data_offsets)
         write_longs(index, self.sizes)
@@ -334,8 +356,9 @@ def finalize(self, index_file):
         index.close()
 
 
+@dlp.log
 def _warmup_mmap_file(path):
-    with open(path, 'rb') as stream:
+    with open(path, "rb") as stream:
         while stream.read(100 * 1024 * 1024):
             pass
 
@@ -373,18 +396,20 @@ def get_pointers_with_total(sizes, elemsize, dtype):
 
 
 class MMapIndexedDataset(torch.utils.data.Dataset):
+
     class Index(object):
-        _HDR_MAGIC = b'MMIDIDX\x00\x00'
+        _HDR_MAGIC = b"MMIDIDX\x00\x00"
 
         @classmethod
         def writer(cls, path, dtype):
             class _Writer(object):
+
                 def __enter__(self):
-                    self._file = open(path, 'wb')
+                    self._file = open(path, "wb")
 
                     self._file.write(cls._HDR_MAGIC)
-                    self._file.write(struct.pack('<Q', 1))
-                    self._file.write(struct.pack('<B', code(dtype)))
+                    self._file.write(struct.pack("<Q", 1))
+                    self._file.write(struct.pack("<B", code(dtype)))
 
                     return self
 
@@ -397,66 +422,76 @@ def _get_pointers(sizes, npdtype):
                     """
 
                     # compute element sizes in bytes
-                    pointers, _ = get_pointers_with_total(sizes, dtype().itemsize, npdtype)
+                    pointers, _ = get_pointers_with_total(
+                        sizes, dtype().itemsize, npdtype
+                    )
                     return pointers
 
+                @dlp.log
                 def write(self, sizes, doc_idx):
-                    self._file.write(struct.pack('<Q', len(sizes)))
-                    self._file.write(struct.pack('<Q', len(doc_idx)))
+                    self._file.write(struct.pack("<Q", len(sizes)))
+                    self._file.write(struct.pack("<Q", len(doc_idx)))
 
                     sizes32 = np.array(sizes, dtype=np.int32)
-                    self._file.write(sizes32.tobytes(order='C'))
+                    self._file.write(sizes32.tobytes(order="C"))
                     del sizes32
 
                     pointers = self._get_pointers(sizes, np.int64)
                     del sizes
-                    self._file.write(pointers.tobytes(order='C'))
+                    self._file.write(pointers.tobytes(order="C"))
                     del pointers
 
                     doc_idx = np.array(doc_idx, dtype=np.int64)
-                    self._file.write(doc_idx.tobytes(order='C'))
+                    self._file.write(doc_idx.tobytes(order="C"))
 
                 def __exit__(self, exc_type, exc_val, exc_tb):
                     self._file.close()
 
             return _Writer()
 
+        @dlp.log
         def __init__(self, path, skip_warmup=False):
-            with open(path, 'rb') as stream:
+            with open(path, "rb") as stream:
                 magic_test = stream.read(9)
                 assert self._HDR_MAGIC == magic_test, (
-                    'Index file doesn\'t match expected format. '
-                    'Make sure that --dataset-impl is configured properly.'
+                    "Index file doesn't match expected format. "
+                    "Make sure that --dataset-impl is configured properly."
                 )
-                version = struct.unpack('<Q', stream.read(8))
+                version = struct.unpack("<Q", stream.read(8))
                 assert (1,) == version
 
-                dtype_code, = struct.unpack('<B', stream.read(1))
+                (dtype_code,) = struct.unpack("<B", stream.read(1))
                 self._dtype = dtypes[dtype_code]
                 self._dtype_size = self._dtype().itemsize
 
-                self._len = struct.unpack('<Q', stream.read(8))[0]
-                self._doc_count = struct.unpack('<Q', stream.read(8))[0]
+                self._len = struct.unpack("<Q", stream.read(8))[0]
+                self._doc_count = struct.unpack("<Q", stream.read(8))[0]
                 offset = stream.tell()
 
             if not skip_warmup:
-                print_rank_0("    warming up index mmap file...")
+                log.debug("    warming up index mmap file...")
                 _warmup_mmap_file(path)
 
-            self._bin_buffer_mmap = np.memmap(path, mode='r', order='C')
+            self._bin_buffer_mmap = np.memmap(path, mode="r", order="C")
             self._bin_buffer = memoryview(self._bin_buffer_mmap)
-            print_rank_0("    reading sizes...")
+            log.debug("    reading sizes...")
             self._sizes = np.frombuffer(
+                self._bin_buffer, dtype=np.int32, count=self._len, offset=offset
+            )
+            log.debug("    reading pointers...")
+            self._pointers = np.frombuffer(
                 self._bin_buffer,
-                dtype=np.int32,
+                dtype=np.int64,
                 count=self._len,
-                offset=offset)
-            print_rank_0("    reading pointers...")
-            self._pointers = np.frombuffer(self._bin_buffer, dtype=np.int64, count=self._len,
-                                           offset=offset + self._sizes.nbytes)
-            print_rank_0("    reading document index...")
-            self._doc_idx = np.frombuffer(self._bin_buffer, dtype=np.int64, count=self._doc_count,
-                                          offset=offset + self._sizes.nbytes + self._pointers.nbytes)
+                offset=offset + self._sizes.nbytes,
+            )
+            log.debug("    reading document index...")
+            self._doc_idx = np.frombuffer(
+                self._bin_buffer,
+                dtype=np.int64,
+                count=self._doc_count,
+                offset=offset + self._sizes.nbytes + self._pointers.nbytes,
+            )
 
         def __del__(self):
             self._bin_buffer_mmap._mmap.close()
@@ -496,17 +531,20 @@ def __getstate__(self):
     def __setstate__(self, state):
         self._do_init(state, skip_warmup=True)
 
+    @dlp.log
     def _do_init(self, path, skip_warmup):
         self._path = path
         self._index = self.Index(index_file_path(self._path), skip_warmup)
 
         if not skip_warmup:
-            print_rank_0("    warming up data mmap file...")
+            log.debug("    warming up data mmap file...")
             _warmup_mmap_file(data_file_path(self._path))
-        print_rank_0("    creating numpy buffer of mmap...")
-        print_rank_0(data_file_path(self._path))
-        self._bin_buffer_mmap = np.memmap(data_file_path(self._path), mode='r', order='C')
-        print_rank_0("    creating memory view of numpy buffer...")
+        log.debug("    creating numpy buffer of mmap...")
+        log.debug(data_file_path(self._path))
+        self._bin_buffer_mmap = np.memmap(
+            data_file_path(self._path), mode="r", order="C"
+        )
+        log.debug("    creating memory view of numpy buffer...")
         self._bin_buffer = memoryview(self._bin_buffer_mmap)
 
     def __del__(self):
@@ -518,11 +556,13 @@ def __len__(self):
         return len(self._index)
 
     # @lru_cache(maxsize=8)
+    @dlp.log
     def __getitem__(self, idx):
         if isinstance(idx, (int, np.integer)):
             ptr, size = self._index[idx]
-            np_array = np.frombuffer(self._bin_buffer, dtype=self._index.dtype,
-                                     count=size, offset=ptr)
+            np_array = np.frombuffer(
+                self._bin_buffer, dtype=self._index.dtype, count=size, offset=ptr
+            )
             return np_array
         elif isinstance(idx, slice):
             start, stop, step = idx.indices(len(self))
@@ -532,15 +572,17 @@ def __getitem__(self, idx):
             sizes = self._index._sizes[idx]
             offsets = list(accumulate(sizes))
             total_size = sum(sizes)
-            np_array = np.frombuffer(self._bin_buffer, dtype=self._index.dtype,
-                                     count=total_size, offset=ptr)
+            np_array = np.frombuffer(
+                self._bin_buffer, dtype=self._index.dtype, count=total_size, offset=ptr
+            )
             sents = np.split(np_array, offsets[:-1])
             return sents
         else:
             raise TypeError("Unexpected type received for idx: {}".format(type(idx)))
 
+    @dlp.log
     def get(self, idx, offset=0, length=None):
-        """ Retrieves a single item from the dataset with the option to only
+        """Retrieves a single item from the dataset with the option to only
         return a portion of the item.
 
         get(idx) is the same as [idx] but get() does not support slicing.
@@ -549,8 +591,9 @@ def get(self, idx, offset=0, length=None):
         if length is None:
             length = size - offset
         ptr += offset * np.dtype(self._index.dtype).itemsize
-        np_array = np.frombuffer(self._bin_buffer, dtype=self._index.dtype,
-                                 count=length, offset=ptr)
+        np_array = np.frombuffer(
+            self._bin_buffer, dtype=self._index.dtype, count=length, offset=ptr
+        )
         return np_array
 
     @property
@@ -576,8 +619,8 @@ def supports_prefetch(self):
 
     @staticmethod
     def exists(path):
-        return (
-            os.path.exists(index_file_path(path)) and os.path.exists(data_file_path(path))
+        return os.path.exists(index_file_path(path)) and os.path.exists(
+            data_file_path(path)
         )
 
     @property
@@ -586,26 +629,30 @@ def dtype(self):
 
 
 class MMapIndexedDatasetBuilder(object):
+
     def __init__(self, out_file, dtype=np.int64):
-        self._data_file = open(out_file, 'wb')
+        self._data_file = open(out_file, "wb")
         self._dtype = dtype
         self._sizes = []
         self._doc_idx = [0]
 
+    @dlp.log
     def add_item(self, tensor):
         np_array = np.array(tensor.numpy(), dtype=self._dtype)
-        self._data_file.write(np_array.tobytes(order='C'))
+        self._data_file.write(np_array.tobytes(order="C"))
         self._sizes.append(np_array.size)
 
+    @dlp.log
     def add_doc(self, tensor, sizes):
         np_array = np.array(tensor, dtype=self._dtype)
-        self._data_file.write(np_array.tobytes(order='C'))
+        self._data_file.write(np_array.tobytes(order="C"))
         self._sizes.extend(sizes)
         self._doc_idx.append(len(self._sizes))
 
     def end_document(self):
         self._doc_idx.append(len(self._sizes))
 
+    @dlp.log
     def merge_file_(self, another_file):
         # Concatenate index
         index = MMapIndexedDataset.Index(index_file_path(another_file))
@@ -616,7 +663,7 @@ def merge_file_(self, another_file):
         self._doc_idx.extend((offset + index.doc_idx)[1:])
 
         # Concatenate data
-        with open(data_file_path(another_file), 'rb') as f:
+        with open(data_file_path(another_file), "rb") as f:
             shutil.copyfileobj(f, self._data_file)
 
     def finalize(self, index_file):
diff --git a/megatron/data/orqa_wiki_dataset.py b/megatron/data/orqa_wiki_dataset.py
index 4019cd764c2..45ac1aaf8b9 100644
--- a/megatron/data/orqa_wiki_dataset.py
+++ b/megatron/data/orqa_wiki_dataset.py
@@ -13,22 +13,24 @@
 from megatron.core import tensor_parallel
 from megatron.data.biencoder_dataset_utils import make_attention_mask
 
+
 def get_open_retrieval_wiki_dataset():
     args = get_args()
     tokenizer = get_tokenizer()
 
-    dataset = OpenRetrievalEvidenceDataset('2018 Wikipedia from DPR codebase',
-                                           'evidence',
-                                           args.evidence_data_path,
-                                           tokenizer,
-                                           args.retriever_seq_length)
+    dataset = OpenRetrievalEvidenceDataset(
+        "2018 Wikipedia from DPR codebase",
+        "evidence",
+        args.evidence_data_path,
+        tokenizer,
+        args.retriever_seq_length,
+    )
     return dataset
 
 
 def get_open_retrieval_batch(data_iterator):
     # Items and their type.
-    keys = ['row_id', 'context', 'context_mask', 'context_types', 
-        'context_pad_mask']
+    keys = ["row_id", "context", "context_mask", "context_types", "context_pad_mask"]
     datatype = torch.int64
 
     # Broadcast data.
@@ -36,14 +38,14 @@ def get_open_retrieval_batch(data_iterator):
     data_b = tensor_parallel.broadcast_data(keys, data, datatype)
 
     # Unpack.
-    row_id = data_b['row_id'].long()
-    context = data_b['context'].long()
+    row_id = data_b["row_id"].long()
+    context = data_b["context"].long()
 
     # TODO: make the context mask a binary one
-    context_mask = (data_b['context_mask'] < 0.5)
+    context_mask = data_b["context_mask"] < 0.5
 
-    context_types = data_b['context_types'].long()
-    context_pad_mask = data_b['context_pad_mask'].long()
+    context_types = data_b["context_types"].long()
+    context_pad_mask = data_b["context_pad_mask"].long()
 
     return row_id, context, context_mask, context_types, context_pad_mask
 
@@ -51,22 +53,27 @@ def get_open_retrieval_batch(data_iterator):
 def build_tokens_types_paddings_from_text(row, tokenizer, max_seq_length):
     """Build token types and paddings, trim if needed, and pad if needed."""
 
-    title_ids = tokenizer.tokenize(row['title'])
-    context_ids = tokenizer.tokenize(row['text'])
+    title_ids = tokenizer.tokenize(row["title"])
+    context_ids = tokenizer.tokenize(row["text"])
 
     # Appending the title of the context at front
     extended_context_ids = title_ids + [tokenizer.sep_id] + context_ids
 
-    context_ids, context_types, context_pad_mask = \
-        build_tokens_types_paddings_from_ids(extended_context_ids, 
-            max_seq_length, tokenizer.cls, tokenizer.sep, tokenizer.pad)
+    context_ids, context_types, context_pad_mask = build_tokens_types_paddings_from_ids(
+        extended_context_ids,
+        max_seq_length,
+        tokenizer.cls,
+        tokenizer.sep,
+        tokenizer.pad,
+    )
 
     return context_ids, context_types, context_pad_mask
 
 
 # noinspection DuplicatedCode
-def build_tokens_types_paddings_from_ids(text_ids, max_seq_length,
-                                         cls_id, sep_id, pad_id):
+def build_tokens_types_paddings_from_ids(
+    text_ids, max_seq_length, cls_id, sep_id, pad_id
+):
     """Build token types and paddings, trim if needed, and pad if needed."""
     enc_ids = []
     tokentypes_enc = []
@@ -82,8 +89,8 @@ def build_tokens_types_paddings_from_ids(text_ids, max_seq_length,
 
     # Cap the size.
     if len(enc_ids) > max_seq_length - 1:
-        enc_ids = enc_ids[0: max_seq_length - 1]
-        tokentypes_enc = tokentypes_enc[0: max_seq_length - 1]
+        enc_ids = enc_ids[0 : max_seq_length - 1]
+        tokentypes_enc = tokentypes_enc[0 : max_seq_length - 1]
 
     # [SEP].
     enc_ids.append(sep_id)
@@ -109,40 +116,38 @@ def build_sample(row_id, context_ids, context_types, context_pad_mask):
     context_types = np.array(context_types, dtype=np.int64)
     context_mask = make_attention_mask(context_ids, context_ids)
 
-    sample = ({
-        'row_id': row_id,
-        'context': context_ids,
-        'context_mask': context_mask,
-        'context_types': context_types,
-        'context_pad_mask': context_pad_mask
-    })
+    sample = {
+        "row_id": row_id,
+        "context": context_ids,
+        "context_mask": context_mask,
+        "context_types": context_types,
+        "context_pad_mask": context_pad_mask,
+    }
     return sample
 
 
 class OpenRetrievalEvidenceDataset(ABC, Dataset):
     """Open Retrieval Evidence dataset class."""
 
-    def __init__(self, task_name, dataset_name, datapath, tokenizer,
-            max_seq_length):
+    def __init__(self, task_name, dataset_name, datapath, tokenizer, max_seq_length):
         # Store inputs.
         self.task_name = task_name
         self.dataset_name = dataset_name
         self.tokenizer = tokenizer
         self.max_seq_length = max_seq_length
-        print_rank_0(' > building {} dataset for {}:'.format(self.task_name,
-                                                            self.dataset_name))
+        print_rank_0(
+            " > building {} dataset for {}:".format(self.task_name, self.dataset_name)
+        )
         # Process the files.
         print_rank_0(datapath)
-        self.samples, self.id2text = self.process_samples_from_single_path(
-                                        datapath)
+        self.samples, self.id2text = self.process_samples_from_single_path(datapath)
 
         args = get_args()
         if args.sample_rate < 1:  # subsample
             k = int(len(self.samples) * args.sample_rate)
             self.samples = random.sample(self.samples, k)
 
-        print_rank_0('  >> total number of samples: {}'.format(
-            len(self.samples)))
+        print_rank_0("  >> total number of samples: {}".format(len(self.samples)))
 
     def __len__(self):
         return len(self.samples)
@@ -150,26 +155,27 @@ def __len__(self):
     def __getitem__(self, idx):
         row = self.samples[idx]
 
-        context_ids, context_types, context_pad_mask = \
-            build_tokens_types_paddings_from_text(row, self.tokenizer, 
-                self.max_seq_length)
+        context_ids, context_types, context_pad_mask = (
+            build_tokens_types_paddings_from_text(
+                row, self.tokenizer, self.max_seq_length
+            )
+        )
 
-        sample = build_sample(row['doc_id'],
-                              context_ids,
-                              context_types,
-                              context_pad_mask)
+        sample = build_sample(
+            row["doc_id"], context_ids, context_types, context_pad_mask
+        )
         return sample
 
     @staticmethod
     def process_samples_from_single_path(filename):
-        print_rank_0(' > Processing {} ...'.format(filename))
+        print_rank_0(" > Processing {} ...".format(filename))
         total = 0
 
         rows = []
         id2text = {}
 
         with open(filename) as tsvfile:
-            reader = csv.reader(tsvfile, delimiter='\t')
+            reader = csv.reader(tsvfile, delimiter="\t")
             next(reader, None)  # skip the headers
             for row in reader:
                 # file format: doc_id, doc_text, title
@@ -177,17 +183,14 @@ def process_samples_from_single_path(filename):
                 text = row[1]
                 title = row[2]
 
-                rows.append({'doc_id': doc_id,
-                             'text': text,
-                             'title': title})
+                rows.append({"doc_id": doc_id, "text": text, "title": title})
 
                 assert doc_id not in id2text
                 id2text[doc_id] = (text, title)
 
                 total += 1
                 if total % 100000 == 0:
-                    print_rank_0('  > processed {} rows so far ...'.format(
-                        total))
+                    print_rank_0("  > processed {} rows so far ...".format(total))
 
-        print_rank_0(' >> processed {} samples.'.format(len(rows)))
+        print_rank_0(" >> processed {} samples.".format(len(rows)))
         return rows, id2text
diff --git a/megatron/data/prompt_dataset.py b/megatron/data/prompt_dataset.py
index 40a2949bdfe..a550a9bb373 100644
--- a/megatron/data/prompt_dataset.py
+++ b/megatron/data/prompt_dataset.py
@@ -1,7 +1,6 @@
-
+import ezpz
 # Utilizing code snippet from https://github.com/tatsu-lab/stanford_alpaca
 import copy
-import logging
 from typing import Dict, Sequence
 import io
 import torch
@@ -9,6 +8,10 @@
 from torch.utils.data import Dataset
 import json
 
+
+logger = ezpz.get_logger(__name__)
+
+
 PROMPT_DICT = {
     "prompt_input": (
         "Below is an instruction that describes a task, paired with an input that provides further context. "
@@ -21,44 +24,60 @@
         "### Instruction:\n{instruction}\n\n### Response:"
     ),
 }
+
+
 def _make_r_io_base(f, mode: str):
     if not isinstance(f, io.IOBase):
         f = open(f, mode=mode)
     return f
 
+
 def jload(f, mode="r"):
     """Load a .json file into a dictionary."""
     f = _make_r_io_base(f, mode)
     jdict = json.load(f)
     f.close()
     return jdict
+
+
 class SupervisedDataset(Dataset):
     """Dataset for supervised fine-tuning."""
 
     def __init__(self, data_path: str, HFtokenizer):
         tokenizer = HFtokenizer.tokenizer
         super(SupervisedDataset, self).__init__()
-        logging.warning("Loading data...")
+        logger.warning("Loading data...")
         list_data_dict = jload(data_path)
-        logging.warning("Formatting inputs...")
-        prompt_input, prompt_no_input = PROMPT_DICT["prompt_input"], PROMPT_DICT["prompt_no_input"]
+        logger.warning("Formatting inputs...")
+        prompt_input, prompt_no_input = (
+            PROMPT_DICT["prompt_input"],
+            PROMPT_DICT["prompt_no_input"],
+        )
         sources = [
-            prompt_input.format_map(example) if example.get("input", "") != "" else prompt_no_input.format_map(example)
+            prompt_input.format_map(example)
+            if example.get("input", "") != ""
+            else prompt_no_input.format_map(example)
             for example in list_data_dict
         ]
-        targets = [f"{example['output']}{tokenizer.eos_token}" for example in list_data_dict]
+        targets = [
+            f"{example['output']}{tokenizer.eos_token}" for example in list_data_dict
+        ]
 
-        logging.warning("Tokenizing inputs... This may take some time...")
+        logger.warning("Tokenizing inputs... This may take some time...")
         data_dict = preprocess(sources, targets, tokenizer)
         self.input_ids = data_dict["input_ids"]
         self.labels = data_dict["labels"]
+
     def __len__(self):
         return len(self.input_ids)
+
     def __getitem__(self, i) -> Dict[str, torch.Tensor]:
         return dict(input_ids=self.input_ids[i], labels=self.labels[i])
 
 
-def _tokenize_fn(strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer) -> Dict:
+def _tokenize_fn(
+    strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer
+) -> Dict:
     """Tokenize a list of strings."""
     # +1 for alignment labels and tokens
     tokenized_list = [
@@ -66,14 +85,15 @@ def _tokenize_fn(strings: Sequence[str], tokenizer: transformers.PreTrainedToken
             text,
             return_tensors="pt",
             padding="max_length",
-            max_length=tokenizer.model_max_length+1,
+            max_length=tokenizer.model_max_length + 1,
             truncation=True,
         )
         for text in strings
     ]
     input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]
     input_ids_lens = labels_lens = [
-        tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item() for tokenized in tokenized_list
+        tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item()
+        for tokenized in tokenized_list
     ]
     return dict(
         input_ids=input_ids,
@@ -81,7 +101,8 @@ def _tokenize_fn(strings: Sequence[str], tokenizer: transformers.PreTrainedToken
         input_ids_lens=input_ids_lens,
         labels_lens=labels_lens,
     )
-    
+
+
 def preprocess(
     sources: Sequence[str],
     targets: Sequence[str],
@@ -89,10 +110,12 @@ def preprocess(
 ) -> Dict:
     """Preprocess the data by tokenizing."""
     examples = [s + t for s, t in zip(sources, targets)]
-    examples_tokenized, sources_tokenized = [_tokenize_fn(strings, tokenizer) for strings in (examples, sources)]
+    examples_tokenized, sources_tokenized = [
+        _tokenize_fn(strings, tokenizer) for strings in (examples, sources)
+    ]
     input_ids = examples_tokenized["input_ids"]
     labels = copy.deepcopy(input_ids)
-    
+
     "Here we use padding to fill the prompt in the labels."
     for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):
         label[:source_len] = tokenizer.pad_token_id
diff --git a/megatron/data/realm_dataset_utils.py b/megatron/data/realm_dataset_utils.py
index bf3cd55683f..df0f6033b70 100644
--- a/megatron/data/realm_dataset_utils.py
+++ b/megatron/data/realm_dataset_utils.py
@@ -24,24 +24,31 @@ def get_one_epoch_dataloader(dataset, micro_batch_size=None):
 
     sampler = torch.utils.data.SequentialSampler(dataset)
     # importantly, drop_last must be False to get all the data.
-    assert False, 'DistributedBatchSampler deprecated, change the implementation'
+    assert False, "DistributedBatchSampler deprecated, change the implementation"
     from megatron.data.samplers import DistributedBatchSampler
-    batch_sampler = DistributedBatchSampler(sampler,
-                                            batch_size=global_batch_size,
-                                            drop_last=False,
-                                            rank=rank,
-                                            world_size=world_size)
 
-    return torch.utils.data.DataLoader(dataset,
-                                       batch_sampler=batch_sampler,
-                                       num_workers=num_workers,
-                                       pin_memory=True)
+    batch_sampler = DistributedBatchSampler(
+        sampler,
+        batch_size=global_batch_size,
+        drop_last=False,
+        rank=rank,
+        world_size=world_size,
+    )
+
+    return torch.utils.data.DataLoader(
+        dataset, batch_sampler=batch_sampler, num_workers=num_workers, pin_memory=True
+    )
 
 
 def get_ict_batch(data_iterator):
     # Items and their type.
-    keys = ['query_tokens', 'query_pad_mask',
-            'block_tokens', 'block_pad_mask', 'block_data']
+    keys = [
+        "query_tokens",
+        "query_pad_mask",
+        "block_tokens",
+        "block_pad_mask",
+        "block_data",
+    ]
     datatype = torch.int64
 
     # Broadcast data.
@@ -52,14 +59,13 @@ def get_ict_batch(data_iterator):
     data_b = tensor_parallel.broadcast_data(keys, data, datatype)
 
     # Unpack.
-    query_tokens = data_b['query_tokens'].long()
-    query_pad_mask = data_b['query_pad_mask'].long()
-    block_tokens = data_b['block_tokens'].long()
-    block_pad_mask = data_b['block_pad_mask'].long()
-    block_indices = data_b['block_data'].long()
+    query_tokens = data_b["query_tokens"].long()
+    query_pad_mask = data_b["query_pad_mask"].long()
+    block_tokens = data_b["block_tokens"].long()
+    block_pad_mask = data_b["block_pad_mask"].long()
+    block_indices = data_b["block_data"].long()
 
-    return query_tokens, query_pad_mask,\
-           block_tokens, block_pad_mask, block_indices
+    return query_tokens, query_pad_mask, block_tokens, block_pad_mask, block_indices
 
 
 def join_str_list(str_list):
@@ -81,6 +87,7 @@ class BlockSampleData(object):
     :param doc_idx: the index of the document from which the block comes in the original indexed dataset
     :param block_idx: a unique integer identifier given to every block.
     """
+
     def __init__(self, start_idx, end_idx, doc_idx, block_idx):
         self.start_idx = start_idx
         self.end_idx = end_idx
@@ -88,13 +95,16 @@ def __init__(self, start_idx, end_idx, doc_idx, block_idx):
         self.block_idx = block_idx
 
     def as_array(self):
-        return np.array([self.start_idx, self.end_idx, self.doc_idx, self.block_idx]).astype(np.int64)
+        return np.array(
+            [self.start_idx, self.end_idx, self.doc_idx, self.block_idx]
+        ).astype(np.int64)
 
     def as_tuple(self):
         return self.start_idx, self.end_idx, self.doc_idx, self.block_idx
 
 
 class BlockSamplesMapping(object):
+
     def __init__(self, mapping_array):
         # make sure that the array is compatible with BlockSampleData
         assert mapping_array.shape[1] == 4
@@ -109,8 +119,17 @@ def __getitem__(self, idx):
         return sample_data
 
 
-def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epochs,
-                              max_num_samples, max_seq_length, seed, name, use_one_sent_docs=False):
+def get_block_samples_mapping(
+    block_dataset,
+    title_dataset,
+    data_prefix,
+    num_epochs,
+    max_num_samples,
+    max_seq_length,
+    seed,
+    name,
+    use_one_sent_docs=False,
+):
     """Get samples mapping for a dataset over fixed size blocks. This function also requires
     a dataset of the titles for the source documents since their lengths must be taken into account.
 
@@ -119,30 +138,30 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
 
     if not num_epochs:
         if not max_num_samples:
-            raise ValueError("Need to specify either max_num_samples "
-                             "or num_epochs")
+            raise ValueError("Need to specify either max_num_samples " "or num_epochs")
         num_epochs = np.iinfo(np.int32).max - 1
     if not max_num_samples:
         max_num_samples = np.iinfo(np.int64).max - 1
 
     # Filename of the index mapping
     indexmap_filename = data_prefix
-    indexmap_filename += '_{}_indexmap'.format(name)
+    indexmap_filename += "_{}_indexmap".format(name)
     if num_epochs != (np.iinfo(np.int32).max - 1):
-        indexmap_filename += '_{}ep'.format(num_epochs)
+        indexmap_filename += "_{}ep".format(num_epochs)
     if max_num_samples != (np.iinfo(np.int64).max - 1):
-        indexmap_filename += '_{}mns'.format(max_num_samples)
-    indexmap_filename += '_{}msl'.format(max_seq_length)
-    indexmap_filename += '_{}s'.format(seed)
+        indexmap_filename += "_{}mns".format(max_num_samples)
+    indexmap_filename += "_{}msl".format(max_seq_length)
+    indexmap_filename += "_{}s".format(seed)
     if use_one_sent_docs:
-        indexmap_filename += '_1sentok'
-    indexmap_filename += '.npy'
+        indexmap_filename += "_1sentok"
+    indexmap_filename += ".npy"
 
     # Build the indexed mapping if not exist.
-    if mpu.get_data_parallel_rank() == 0 and \
-            not os.path.isfile(indexmap_filename):
-        print(' > WARNING: could not find index map file {}, building '
-              'the indices on rank 0 ...'.format(indexmap_filename))
+    if mpu.get_data_parallel_rank() == 0 and not os.path.isfile(indexmap_filename):
+        print(
+            " > WARNING: could not find index map file {}, building "
+            "the indices on rank 0 ...".format(indexmap_filename)
+        )
 
         # Make sure the types match the helpers input types.
         assert block_dataset.doc_idx.dtype == np.int64
@@ -151,10 +170,10 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
         # Build samples mapping
         verbose = torch.distributed.get_rank() == 0
         start_time = time.time()
-        print_rank_0(' > building samples index mapping for {} ...'.format(
-            name))
+        print_rank_0(" > building samples index mapping for {} ...".format(name))
 
         from megatron.data import helpers
+
         mapping_array = helpers.build_blocks_mapping(
             block_dataset.doc_idx,
             block_dataset.sizes,
@@ -164,17 +183,17 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
             max_seq_length - 3,  # account for added tokens
             seed,
             verbose,
-            use_one_sent_docs)
-
+            use_one_sent_docs,
+        )
 
-        print_rank_0(' > done building samples index mapping')
+        print_rank_0(" > done building samples index mapping")
         np.save(indexmap_filename, mapping_array, allow_pickle=True)
-        print_rank_0(' > saved the index mapping in {}'.format(
-            indexmap_filename))
+        print_rank_0(" > saved the index mapping in {}".format(indexmap_filename))
         # Make sure all the ranks have built the mapping
-        print_rank_0(' > elapsed time to build and save samples mapping '
-                     '(seconds): {:4f}'.format(
-            time.time() - start_time))
+        print_rank_0(
+            " > elapsed time to build and save samples mapping "
+            "(seconds): {:4f}".format(time.time() - start_time)
+        )
 
     # This should be a barrier but nccl barrier assumes
     # device_index=rank which is not the case for model
@@ -182,19 +201,19 @@ def get_block_samples_mapping(block_dataset, title_dataset, data_prefix, num_epo
     counts = get_accelerator().LongTensor([1])
     torch.distributed.all_reduce(counts, group=mpu.get_data_parallel_group())
     assert counts[0].item() == torch.distributed.get_world_size(
-        group=mpu.get_data_parallel_group())
+        group=mpu.get_data_parallel_group()
+    )
 
     # Load indexed dataset.
-    print_rank_0(' > loading indexed mapping from {}'.format(
-        indexmap_filename))
+    print_rank_0(" > loading indexed mapping from {}".format(indexmap_filename))
     start_time = time.time()
 
-    mapping_array = np.load(indexmap_filename, allow_pickle=True, mmap_mode='r')
+    mapping_array = np.load(indexmap_filename, allow_pickle=True, mmap_mode="r")
     samples_mapping = BlockSamplesMapping(mapping_array)
 
-    print_rank_0('    loaded indexed file in {:3.3f} seconds'.format(
-        time.time() - start_time))
-    print_rank_0('    total number of samples: {}'.format(
-        mapping_array.shape[0]))
+    print_rank_0(
+        "    loaded indexed file in {:3.3f} seconds".format(time.time() - start_time)
+    )
+    print_rank_0("    total number of samples: {}".format(mapping_array.shape[0]))
 
     return samples_mapping
diff --git a/megatron/data/realm_index.py b/megatron/data/realm_index.py
index 1fa4a309edc..e67e9491564 100644
--- a/megatron/data/realm_index.py
+++ b/megatron/data/realm_index.py
@@ -19,6 +19,7 @@ class OpenRetreivalDataStore(object):
     Serializable data structure for holding data for blocks --
     embeddings and necessary metadata for Retriever
     """
+
     def __init__(self, embedding_path=None, load_from_path=True, rank=None):
         self.embed_data = dict()
         if embedding_path is None:
@@ -32,11 +33,11 @@ def __init__(self, embedding_path=None, load_from_path=True, rank=None):
             self.load_from_file()
 
         block_data_name = os.path.splitext(self.embedding_path)[0]
-        self.temp_dir_name = block_data_name + '_tmp'
+        self.temp_dir_name = block_data_name + "_tmp"
 
     def state(self):
         return {
-            'embed_data': self.embed_data,
+            "embed_data": self.embed_data,
         }
 
     def clear(self):
@@ -52,11 +53,11 @@ def load_from_file(self):
 
         if not mpu.model_parallel_is_initialized() or mpu.get_data_parallel_rank() == 0:
             print("\n> Unpickling BlockData", flush=True)
-        state_dict = pickle.load(open(self.embedding_path, 'rb'))
+        state_dict = pickle.load(open(self.embedding_path, "rb"))
         if not mpu.model_parallel_is_initialized() or mpu.get_data_parallel_rank() == 0:
             print(">> Finished unpickling BlockData\n", flush=True)
 
-        self.embed_data = state_dict['embed_data']
+        self.embed_data = state_dict["embed_data"]
 
     def add_block_data(self, row_id, block_embeds, allow_overwrite=False):
         """
@@ -79,12 +80,11 @@ def save_shard(self):
             os.makedirs(self.temp_dir_name, exist_ok=True)
 
         # save the data for each shard
-        with open('{}/{}.pkl'.format(self.temp_dir_name, self.rank), 'wb') \
-            as writer:
+        with open("{}/{}.pkl".format(self.temp_dir_name, self.rank), "wb") as writer:
             pickle.dump(self.state(), writer)
 
     def merge_shards_and_save(self):
-        #Combine all the shards made using save_shard
+        # Combine all the shards made using save_shard
         shard_names = os.listdir(self.temp_dir_name)
         seen_own_shard = False
 
@@ -94,31 +94,36 @@ def merge_shards_and_save(self):
                 seen_own_shard = True
                 continue
 
-            with open('{}/{}'.format(self.temp_dir_name, fname), 'rb') as f:
+            with open("{}/{}".format(self.temp_dir_name, fname), "rb") as f:
                 data = pickle.load(f)
                 old_size = len(self.embed_data)
-                shard_size = len(data['embed_data'])
+                shard_size = len(data["embed_data"])
 
                 # add the shard's data and check to make sure there
                 # is no overlap
-                self.embed_data.update(data['embed_data'])
+                self.embed_data.update(data["embed_data"])
                 assert len(self.embed_data) == old_size + shard_size
 
         assert seen_own_shard
 
         # save the consolidated shards and remove temporary directory
-        with open(self.embedding_path, 'wb') as final_file:
+        with open(self.embedding_path, "wb") as final_file:
             pickle.dump(self.state(), final_file)
         shutil.rmtree(self.temp_dir_name, ignore_errors=True)
 
-        print("Finished merging {} shards for a total of {} embeds".format(
-            len(shard_names), len(self.embed_data)), flush=True)
+        print(
+            "Finished merging {} shards for a total of {} embeds".format(
+                len(shard_names), len(self.embed_data)
+            ),
+            flush=True,
+        )
 
 
 class FaissMIPSIndex(object):
     """
     Wrapper object for a BlockData which similarity search via FAISS under the hood
     """
+
     def __init__(self, embed_size, embed_data=None, use_gpu=False):
         self.embed_size = embed_size
         self.embed_data = embed_data
@@ -149,12 +154,18 @@ def _set_mips_index(self):
             config.useFloat16 = True
             gpu_index = faiss.index_cpu_to_all_gpus(cpu_index, co=config)
             self.mips_index = faiss.IndexIDMap(gpu_index)
-            if not mpu.model_parallel_is_initialized() or mpu.get_data_parallel_rank() == 0:
+            if (
+                not mpu.model_parallel_is_initialized()
+                or mpu.get_data_parallel_rank() == 0
+            ):
                 print(">> Initialized index on GPU", flush=True)
         else:
             # CPU index supports IDs so wrap with IDMap
             self.mips_index = faiss.IndexIDMap(cpu_index)
-            if not mpu.model_parallel_is_initialized() or mpu.get_data_parallel_rank() == 0:
+            if (
+                not mpu.model_parallel_is_initialized()
+                or mpu.get_data_parallel_rank() == 0
+            ):
                 print(">> Initialized index on CPU", flush=True)
 
         # if we were constructed with a BlockData, then automatically load it
@@ -215,8 +226,9 @@ def search_mips_index(self, query_embeds, top_k, reconstruct=True):
 
         if reconstruct:
             # get the vectors themselves
-            top_k_block_embeds = self.mips_index.search_and_reconstruct(\
-                query_embeds, top_k)
+            top_k_block_embeds = self.mips_index.search_and_reconstruct(
+                query_embeds, top_k
+            )
             return top_k_block_embeds
         else:
             # get distances and indices of closest vectors
diff --git a/megatron/data/t5_dataset.py b/megatron/data/t5_dataset.py
index e606814909b..b9c6ad3f8b4 100644
--- a/megatron/data/t5_dataset.py
+++ b/megatron/data/t5_dataset.py
@@ -10,15 +10,25 @@
 from megatron import get_tokenizer
 from megatron.data.dataset_utils import (
     create_masked_lm_predictions,
-    get_samples_mapping
+    get_samples_mapping,
 )
 
+
 class T5Dataset(torch.utils.data.Dataset):
 
-    def __init__(self, name, indexed_dataset, data_prefix,
-                 num_epochs, max_num_samples, masked_lm_prob,
-                 max_seq_length, max_seq_length_dec,
-                 short_seq_prob, seed):
+    def __init__(
+        self,
+        name,
+        indexed_dataset,
+        data_prefix,
+        num_epochs,
+        max_num_samples,
+        masked_lm_prob,
+        max_seq_length,
+        max_seq_length_dec,
+        short_seq_prob,
+        seed,
+    ):
 
         # Params to store.
         self.name = name
@@ -31,15 +41,17 @@ def __init__(self, name, indexed_dataset, data_prefix,
         self.indexed_dataset = indexed_dataset
 
         # Build the samples mapping.
-        self.samples_mapping = get_samples_mapping(self.indexed_dataset,
-                                                   data_prefix,
-                                                   num_epochs,
-                                                   max_num_samples,
-                                                   self.max_seq_length - 2, # account for added tokens
-                                                   short_seq_prob,
-                                                   self.seed,
-                                                   self.name,
-                                                   False)
+        self.samples_mapping = get_samples_mapping(
+            self.indexed_dataset,
+            data_prefix,
+            num_epochs,
+            max_num_samples,
+            self.max_seq_length - 2,  # account for added tokens
+            short_seq_prob,
+            self.seed,
+            self.name,
+            False,
+        )
 
         # Vocab stuff.
         tokenizer = get_tokenizer()
@@ -52,7 +64,9 @@ def __init__(self, name, indexed_dataset, data_prefix,
         self.bos_id = tokenizer.bos_token_id
         self.eos_id = tokenizer.eos_token_id
         self.sentinel_tokens = tokenizer.additional_special_tokens_ids
-        assert len(self.sentinel_tokens) > 0, "Provide the argument --vocab-extra-ids 100 to the script"
+        assert (
+            len(self.sentinel_tokens) > 0
+        ), "Provide the argument --vocab-extra-ids 100 to the script"
 
     def __len__(self):
         return self.samples_mapping.shape[0]
@@ -66,24 +80,42 @@ def __getitem__(self, idx):
         # Note that this rng state should be numpy and not python since
         # python randint is inclusive whereas the numpy one is exclusive.
         np_rng = np.random.RandomState(seed=(self.seed + idx))
-        return build_training_sample(sample, seq_length,
-                                     self.max_seq_length,  # needed for padding
-                                     self.max_seq_length_dec,
-                                     self.vocab_id_list,
-                                     self.vocab_id_to_token_dict,
-                                     self.cls_id, self.sep_id,
-                                     self.mask_id, self.pad_id,
-                                     self.masked_lm_prob, np_rng,
-                                     self.bos_id, self.eos_id,
-                                     self.sentinel_tokens)
-
-
-def build_training_sample(sample, target_seq_length,
-                          max_seq_length, max_seq_length_dec,
-                          vocab_id_list, vocab_id_to_token_dict,
-                          cls_id, sep_id, mask_id, pad_id,
-                          masked_lm_prob, np_rng, bos_id=None,
-                          eos_id=None, sentinel_tokens=None):
+        return build_training_sample(
+            sample,
+            seq_length,
+            self.max_seq_length,  # needed for padding
+            self.max_seq_length_dec,
+            self.vocab_id_list,
+            self.vocab_id_to_token_dict,
+            self.cls_id,
+            self.sep_id,
+            self.mask_id,
+            self.pad_id,
+            self.masked_lm_prob,
+            np_rng,
+            self.bos_id,
+            self.eos_id,
+            self.sentinel_tokens,
+        )
+
+
+def build_training_sample(
+    sample,
+    target_seq_length,
+    max_seq_length,
+    max_seq_length_dec,
+    vocab_id_list,
+    vocab_id_to_token_dict,
+    cls_id,
+    sep_id,
+    mask_id,
+    pad_id,
+    masked_lm_prob,
+    np_rng,
+    bos_id=None,
+    eos_id=None,
+    sentinel_tokens=None,
+):
     """Build training sample.
 
     Arguments:
@@ -118,37 +150,64 @@ def build_training_sample(sample, target_seq_length,
 
     # Masking.
     max_predictions_per_seq = masked_lm_prob * max_num_tokens
-    (tokens, masked_positions, masked_labels, _, masked_spans) = create_masked_lm_predictions(
-        tokens, vocab_id_list, vocab_id_to_token_dict, masked_lm_prob,
-        cls_id, sep_id, mask_id, max_predictions_per_seq, np_rng,
-        max_ngrams=10, geometric_dist=True, masking_style="t5")
+    (tokens, masked_positions, masked_labels, _, masked_spans) = (
+        create_masked_lm_predictions(
+            tokens,
+            vocab_id_list,
+            vocab_id_to_token_dict,
+            masked_lm_prob,
+            cls_id,
+            sep_id,
+            mask_id,
+            max_predictions_per_seq,
+            np_rng,
+            max_ngrams=10,
+            geometric_dist=True,
+            masking_style="t5",
+        )
+    )
 
     # Padding.
-    tokens_enc, tokens_dec_in, labels, enc_mask, \
-    dec_mask, enc_dec_mask, loss_mask \
-        = pad_and_convert_to_numpy(tokens, masked_positions,
-                                   masked_labels, pad_id, max_seq_length,
-                                   max_seq_length_dec, masked_spans,
-                                   bos_id, eos_id, sentinel_tokens)
+    tokens_enc, tokens_dec_in, labels, enc_mask, dec_mask, enc_dec_mask, loss_mask = (
+        pad_and_convert_to_numpy(
+            tokens,
+            masked_positions,
+            masked_labels,
+            pad_id,
+            max_seq_length,
+            max_seq_length_dec,
+            masked_spans,
+            bos_id,
+            eos_id,
+            sentinel_tokens,
+        )
+    )
 
     train_sample = {
-        'text_enc': tokens_enc,
-        'text_dec': tokens_dec_in,
-        'labels': labels,
-        'loss_mask': loss_mask,
-        'truncated': int(truncated),
-        'enc_mask': enc_mask,
-        'dec_mask': dec_mask,
-        'enc_dec_mask': enc_dec_mask,
+        "text_enc": tokens_enc,
+        "text_dec": tokens_dec_in,
+        "labels": labels,
+        "loss_mask": loss_mask,
+        "truncated": int(truncated),
+        "enc_mask": enc_mask,
+        "dec_mask": dec_mask,
+        "enc_dec_mask": enc_dec_mask,
     }
     return train_sample
 
 
-def pad_and_convert_to_numpy(tokens, masked_positions,
-                             masked_labels, pad_id,
-                             max_seq_length, max_seq_length_dec,
-                             masked_spans=None, bos_id=None,
-                             eos_id=None, sentinel_tokens=None):
+def pad_and_convert_to_numpy(
+    tokens,
+    masked_positions,
+    masked_labels,
+    pad_id,
+    max_seq_length,
+    max_seq_length_dec,
+    masked_spans=None,
+    bos_id=None,
+    eos_id=None,
+    sentinel_tokens=None,
+):
     """Pad sequences and convert them to numpy."""
 
     sentinel_tokens = collections.deque(sentinel_tokens)
@@ -165,7 +224,7 @@ def pad_and_convert_to_numpy(tokens, masked_positions,
         t5_decoder_out.extend(span.label)
 
         end_index = span.index[0]
-        t5_input.extend(tokens[start_index: end_index])
+        t5_input.extend(tokens[start_index:end_index])
         t5_input.append(flag)
 
         # the next start index is the token after the last span token
@@ -213,8 +272,15 @@ def pad_and_convert_to_numpy(tokens, masked_positions,
     loss_mask = ([1] * num_tokens_dec) + ([0] * padding_length_dec)
     loss_mask = np.array(loss_mask, dtype=np.int64)
 
-    return tokens_enc, tokens_dec_in, labels, enc_mask, \
-           dec_mask, enc_dec_mask, loss_mask
+    return (
+        tokens_enc,
+        tokens_dec_in,
+        labels,
+        enc_mask,
+        dec_mask,
+        enc_dec_mask,
+        loss_mask,
+    )
 
 
 def make_attention_mask(source_block, target_block):
@@ -244,7 +310,7 @@ def make_attention_mask_3d(source_block, target_block):
 def make_history_mask(block):
     length = block.shape[0]
     arange = np.arange(length)
-    history_mask = (arange[None, ] <= arange[:, None])
+    history_mask = arange[None,] <= arange[:, None]
     history_mask = history_mask.astype(np.int64)
     return history_mask
 
@@ -252,6 +318,6 @@ def make_history_mask(block):
 def make_history_mask_3d(block):
     batch, length = block.shape
     arange = torch.arange(length, device=block.device)
-    history_mask = (arange[None, ] <= arange[:, None])[None, ]
+    history_mask = (arange[None,] <= arange[:, None])[None,]
     history_mask = history_mask.expand(batch, length, length)
     return history_mask
diff --git a/megatron/data/test/test_indexed_dataset.py b/megatron/data/test/test_indexed_dataset.py
index 12fec8d8192..4c8a71de1ef 100644
--- a/megatron/data/test/test_indexed_dataset.py
+++ b/megatron/data/test/test_indexed_dataset.py
@@ -61,6 +61,7 @@ def test_indexed_dataset_get(args):
     print(part)
     # print(tokenizer.detokenize(part.data.tolist()))
 
+
 # def test_albert_dataset(args):
 #     # tokenizer = FullBertTokenizer(args.vocab, do_lower_case=True)
 #     # idataset = indexed_dataset.make_dataset(args.data, args.dataset_impl)
@@ -81,34 +82,60 @@ def test_indexed_dataset_get(args):
 
 def main():
     parser = argparse.ArgumentParser()
-    parser.add_argument('--data', type=str, help='prefix to data files')
-    parser.add_argument('--dataset-impl', type=str, default='infer',
-                        choices=['lazy', 'cached', 'mmap', 'infer'])
-    parser.add_argument('--count', type=int, default=10,
-                        help='Number of samples/documents to print')
-
-    group = parser.add_argument_group(title='tokenizer')
-    group.add_argument('--tokenizer-type', type=str, required=True,
-                       choices=['BertWordPieceLowerCase',
-                                'GPT2BPETokenizer'],
-                       help='What type of tokenizer to use.')
-    group.add_argument('--vocab-file', type=str, default=None,
-                       help='Path to the vocab file')
-    group.add_argument('--merge-file', type=str, default=None,
-                       help='Path to the BPE merge file (if necessary).')
-
-    parser.add_argument('--epochs', type=int, default=5,
-                        help='Number of epochs to plan for')
-    parser.add_argument('--max-num-samples', type=int, default=None,
-                        help='Maximum number of samples to plan for')
-    parser.add_argument('--masked-lm-prob', type=float, default=0.15,
-                        help='probability of masking tokens')
-    parser.add_argument('--seq-length', type=int, default=512,
-                        help='maximum sequence length')
-    parser.add_argument('--short-seq-prob', type=float, default=0.1,
-                        help='probability of creating a short sequence')
-    parser.add_argument('--seed', type=int, default=1234,
-                        help='random seed')
+    parser.add_argument("--data", type=str, help="prefix to data files")
+    parser.add_argument(
+        "--dataset-impl",
+        type=str,
+        default="infer",
+        choices=["lazy", "cached", "mmap", "infer"],
+    )
+    parser.add_argument(
+        "--count", type=int, default=10, help="Number of samples/documents to print"
+    )
+
+    group = parser.add_argument_group(title="tokenizer")
+    group.add_argument(
+        "--tokenizer-type",
+        type=str,
+        required=True,
+        choices=["BertWordPieceLowerCase", "GPT2BPETokenizer"],
+        help="What type of tokenizer to use.",
+    )
+    group.add_argument(
+        "--vocab-file", type=str, default=None, help="Path to the vocab file"
+    )
+    group.add_argument(
+        "--merge-file",
+        type=str,
+        default=None,
+        help="Path to the BPE merge file (if necessary).",
+    )
+
+    parser.add_argument(
+        "--epochs", type=int, default=5, help="Number of epochs to plan for"
+    )
+    parser.add_argument(
+        "--max-num-samples",
+        type=int,
+        default=None,
+        help="Maximum number of samples to plan for",
+    )
+    parser.add_argument(
+        "--masked-lm-prob",
+        type=float,
+        default=0.15,
+        help="probability of masking tokens",
+    )
+    parser.add_argument(
+        "--seq-length", type=int, default=512, help="maximum sequence length"
+    )
+    parser.add_argument(
+        "--short-seq-prob",
+        type=float,
+        default=0.1,
+        help="probability of creating a short sequence",
+    )
+    parser.add_argument("--seed", type=int, default=1234, help="random seed")
     args = parser.parse_args()
     args.rank = 0
     args.make_vocab_size_divisible_by = 128
@@ -117,7 +144,7 @@ def main():
     if args.dataset_impl == "infer":
         args.dataset_impl = indexed_dataset.infer_dataset_impl(args.data)
 
-#    test_albert_dataset(args)
+    #    test_albert_dataset(args)
     test_indexed_dataset_get(args)
 
 
diff --git a/megatron/data/vit_dataset.py b/megatron/data/vit_dataset.py
index 82391e9157e..1dee48709b0 100644
--- a/megatron/data/vit_dataset.py
+++ b/megatron/data/vit_dataset.py
@@ -16,7 +16,8 @@ class GaussianBlur(object):
     """
     Apply Gaussian Blur to the PIL image.
     """
-    def __init__(self, p=0.5, radius_min=0.1, radius_max=2.):
+
+    def __init__(self, p=0.5, radius_min=0.1, radius_max=2.0):
         self.prob = p
         self.radius_min = radius_min
         self.radius_max = radius_max
@@ -37,6 +38,7 @@ class Solarization(object):
     """
     Apply Solarization to the PIL image.
     """
+
     def __init__(self, p):
         self.p = p
 
@@ -47,64 +49,77 @@ def __call__(self, img):
             return img
 
 
-class ClassificationTransform():
+class ClassificationTransform:
+
     def __init__(self, image_size, train=True):
         args = get_args()
         assert args.fp16 or args.bf16
         self.data_type = torch.half if args.fp16 else torch.bfloat16
         if train:
-            self.transform = T.Compose([
-                T.RandomResizedCrop(image_size),
-                T.RandomHorizontalFlip(),
-                T.ColorJitter(0.4, 0.4, 0.4, 0.1),
-                ImageNetPolicy(),
-                T.ToTensor(),
-                T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
-                T.ConvertImageDtype(self.data_type)
-            ])
+            self.transform = T.Compose(
+                [
+                    T.RandomResizedCrop(image_size),
+                    T.RandomHorizontalFlip(),
+                    T.ColorJitter(0.4, 0.4, 0.4, 0.1),
+                    ImageNetPolicy(),
+                    T.ToTensor(),
+                    T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
+                    T.ConvertImageDtype(self.data_type),
+                ]
+            )
         else:
-            self.transform = T.Compose([
-                T.Resize(image_size),
-                T.CenterCrop(image_size),
-                T.ToTensor(),
-                T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
-                T.ConvertImageDtype(self.data_type)
-            ])
+            self.transform = T.Compose(
+                [
+                    T.Resize(image_size),
+                    T.CenterCrop(image_size),
+                    T.ToTensor(),
+                    T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
+                    T.ConvertImageDtype(self.data_type),
+                ]
+            )
 
     def __call__(self, input):
         output = self.transform(input)
         return output
 
 
-class InpaintingTransform():
-    def __init__(self, image_size, train=True):
+class InpaintingTransform:
 
+    def __init__(self, image_size, train=True):
         args = get_args()
         self.mask_factor = args.mask_factor
         self.mask_type = args.mask_type
         self.image_size = image_size
         self.patch_size = args.patch_dim
-        self.mask_size = int(self.mask_factor*(image_size[0]/self.patch_size)*(image_size[1]/self.patch_size))
+        self.mask_size = int(
+            self.mask_factor
+            * (image_size[0] / self.patch_size)
+            * (image_size[1] / self.patch_size)
+        )
         self.train = train
         assert args.fp16 or args.bf16
         self.data_type = torch.half if args.fp16 else torch.bfloat16
-     
+
         if self.train:
-            self.transform = T.Compose([
-                T.RandomResizedCrop(self.image_size),
-                T.RandomHorizontalFlip(),
-                T.ColorJitter(0.4, 0.4, 0.4, 0.1),
-                ImageNetPolicy(),
-                T.ToTensor(),
-                T.ConvertImageDtype(self.data_type)
-            ])
+            self.transform = T.Compose(
+                [
+                    T.RandomResizedCrop(self.image_size),
+                    T.RandomHorizontalFlip(),
+                    T.ColorJitter(0.4, 0.4, 0.4, 0.1),
+                    ImageNetPolicy(),
+                    T.ToTensor(),
+                    T.ConvertImageDtype(self.data_type),
+                ]
+            )
         else:
-            self.transform = T.Compose([
-                T.Resize(self.image_size, interpolation=2),
-                T.CenterCrop(self.image_size),
-                T.ToTensor(),
-                T.ConvertImageDtype(self.data_type)
-            ])
+            self.transform = T.Compose(
+                [
+                    T.Resize(self.image_size, interpolation=2),
+                    T.CenterCrop(self.image_size),
+                    T.ToTensor(),
+                    T.ConvertImageDtype(self.data_type),
+                ]
+            )
 
     def gen_mask(self, image_size, mask_size, mask_type, patch_size):
         # output: mask as a list with indices for missing patches
@@ -115,7 +130,7 @@ def gen_mask(self, image_size, mask_size, mask_type, patch_size):
         # drop masked patches
         mask = torch.zeros((image_size[0], image_size[1]), dtype=torch.float)
 
-        if mask_type == 'random':
+        if mask_type == "random":
             x = torch.randint(0, img_size_patch, ())
             y = torch.randint(0, img_size_patch, ())
             for i in range(mask_size):
@@ -124,84 +139,108 @@ def gen_mask(self, image_size, mask_size, mask_type, patch_size):
                 y = torch.clamp(y + action_list[r][1], min=0, max=img_size_patch - 1)
                 x_offset = x * patch_size
                 y_offset = y * patch_size
-                mask[x_offset:x_offset+patch_size, y_offset:y_offset+patch_size] = 1
+                mask[
+                    x_offset : x_offset + patch_size, y_offset : y_offset + patch_size
+                ] = 1
         else:
-            assert mask_type == 'row'
+            assert mask_type == "row"
             count = 0
             for x in reversed(range(img_size_patch)):
                 for y in reversed(range(img_size_patch)):
-                    if (count < mask_size):
+                    if count < mask_size:
                         count += 1
                         x_offset = x * patch_size
                         y_offset = y * patch_size
-                        mask[x_offset:x_offset+patch_size, y_offset:y_offset+patch_size] = 1
+                        mask[
+                            x_offset : x_offset + patch_size,
+                            y_offset : y_offset + patch_size,
+                        ] = 1
         return mask
 
     def __call__(self, input):
         trans_input = self.transform(input)
-        mask = self.gen_mask(self.image_size, self.mask_size, 
-			     self.mask_type, self.patch_size)
+        mask = self.gen_mask(
+            self.image_size, self.mask_size, self.mask_type, self.patch_size
+        )
         mask = mask.unsqueeze(dim=0)
         return trans_input, mask
 
 
 class DinoTransform(object):
+
     def __init__(self, image_size, train=True):
         args = get_args()
         self.data_type = torch.half if args.fp16 else torch.bfloat16
 
-        flip_and_color_jitter = T.Compose([
-            T.RandomHorizontalFlip(p=0.5),
-            T.RandomApply(
-                [T.ColorJitter(brightness=0.4, contrast=0.4,
-			       saturation=0.2, hue=0.1)],
-                p=0.8
-            ),
-            T.RandomGrayscale(p=0.2),
-        ])
+        flip_and_color_jitter = T.Compose(
+            [
+                T.RandomHorizontalFlip(p=0.5),
+                T.RandomApply(
+                    [
+                        T.ColorJitter(
+                            brightness=0.4, contrast=0.4, saturation=0.2, hue=0.1
+                        )
+                    ],
+                    p=0.8,
+                ),
+                T.RandomGrayscale(p=0.2),
+            ]
+        )
 
         if args.fp16 or args.bf16:
-            normalize = T.Compose([
-                T.ToTensor(),
-                T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
-                T.ConvertImageDtype(self.data_type)
-            ])
+            normalize = T.Compose(
+                [
+                    T.ToTensor(),
+                    T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
+                    T.ConvertImageDtype(self.data_type),
+                ]
+            )
         else:
-            normalize = T.Compose([
-                T.ToTensor(),
-                T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
-            ])
+            normalize = T.Compose(
+                [
+                    T.ToTensor(),
+                    T.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
+                ]
+            )
 
         # first global crop
         scale_const = 0.4
-        self.global_transform1 = T.Compose([
-            T.RandomResizedCrop(image_size,
-                                scale=(scale_const, 1),
-                                interpolation=Image.BICUBIC),
-            flip_and_color_jitter,
-            GaussianBlur(1.0),
-            normalize
-        ])
+        self.global_transform1 = T.Compose(
+            [
+                T.RandomResizedCrop(
+                    image_size, scale=(scale_const, 1), interpolation=Image.BICUBIC
+                ),
+                flip_and_color_jitter,
+                GaussianBlur(1.0),
+                normalize,
+            ]
+        )
         # second global crop
-        self.global_transform2 = T.Compose([
-            T.RandomResizedCrop(image_size,
-                                scale=(scale_const, 1),
-                                interpolation=Image.BICUBIC),
-            flip_and_color_jitter,
-            GaussianBlur(0.1),
-            Solarization(0.2),
-            normalize
-        ])
+        self.global_transform2 = T.Compose(
+            [
+                T.RandomResizedCrop(
+                    image_size, scale=(scale_const, 1), interpolation=Image.BICUBIC
+                ),
+                flip_and_color_jitter,
+                GaussianBlur(0.1),
+                Solarization(0.2),
+                normalize,
+            ]
+        )
         # transformation for the local small crops
         self.local_crops_number = args.dino_local_crops_number
-        self.local_transform = T.Compose([
-            T.RandomResizedCrop(args.dino_local_img_size,
-                                scale=(0.05, scale_const),
-                                interpolation=Image.BICUBIC),
-            flip_and_color_jitter,
-            GaussianBlur(p=0.5),
-            normalize
-        ])
+        self.local_transform = T.Compose(
+            [
+                T.RandomResizedCrop(
+                    args.dino_local_img_size,
+                    scale=(0.05, scale_const),
+                    interpolation=Image.BICUBIC,
+                ),
+                flip_and_color_jitter,
+                GaussianBlur(p=0.5),
+                normalize,
+            ]
+        )
 
     def __call__(self, image):
         crops = []
@@ -215,18 +254,21 @@ def __call__(self, image):
 def build_train_valid_datasets(data_path, image_size=224):
     args = get_args()
 
-    if args.vision_pretraining_type == 'classify':
+    if args.vision_pretraining_type == "classify":
         train_transform = ClassificationTransform(image_size)
         val_transform = ClassificationTransform(image_size, train=False)
-    elif args.vision_pretraining_type == 'inpaint':
+    elif args.vision_pretraining_type == "inpaint":
         train_transform = InpaintingTransform(image_size, train=False)
         val_transform = InpaintingTransform(image_size, train=False)
-    elif args.vision_pretraining_type == 'dino':
+    elif args.vision_pretraining_type == "dino":
         train_transform = DinoTransform(image_size, train=True)
         val_transform = ClassificationTransform(image_size, train=False)
     else:
-        raise Exception('{} vit pretraining type is not supported.'.format(
-                args.vit_pretraining_type))
+        raise Exception(
+            "{} vit pretraining type is not supported.".format(
+                args.vit_pretraining_type
+            )
+        )
 
     # training dataset
     train_data_path = data_path[0] if len(data_path) <= 2 else data_path[2]
@@ -234,16 +276,13 @@ def build_train_valid_datasets(data_path, image_size=224):
         root=train_data_path,
         transform=train_transform,
         classes_fraction=args.classes_fraction,
-        data_per_class_fraction=args.data_per_class_fraction
+        data_per_class_fraction=args.data_per_class_fraction,
     )
     train_data = RandomSeedDataset(train_data)
 
     # validation dataset
     val_data_path = data_path[1]
-    val_data = ImageFolder(
-        root=val_data_path,
-        transform=val_transform
-    )
+    val_data = ImageFolder(root=val_data_path, transform=val_transform)
     val_data = RandomSeedDataset(val_data)
 
     return train_data, val_data
diff --git a/megatron/dist_signal_handler.py b/megatron/dist_signal_handler.py
index a60204f004a..559daec6255 100644
--- a/megatron/dist_signal_handler.py
+++ b/megatron/dist_signal_handler.py
@@ -13,21 +13,20 @@ def get_world_size():
 
 def get_device(local_rank=None):
     backend = torch.distributed.get_backend()
-    if backend == 'nccl':
+    if backend == "nccl":
         if local_rank is None:
-            device = torch.device('cuda')
+            device = torch.device("cuda")
         else:
-            device = torch.device(f'cuda:{local_rank}')
-    elif backend == 'gloo':
-        device = torch.device('cpu')
+            device = torch.device(f"cuda:{local_rank}")
+    elif backend == "gloo":
+        device = torch.device("cpu")
     else:
         raise RuntimeError
     return device
 
 
 def all_gather_item(item, dtype, group=None, async_op=False, local_rank=None):
-    if not torch.distributed.is_available() or \
-       not torch.distributed.is_initialized():
+    if not torch.distributed.is_available() or not torch.distributed.is_initialized():
         return [item]
 
     device = get_device(local_rank)
@@ -48,13 +47,12 @@ def all_gather_item(item, dtype, group=None, async_op=False, local_rank=None):
 
 
 class DistributedSignalHandler:
+
     def __init__(self, sig=signal.SIGTERM):
         self.sig = sig
 
     def signals_received(self):
-        all_received = all_gather_item(
-            self._signal_received, dtype=torch.int32
-        )
+        all_received = all_gather_item(self._signal_received, dtype=torch.int32)
         return all_received
 
     def __enter__(self):
diff --git a/megatron/enums.py b/megatron/enums.py
index d9050462aaf..84c027c322e 100644
--- a/megatron/enums.py
+++ b/megatron/enums.py
@@ -15,19 +15,23 @@
 
 import enum
 
+
 class LayerType(enum.Enum):
     encoder = 1
     decoder = 2
- 
+
+
 class AttnType(enum.Enum):
     self_attn = 1
     cross_attn = 2
 
+
 class AttnMaskType(enum.Enum):
     padding = 1
     causal = 2
     prefix = 3
 
+
 class PositionEmbeddingType(enum.Enum):
     rotary = 1
     absolute = 2
diff --git a/megatron/fp16_deprecated/loss_scaler.py b/megatron/fp16_deprecated/loss_scaler.py
index cb64aa92892..2541281320a 100755
--- a/megatron/fp16_deprecated/loss_scaler.py
+++ b/megatron/fp16_deprecated/loss_scaler.py
@@ -1,26 +1,31 @@
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
-
-"""For backward compatibility, we need the class definitions to deserialize."""
-
-class LossScaler:
-    def __init__(self, scale=1):
-        self.cur_scale = scale
-
-class DynamicLossScaler:
-    def __init__(self,
-                 init_scale=2**32,
-                 scale_factor=2.,
-                 scale_window=1000,
-                 min_scale=1,
-                 delayed_shift=1,
-                 consecutive_hysteresis=False):
-        self.cur_scale = init_scale
-        self.cur_iter = 0
-        self.last_overflow_iter = -1
-        self.scale_factor = scale_factor
-        self.scale_window = scale_window
-        self.min_scale = min_scale
-        self.delayed_shift = delayed_shift
-        self.cur_hysteresis = delayed_shift
-        self.consecutive_hysteresis = consecutive_hysteresis
-
+
+"""For backward compatibility, we need the class definitions to deserialize."""
+
+
+class LossScaler:
+
+    def __init__(self, scale=1):
+        self.cur_scale = scale
+
+
+class DynamicLossScaler:
+
+    def __init__(
+        self,
+        init_scale=2**32,
+        scale_factor=2.0,
+        scale_window=1000,
+        min_scale=1,
+        delayed_shift=1,
+        consecutive_hysteresis=False,
+    ):
+        self.cur_scale = init_scale
+        self.cur_iter = 0
+        self.last_overflow_iter = -1
+        self.scale_factor = scale_factor
+        self.scale_window = scale_window
+        self.min_scale = min_scale
+        self.delayed_shift = delayed_shift
+        self.cur_hysteresis = delayed_shift
+        self.consecutive_hysteresis = consecutive_hysteresis
diff --git a/megatron/fused_kernels/__init__.py b/megatron/fused_kernels/__init__.py
index 6886c17e8b6..f96354483a0 100644
--- a/megatron/fused_kernels/__init__.py
+++ b/megatron/fused_kernels/__init__.py
@@ -21,45 +21,52 @@ def load(args):
     cc_flag = []
     if torch.version.hip is None:
         _, bare_metal_major, bare_metal_minor = _get_cuda_bare_metal_version(
-            cpp_extension.CUDA_HOME)
+            cpp_extension.CUDA_HOME
+        )
         if int(bare_metal_major) >= 11:
-            cc_flag.append('-gencode')
-            cc_flag.append('arch=compute_80,code=sm_80')
+            cc_flag.append("-gencode")
+            cc_flag.append("arch=compute_80,code=sm_80")
             if int(bare_metal_minor) >= 1:
-                cc_flag.append('-gencode')
-                cc_flag.append('arch=compute_86,code=sm_86')
+                cc_flag.append("-gencode")
+                cc_flag.append("arch=compute_86,code=sm_86")
             if int(bare_metal_minor) >= 4:
-                cc_flag.append('-gencode')
-                cc_flag.append('arch=compute_87,code=sm_87')
+                cc_flag.append("-gencode")
+                cc_flag.append("arch=compute_87,code=sm_87")
             if int(bare_metal_minor) >= 8:
-                cc_flag.append('-gencode')
-                cc_flag.append('arch=compute_89,code=sm_89')
+                cc_flag.append("-gencode")
+                cc_flag.append("arch=compute_89,code=sm_89")
         if int(bare_metal_major) >= 12:
-            cc_flag.append('-gencode')
-            cc_flag.append('arch=compute_90,code=sm_90')
+            cc_flag.append("-gencode")
+            cc_flag.append("arch=compute_90,code=sm_90")
 
     # Build path
     srcpath = pathlib.Path(__file__).parent.absolute()
-    buildpath = srcpath / 'build'
+    buildpath = srcpath / "build"
     _create_build_dir(buildpath)
 
     # Helper function to build the kernels.
-    def _cpp_extention_load_helper(name, sources, extra_cuda_flags, extra_include_paths):
+    def _cpp_extention_load_helper(
+        name, sources, extra_cuda_flags, extra_include_paths
+    ):
         if torch.version.hip is not None:
-            extra_cuda_cflags=['-O3'] + extra_cuda_flags + cc_flag
+            extra_cuda_cflags = ["-O3"] + extra_cuda_flags + cc_flag
         else:
-            extra_cuda_cflags=['-O3',
-                               '-gencode', 'arch=compute_70,code=sm_70',
-                               '--use_fast_math'] + extra_cuda_flags + cc_flag
+            extra_cuda_cflags = (
+                ["-O3", "-gencode", "arch=compute_70,code=sm_70", "--use_fast_math"]
+                + extra_cuda_flags
+                + cc_flag
+            )
 
         return cpp_extension.load(
             name=name,
             sources=sources,
             build_directory=buildpath,
-            extra_cflags=['-O3',],
+            extra_cflags=[
+                "-O3",
+            ],
             extra_cuda_cflags=extra_cuda_cflags,
             extra_include_paths=extra_include_paths,
-            verbose=(args.rank == 0)
+            verbose=(args.rank == 0),
         )
 
     # ==============
@@ -67,43 +74,56 @@ def _cpp_extention_load_helper(name, sources, extra_cuda_flags, extra_include_pa
     # ==============
 
     if torch.version.hip is not None:
-        extra_include_paths=[os.path.abspath(srcpath)]
+        extra_include_paths = [os.path.abspath(srcpath)]
     else:
-        extra_include_paths=[]
+        extra_include_paths = []
 
     if args.masked_softmax_fusion:
         if torch.version.hip is not None:
-             extra_cuda_flags = ['-D__HIP_NO_HALF_OPERATORS__=1',
-                                '-D__HIP_NO_HALF_CONVERSIONS__=1']
+            extra_cuda_flags = [
+                "-D__HIP_NO_HALF_OPERATORS__=1",
+                "-D__HIP_NO_HALF_CONVERSIONS__=1",
+            ]
         else:
-             extra_cuda_flags = ['-U__CUDA_NO_HALF_OPERATORS__',
-                                '-U__CUDA_NO_HALF_CONVERSIONS__',
-                                '--expt-relaxed-constexpr',
-                                '--expt-extended-lambda']
-        
+            extra_cuda_flags = [
+                "-U__CUDA_NO_HALF_OPERATORS__",
+                "-U__CUDA_NO_HALF_CONVERSIONS__",
+                "--expt-relaxed-constexpr",
+                "--expt-extended-lambda",
+            ]
+
         # Upper triangular softmax.
-        sources=[srcpath / 'scaled_upper_triang_masked_softmax.cpp',
-                 srcpath / 'scaled_upper_triang_masked_softmax_cuda.cu']
+        sources = [
+            srcpath / "scaled_upper_triang_masked_softmax.cpp",
+            srcpath / "scaled_upper_triang_masked_softmax_cuda.cu",
+        ]
         scaled_upper_triang_masked_softmax_cuda = _cpp_extention_load_helper(
             "scaled_upper_triang_masked_softmax_cuda",
-            sources, extra_cuda_flags, extra_include_paths)
+            sources,
+            extra_cuda_flags,
+            extra_include_paths,
+        )
 
         # Masked softmax.
-        sources=[srcpath / 'scaled_masked_softmax.cpp',
-                 srcpath / 'scaled_masked_softmax_cuda.cu']
+        sources = [
+            srcpath / "scaled_masked_softmax.cpp",
+            srcpath / "scaled_masked_softmax_cuda.cu",
+        ]
         scaled_masked_softmax_cuda = _cpp_extention_load_helper(
-            "scaled_masked_softmax_cuda", sources, extra_cuda_flags, extra_include_paths)
+            "scaled_masked_softmax_cuda", sources, extra_cuda_flags, extra_include_paths
+        )
 
         # Softmax
-        sources=[srcpath / 'scaled_softmax.cpp',
-                 srcpath / 'scaled_softmax_cuda.cu']
+        sources = [srcpath / "scaled_softmax.cpp", srcpath / "scaled_softmax_cuda.cu"]
         scaled_softmax_cuda = _cpp_extention_load_helper(
-            "scaled_softmax_cuda", sources, extra_cuda_flags, extra_include_paths)
+            "scaled_softmax_cuda", sources, extra_cuda_flags, extra_include_paths
+        )
 
 
 def _get_cuda_bare_metal_version(cuda_dir):
-    raw_output = subprocess.check_output([cuda_dir + "/bin/nvcc", "-V"],
-                                         universal_newlines=True)
+    raw_output = subprocess.check_output(
+        [cuda_dir + "/bin/nvcc", "-V"], universal_newlines=True
+    )
     output = raw_output.split()
     release_idx = output.index("release") + 1
     release = output[release_idx].split(".")
diff --git a/megatron/fused_kernels/tests/test_fused_kernels.py b/megatron/fused_kernels/tests/test_fused_kernels.py
index 74024c5020f..f1b2e02d267 100644
--- a/megatron/fused_kernels/tests/test_fused_kernels.py
+++ b/megatron/fused_kernels/tests/test_fused_kernels.py
@@ -9,6 +9,7 @@
 from megatron.model.utils import attention_mask_func
 from megatron.fused_kernels import load
 
+
 def test_load_fused_kernels():
     try:
         import fused_layer_norm_cuda
@@ -21,6 +22,7 @@ def test_load_fused_kernels():
         print("[Fail] load_fused_kernels")
         raise e
 
+
 def test_fused_softmax():
     bert = BertModel.from_pretrained("bert-base-cased").cuda().half()
     tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
@@ -298,13 +300,22 @@ def test_masked_softmax_forward():
     scale_t = torch.tensor([1.0])
     for qlen in [128, 256, 1024, 2048, 4096]:
         for klen in [128, 256, 1024, 2048]:
-            inputs = torch.normal(0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device='cuda:0')
-            masks = torch.randint(0, 2, (batch, 1, qlen, klen), dtype=torch.bool, device='cuda:0')
-            softmax_results = scaled_masked_softmax_cuda.forward(inputs, masks, scale_t[0].item())
-            softmax_results_torch = forward_torch_softmax(inputs, masks, scale_t[0].item())
+            inputs = torch.normal(
+                0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device="cuda:0"
+            )
+            masks = torch.randint(
+                0, 2, (batch, 1, qlen, klen), dtype=torch.bool, device="cuda:0"
+            )
+            softmax_results = scaled_masked_softmax_cuda.forward(
+                inputs, masks, scale_t[0].item()
+            )
+            softmax_results_torch = forward_torch_softmax(
+                inputs, masks, scale_t[0].item()
+            )
             error = (softmax_results_torch - softmax_results).abs().max()
             assert error < 1e-3
 
+
 def test_masked_softmax_backward():
     import scaled_masked_softmax_cuda
 
@@ -313,14 +324,24 @@ def test_masked_softmax_backward():
     scale_t = torch.tensor([1.0])
     for qlen in [128, 256, 1024, 2048, 4096]:
         for klen in [128, 256, 1024, 2048]:
-            inputs = torch.normal(0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device='cuda:0')
-            backward = torch.rand_like(inputs, dtype=torch.float16, device='cuda:0')
-            masks = torch.randint(0, 2, (batch, 1, qlen, klen), dtype=torch.bool, device='cuda:0')
-            softmax_results = scaled_masked_softmax_cuda.forward(inputs, masks, scale_t[0].item())
-            back_grad = scaled_masked_softmax_cuda.backward(backward, softmax_results, scale_t[0].item())
+            inputs = torch.normal(
+                0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device="cuda:0"
+            )
+            backward = torch.rand_like(inputs, dtype=torch.float16, device="cuda:0")
+            masks = torch.randint(
+                0, 2, (batch, 1, qlen, klen), dtype=torch.bool, device="cuda:0"
+            )
+            softmax_results = scaled_masked_softmax_cuda.forward(
+                inputs, masks, scale_t[0].item()
+            )
+            back_grad = scaled_masked_softmax_cuda.backward(
+                backward, softmax_results, scale_t[0].item()
+            )
 
             inputs.requires_grad = True
-            softmax_results_torch = forward_torch_softmax(inputs, masks, scale_t[0].item())
+            softmax_results_torch = forward_torch_softmax(
+                inputs, masks, scale_t[0].item()
+            )
             softmax_results_torch.backward(backward)
             error = (back_grad - inputs.grad).abs().max()
             assert error < 1e-3
@@ -334,9 +355,15 @@ def test_allmasked_softmax_forward():
     scale_t = torch.tensor([1.0])
     for qlen in [128, 256, 1024, 2048, 4096]:
         for klen in [128, 256, 1024, 2048]:
-            inputs = torch.normal(0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device='cuda:0')
-            masks = torch.ones((batch, 1, qlen, klen), dtype=torch.bool, device='cuda:0')
-            softmax_results = scaled_masked_softmax_cuda.forward(inputs, masks, scale_t[0].item())
+            inputs = torch.normal(
+                0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device="cuda:0"
+            )
+            masks = torch.ones(
+                (batch, 1, qlen, klen), dtype=torch.bool, device="cuda:0"
+            )
+            softmax_results = scaled_masked_softmax_cuda.forward(
+                inputs, masks, scale_t[0].item()
+            )
             softmax_results_torch = torch.zeros_like(inputs)
             error = (softmax_results_torch - softmax_results).abs().max()
             assert error == 0.0
@@ -350,13 +377,23 @@ def test_allmasked_softmax_backward():
     scale_t = torch.tensor([1.0])
     for qlen in [128, 256, 1024, 2048, 4096]:
         for klen in [128, 256, 1024, 2048]:
-            inputs = torch.normal(0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device='cuda:0')
-            backward = torch.rand_like(inputs, dtype=torch.float16, device='cuda:0')
-            masks = torch.ones((batch, 1, qlen, klen), dtype=torch.bool, device='cuda:0')
-            softmax_results = scaled_masked_softmax_cuda.forward(inputs, masks, scale_t[0].item())
-            back_grad = scaled_masked_softmax_cuda.backward(backward, softmax_results, scale_t[0].item())
+            inputs = torch.normal(
+                0, 2, (batch, attn, qlen, klen), dtype=torch.float16, device="cuda:0"
+            )
+            backward = torch.rand_like(inputs, dtype=torch.float16, device="cuda:0")
+            masks = torch.ones(
+                (batch, 1, qlen, klen), dtype=torch.bool, device="cuda:0"
+            )
+            softmax_results = scaled_masked_softmax_cuda.forward(
+                inputs, masks, scale_t[0].item()
+            )
+            back_grad = scaled_masked_softmax_cuda.backward(
+                backward, softmax_results, scale_t[0].item()
+            )
             inputs.requires_grad = True
-            softmax_results_torch = forward_torch_softmax(inputs, masks, scale_t[0].item())
+            softmax_results_torch = forward_torch_softmax(
+                inputs, masks, scale_t[0].item()
+            )
             softmax_results_torch.backward(backward)
             error = (back_grad - inputs.grad).abs().max()
             assert error < 1e-3
diff --git a/megatron/global_vars.py b/megatron/global_vars.py
index cb284b3c34f..b86cdece65f 100644
--- a/megatron/global_vars.py
+++ b/megatron/global_vars.py
@@ -4,25 +4,31 @@
 
 import os
 import sys
-import torch
 
 from megatron import dist_signal_handler
 from megatron.tokenizer import build_tokenizer
 from .microbatches import build_num_microbatches_calculator
 from .timers import Timers
 
+try:
+    import wandb
+except Exception:
+    wandb = None
+
 _GLOBAL_ARGS = None
 _GLOBAL_RETRO_ARGS = None
 _GLOBAL_NUM_MICROBATCHES_CALCULATOR = None
 _GLOBAL_TOKENIZER = None
 _GLOBAL_TENSORBOARD_WRITER = None
+_GLOBAL_WANDB_WRITER = None
 _GLOBAL_ADLR_AUTORESUME = None
 _GLOBAL_TIMERS = None
 _GLOBAL_SIGNAL_HANDLER = None
 
+
 def get_args():
     """Return arguments."""
-    _ensure_var_is_initialized(_GLOBAL_ARGS, 'args')
+    _ensure_var_is_initialized(_GLOBAL_ARGS, "args")
     return _GLOBAL_ARGS
 
 
@@ -32,21 +38,23 @@ def get_retro_args():
 
 
 def get_num_microbatches():
+    assert _GLOBAL_NUM_MICROBATCHES_CALCULATOR is not None
     return _GLOBAL_NUM_MICROBATCHES_CALCULATOR.get()
 
 
-def get_current_global_batch_size():
+def get_current_global_batch_size() -> int:
+    assert _GLOBAL_NUM_MICROBATCHES_CALCULATOR is not None
     return _GLOBAL_NUM_MICROBATCHES_CALCULATOR.get_current_global_batch_size()
 
 
 def update_num_microbatches(consumed_samples, consistency_check=True):
-    _GLOBAL_NUM_MICROBATCHES_CALCULATOR.update(consumed_samples,
-                                               consistency_check)
+    assert _GLOBAL_NUM_MICROBATCHES_CALCULATOR is not None
+    _GLOBAL_NUM_MICROBATCHES_CALCULATOR.update(consumed_samples, consistency_check)
 
 
 def get_tokenizer():
     """Return tokenizer."""
-    _ensure_var_is_initialized(_GLOBAL_TOKENIZER, 'tokenizer')
+    _ensure_var_is_initialized(_GLOBAL_TOKENIZER, "tokenizer")
     return _GLOBAL_TOKENIZER
 
 
@@ -56,6 +64,12 @@ def get_tensorboard_writer():
     return _GLOBAL_TENSORBOARD_WRITER
 
 
+def get_wandb_writer():
+    """Return wandb writer. It can be None so no need
+    to check if it is initialized."""
+    return _GLOBAL_WANDB_WRITER
+
+
 def get_adlr_autoresume():
     """ADLR autoresume object. It can be None so no need
     to check if it is initialized."""
@@ -64,39 +78,39 @@ def get_adlr_autoresume():
 
 def get_timers():
     """Return timers."""
-    _ensure_var_is_initialized(_GLOBAL_TIMERS, 'timers')
+    _ensure_var_is_initialized(_GLOBAL_TIMERS, "timers")
     return _GLOBAL_TIMERS
 
 
 def get_signal_handler():
-    _ensure_var_is_initialized(_GLOBAL_SIGNAL_HANDLER, 'signal handler')
+    _ensure_var_is_initialized(_GLOBAL_SIGNAL_HANDLER, "signal handler")
     return _GLOBAL_SIGNAL_HANDLER
 
 
 def _set_signal_handler():
     global _GLOBAL_SIGNAL_HANDLER
-    _ensure_var_is_not_initialized(_GLOBAL_SIGNAL_HANDLER, 'signal handler')
+    _ensure_var_is_not_initialized(_GLOBAL_SIGNAL_HANDLER, "signal handler")
     _GLOBAL_SIGNAL_HANDLER = dist_signal_handler.DistributedSignalHandler().__enter__()
 
 
-
 def set_global_variables(args):
     """Set args, tokenizer, tensorboard-writer, adlr-autoresume, and timers."""
 
     assert args is not None
 
-    _ensure_var_is_not_initialized(_GLOBAL_ARGS, 'args')
+    _ensure_var_is_not_initialized(_GLOBAL_ARGS, "args")
     set_args(args)
 
     _build_num_microbatches_calculator(args)
     _ = _build_tokenizer(args)
     _set_tensorboard_writer(args)
+    _set_wandb_writer(args)
     _set_adlr_autoresume(args)
     _set_timers(args)
 
     if args.exit_signal_handler:
         _set_signal_handler()
-    
+
 
 def set_args(args):
     global _GLOBAL_ARGS
@@ -109,19 +123,18 @@ def set_retro_args(retro_args):
 
 
 def _build_num_microbatches_calculator(args):
-
     global _GLOBAL_NUM_MICROBATCHES_CALCULATOR
-    _ensure_var_is_not_initialized(_GLOBAL_NUM_MICROBATCHES_CALCULATOR,
-                                   'num microbatches calculator')
+    _ensure_var_is_not_initialized(
+        _GLOBAL_NUM_MICROBATCHES_CALCULATOR, "num microbatches calculator"
+    )
 
-    _GLOBAL_NUM_MICROBATCHES_CALCULATOR = build_num_microbatches_calculator(
-        args)
+    _GLOBAL_NUM_MICROBATCHES_CALCULATOR = build_num_microbatches_calculator(args)
 
 
 def _build_tokenizer(args):
     """Initialize tokenizer."""
     global _GLOBAL_TOKENIZER
-    _ensure_var_is_not_initialized(_GLOBAL_TOKENIZER, 'tokenizer')
+    _ensure_var_is_not_initialized(_GLOBAL_TOKENIZER, "tokenizer")
     _GLOBAL_TOKENIZER = build_tokenizer(args)
     return _GLOBAL_TOKENIZER
 
@@ -135,36 +148,90 @@ def rebuild_tokenizer(args):
 def _set_tensorboard_writer(args):
     """Set tensorboard writer."""
     global _GLOBAL_TENSORBOARD_WRITER
-    _ensure_var_is_not_initialized(_GLOBAL_TENSORBOARD_WRITER,
-                                   'tensorboard writer')
-
-    if hasattr(args, 'tensorboard_dir') and \
-       args.tensorboard_dir and args.rank == (args.world_size - 1):
+    _ensure_var_is_not_initialized(_GLOBAL_TENSORBOARD_WRITER, "tensorboard writer")
+    if (
+        hasattr(args, "tensorboard_dir")
+        and args.tensorboard_dir
+        and args.rank == (args.world_size - 1)
+    ):
         try:
-            from torch.utils.tensorboard import SummaryWriter
-            print('> setting tensorboard ...')
+            from torch.utils.tensorboard.writer import SummaryWriter
+
+            print("> setting tensorboard ...")
             _GLOBAL_TENSORBOARD_WRITER = SummaryWriter(
-                log_dir=args.tensorboard_dir,
-                max_queue=args.tensorboard_queue_size)
+                log_dir=args.tensorboard_dir, max_queue=args.tensorboard_queue_size
+            )
         except ModuleNotFoundError:
-            print('WARNING: TensorBoard writing requested but is not '
-                  'available (are you using PyTorch 1.1.0 or later?), '
-                  'no TensorBoard logs will be written.', flush=True)
+            print(
+                "WARNING: TensorBoard writing requested but is not "
+                "available (are you using PyTorch 1.1.0 or later?), "
+                "no TensorBoard logs will be written.",
+                flush=True,
+            )
+
+
+def _set_wandb_writer(args):
+    """Set wandb writer."""
+    global _GLOBAL_WANDB_WRITER
+    _ensure_var_is_not_initialized(_GLOBAL_WANDB_WRITER, "wandb writer")
+
+    if args.rank == (args.world_size - 1):
+        if (
+            getattr(args, "wandb_project", "") == ""
+            and getattr(args, "wandb_exp_name", "") == ""
+        ):
+            print(
+                "WARNING: WANDB writing requested but no legit wandb "
+                "project or experiment name provided, "
+                "therefore no WANDB logs will be written "
+                "according to random generated project or experiment name.",
+                flush=True,
+            )
+            return
+
+        try:
+            import wandb
+        except (ImportError, ModuleNotFoundError):
+            print(
+                "WARNING: WANDB writing requested but is not "
+                "available (try to pip install wandb to solve it), "
+                "no WANDB logs will be written.",
+                flush=True,
+            )
+            wandb = None
+            return
+
+        assert wandb is not None
+
+        if args.wandb_save_dir:
+            save_dir = args.wandb_save_dir
+        else:
+            # Defaults to the save dir.
+            save_dir = os.path.join(args.save, "wandb")
+        wandb_kwargs = {
+            "dir": save_dir,
+            "name": args.wandb_exp_name,
+            "project": args.wandb_project,
+            "config": vars(args),
+        }
+        os.makedirs(wandb_kwargs["dir"], exist_ok=True)
+        wandb.init(**wandb_kwargs)  # type:ignore
+        _GLOBAL_WANDB_WRITER = wandb
 
 
 def _set_adlr_autoresume(args):
     """Initialize ADLR autoresume."""
     global _GLOBAL_ADLR_AUTORESUME
-    _ensure_var_is_not_initialized(_GLOBAL_ADLR_AUTORESUME, 'adlr autoresume')
+    _ensure_var_is_not_initialized(_GLOBAL_ADLR_AUTORESUME, "adlr autoresume")
 
     if args.adlr_autoresume:
         if args.rank == 0:
-            print('enabling autoresume ...', flush=True)
-        sys.path.append(os.environ.get('SUBMIT_SCRIPTS', '.'))
+            print("enabling autoresume ...", flush=True)
+        sys.path.append(os.environ.get("SUBMIT_SCRIPTS", "."))
         try:
             from userlib.auto_resume import AutoResume
         except BaseException:
-            print('ADLR autoresume is not available, exiting ...')
+            print("ADLR autoresume is not available, exiting ...")
             sys.exit()
 
         _GLOBAL_ADLR_AUTORESUME = AutoResume
@@ -173,15 +240,15 @@ def _set_adlr_autoresume(args):
 def _set_timers(args):
     """Initialize timers."""
     global _GLOBAL_TIMERS
-    _ensure_var_is_not_initialized(_GLOBAL_TIMERS, 'timers')
+    _ensure_var_is_not_initialized(_GLOBAL_TIMERS, "timers")
     _GLOBAL_TIMERS = Timers(args.timing_log_level, args.timing_log_option)
 
 
 def _ensure_var_is_initialized(var, name):
     """Make sure the input variable is not None."""
-    assert var is not None, '{} is not initialized.'.format(name)
+    assert var is not None, f"{name} is not initialized."
 
 
 def _ensure_var_is_not_initialized(var, name):
     """Make sure the input variable is not None."""
-    assert var is None, '{} is already initialized.'.format(name)
+    assert var is None, f"{name} is already initialized."
diff --git a/megatron/indexer.py b/megatron/indexer.py
index 45f530a7d4d..647537060bd 100644
--- a/megatron/indexer.py
+++ b/megatron/indexer.py
@@ -19,13 +19,15 @@ class IndexBuilder(object):
     Object for taking one pass over a dataset and creating a BlockData of its
     embeddings
     """
+
     def __init__(self):
         args = get_args()
         self.model = None
         self.dataloader = None
         self.evidence_embedder_obj = None
-        self.biencoder_shared_query_context_model = \
+        self.biencoder_shared_query_context_model = (
             args.biencoder_shared_query_context_model
+        )
 
         # need to know whether we're using a REALM checkpoint (args.load)
         # or ICT checkpoint
@@ -47,22 +49,24 @@ def load_attributes(self):
         if self.biencoder_shared_query_context_model:
             only_context_model = False
 
-        model = get_model(get_model_provider(only_context_model=\
-            only_context_model, biencoder_shared_query_context_model=\
-            self.biencoder_shared_query_context_model))
+        model = get_model(
+            get_model_provider(
+                only_context_model=only_context_model,
+                biencoder_shared_query_context_model=self.biencoder_shared_query_context_model,
+            )
+        )
 
-        self.model = load_biencoder_checkpoint(model,
-                only_context_model=only_context_model)
+        self.model = load_biencoder_checkpoint(
+            model, only_context_model=only_context_model
+        )
 
         assert len(self.model) == 1
         self.model[0].eval()
 
         self.dataset = get_open_retrieval_wiki_dataset()
-        self.dataloader = iter(get_one_epoch_dataloader(self.dataset, \
-            self.batch_size))
+        self.dataloader = iter(get_one_epoch_dataloader(self.dataset, self.batch_size))
 
-        self.evidence_embedder_obj = OpenRetreivalDataStore( \
-            load_from_path=False)
+        self.evidence_embedder_obj = OpenRetreivalDataStore(load_from_path=False)
 
     def track_and_report_progress(self, batch_size):
         """
@@ -71,8 +75,12 @@ def track_and_report_progress(self, batch_size):
         self.iteration += 1
         self.total_processed += batch_size * self.num_total_builders
         if self.is_main_builder and self.iteration % self.log_interval == 0:
-            print('Batch {:10d} | Total {:10d}'.format(self.iteration,
-                self.total_processed), flush=True)
+            print(
+                "Batch {:10d} | Total {:10d}".format(
+                    self.iteration, self.total_processed
+                ),
+                flush=True,
+            )
 
     def build_and_save_index(self):
         """
@@ -86,15 +94,19 @@ def build_and_save_index(self):
         assert len(self.model) == 1
         unwrapped_model = self.model[0]
 
-        while not hasattr(unwrapped_model, 'embed_text'):
+        while not hasattr(unwrapped_model, "embed_text"):
             unwrapped_model = unwrapped_model.module
 
         while True:
             try:
                 # batch also has query_tokens and query_pad_data
-                row_id, context_tokens, context_mask, context_types, \
-                    context_pad_mask = get_open_retrieval_batch( \
-                    self.dataloader)
+                (
+                    row_id,
+                    context_tokens,
+                    context_mask,
+                    context_types,
+                    context_pad_mask,
+                ) = get_open_retrieval_batch(self.dataloader)
             except (StopIteration, IndexError):
                 break
 
@@ -102,8 +114,11 @@ def build_and_save_index(self):
             # detach, separate fields and add to BlockData
             assert context_mask.dtype == torch.bool
             context_logits = unwrapped_model.embed_text(
-                unwrapped_model.context_model, context_tokens, context_mask,
-                context_types)
+                unwrapped_model.context_model,
+                context_tokens,
+                context_mask,
+                context_types,
+            )
 
             context_logits = detach(context_logits)
             row_id = detach(row_id)
@@ -121,8 +136,7 @@ def build_and_save_index(self):
         if self.is_main_builder:
             self.evidence_embedder_obj.merge_shards_and_save()
             # make sure that every single piece of data was embedded
-            assert len(self.evidence_embedder_obj.embed_data) == \
-                len(self.dataset)
+            assert len(self.evidence_embedder_obj.embed_data) == len(self.dataset)
         self.evidence_embedder_obj.clear()
 
         # complete building the final copy
diff --git a/megatron/initialize.py b/megatron/initialize.py
index 31f26c5086e..b0ce5336df5 100644
--- a/megatron/initialize.py
+++ b/megatron/initialize.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 """Megatron initialization."""
@@ -15,6 +16,8 @@
 from megatron import get_args
 from megatron import get_tensorboard_writer
 from megatron.core import mpu, tensor_parallel
+from megatron.core.pipeline_parallel.deepspeed_zbh1_engine import _exec_backward_only_pass, _exec_weight_pass
+from megatron.core.pipeline_parallel.deepspeed_zbh1_schedule import BackwardOnlyPass, WeightPass, ZeroBubbleH1Pipeline
 from megatron.arguments import (parse_args, validate_args)
 from megatron.checkpointing import load_args_from_checkpoint
 from megatron.global_vars import set_global_variables
@@ -28,19 +31,24 @@
 is_rocm_pytorch = OpBuilder.is_rocm_pytorch()
 
 
-def initialize_megatron(extra_args_provider=None, args_defaults={},
-                        ignore_unknown_args=False, allow_no_cuda=False, external_args={}):
+def initialize_megatron(
+    extra_args_provider=None,
+    args_defaults={},
+    ignore_unknown_args=False,
+    allow_no_cuda=False,
+    external_args={},
+):
     """Set global variables, initialize distributed, and
     set autoresume and random seeds.
-    `allow_no_cuda` should not be set unless using megatron for cpu only 
-    data processing. In general this arg should not be set unless you know 
+    `allow_no_cuda` should not be set unless using megatron for cpu only
+    data processing. In general this arg should not be set unless you know
     what you are doing.
-    Returns a function to finalize distributed env initialization 
+    Returns a function to finalize distributed env initialization
     (optionally, only when args.lazy_mpu_init == True)
     """
     if not allow_no_cuda:
         # Make sure cuda is available.
-        assert get_accelerator().is_available(), 'Megatron requires accelerator.'
+        assert get_accelerator().is_available(), "Megatron requires accelerator."
 
     # Parse arguments
     args = parse_args(extra_args_provider, ignore_unknown_args)
@@ -49,8 +57,8 @@ def initialize_megatron(extra_args_provider=None, args_defaults={},
         if key in args:
             setattr(args, key, external_args[key])
 
-    if args.use_checkpoint_args or args_defaults.get('use_checkpoint_args', False):
-        assert args.load is not None, '--use-checkpoints-args requires --load argument'
+    if args.use_checkpoint_args or args_defaults.get("use_checkpoint_args", False):
+        assert args.load is not None, "--use-checkpoints-args requires --load argument"
         load_args_from_checkpoint(args)
 
     validate_args(args, args_defaults)
@@ -64,16 +72,16 @@ def finish_mpu_init():
         args = get_args()
         # Pytorch distributed.
         _initialize_distributed()
-        
+
         # Random seeds for reproducibility.
         if args.rank == 0:
-            print('> setting random seeds to {} ...'.format(args.seed))
+            print("> setting random seeds to {} ...".format(args.seed))
         _set_random_seed(args.seed, args.data_parallel_random_init)
 
     args = get_args()
-    if  args.lazy_mpu_init:
+    if args.lazy_mpu_init:
         # TODO is this still a necessary option?
-        args.use_cpu_initialization=True
+        args.use_cpu_initialization = True
         # delayed initialization of DDP-related stuff
         # We only set basic DDP globals
         mpu.set_tensor_model_parallel_world_size(args.tensor_model_parallel_size)
@@ -108,15 +116,19 @@ def _compile_dependencies():
     # TODO: move this to ninja
     if is_rank_0():
         start_time = time.time()
-        print('> compiling dataset index builder ...')
+        print("> compiling dataset index builder ...")
         from megatron.data.dataset_utils import compile_helper
+
         compile_helper()
-        print('>>> done with dataset index builder. Compilation time: {:.3f} '
-              'seconds'.format(time.time() - start_time), flush=True)
-        
-    if not get_accelerator().device_name() == 'cuda':
+        print(
+            ">>> done with dataset index builder. Compilation time: {:.3f} "
+            "seconds".format(time.time() - start_time),
+            flush=True,
+        )
+
+    if not get_accelerator().device_name() == "cuda":
         print(">fused kernel is only supported in cuda, skip loading fused kernel")
-        return 
+        return
 
     if args.use_dataset_only:
         return
@@ -126,27 +138,36 @@ def _compile_dependencies():
 
     # Custom kernel constraints check.
     seq_len = args.seq_length
-    attn_batch_size = \
-        (args.num_attention_heads / args.tensor_model_parallel_size) * \
-        args.micro_batch_size
+    attn_batch_size = (
+        args.num_attention_heads / args.tensor_model_parallel_size
+    ) * args.micro_batch_size
     # Constraints on sequence length and attn_batch_size to enable warp based
     # optimization and upper triangular optimization (for causal mask)
-    custom_kernel_constraint = seq_len > 16 and seq_len <=4096 and \
-        seq_len % 4 == 0 and attn_batch_size % 4 == 0
+    custom_kernel_constraint = (
+        seq_len > 16
+        and seq_len <= 4096
+        and seq_len % 4 == 0
+        and attn_batch_size % 4 == 0
+    )
     # Print a warning.
-    if not ((args.fp16 or args.bf16) and
-            custom_kernel_constraint and
-            args.masked_softmax_fusion):
+    if not (
+        (args.fp16 or args.bf16)
+        and custom_kernel_constraint
+        and args.masked_softmax_fusion
+    ):
         if args.rank == 0:
-            print('WARNING: constraints for invoking optimized'
-                  ' fused softmax kernel are not met. We default'
-                  ' back to unfused kernel invocations.', flush=True)
-    
+            print(
+                "WARNING: constraints for invoking optimized"
+                " fused softmax kernel are not met. We default"
+                " back to unfused kernel invocations.",
+                flush=True,
+            )
+
     # Always build on rank zero first.
     if is_rank_0():
         start_time = time.time()
-        print('> compiling and loading fused kernels ...', flush=True)
-        if get_accelerator().device_count() > 0: # Skip when CPU-only
+        print("> compiling and loading fused kernels ...", flush=True)
+        if get_accelerator().device_count() > 0:  # Skip when CPU-only
             fused_kernels.load(args)
         torch.distributed.barrier()
     else:
@@ -158,13 +179,15 @@ def _compile_dependencies():
     # the lock is released.
     torch.distributed.barrier()
     if is_rank_0():
-        print('>>> done with compiling and loading fused kernels. '
-              'Compilation time: {:.3f} seconds'.format(
-                  time.time() - start_time), flush=True)
+        print(
+            ">>> done with compiling and loading fused kernels. "
+            "Compilation time: {:.3f} seconds".format(time.time() - start_time),
+            flush=True,
+        )
 
 
 def setup_deepspeed_random_and_activation_checkpointing(args):
-    '''Optional DeepSpeed Activation Checkpointing features.
+    """Optional DeepSpeed Activation Checkpointing features.
     Gives access to partition activations, contiguous memory optimizations
     and cpu checkpointing.
     Activation checkpoint requires keep track of the random states
@@ -174,20 +197,26 @@ def setup_deepspeed_random_and_activation_checkpointing(args):
     Since they are used in places outside of activation checkpointing,
     we overwrite them to maintain consistency.
     This must be called before all the calls to mpu.model_parallel_cuda_manual_seed
-    '''
+    """
     num_layers = args.num_layers // args.checkpoint_num_layers
-    num_layers = num_layers if args.num_layers % args.checkpoint_num_layers == 0 else num_layers + 1
+    num_layers = (
+        num_layers
+        if args.num_layers % args.checkpoint_num_layers == 0
+        else num_layers + 1
+    )
     if args.split_transformers:
         num_layers *= 2
 
     deepspeed.checkpointing.configure(
         mpu,
+        deepspeed_config=args.deepspeed_config,
         partition_activations=args.partition_activations,
         contiguous_checkpointing=args.contigious_checkpointing,
         num_checkpoints=num_layers,
         checkpoint_in_cpu=args.checkpoint_in_cpu,
         synchronize=args.synchronize_each_layer,
-        profile=args.profile_backward)
+        profile=args.profile_backward,
+    )
 
 
 def _initialize_distributed():
@@ -197,40 +226,54 @@ def _initialize_distributed():
     if torch.distributed.is_initialized():
 
         if args.rank == 0:
-            print('torch distributed is already initialized, '
-                  'skipping initialization ...', flush=True)
+            print(
+                "torch distributed is already initialized, "
+                "skipping initialization ...",
+                flush=True,
+            )
         args.rank = torch.distributed.get_rank()
         args.world_size = torch.distributed.get_world_size()
 
     else:
         if args.rank == 0:
-            print('> initializing torch distributed ...', flush=True)
+            print("> initializing torch distributed ...", flush=True)
         # Manually set the device ids.
         if device_count > 0:
             device = args.rank % device_count
             if args.local_rank is not None:
-                assert args.local_rank == device, \
-                    'expected local-rank to be the same as rank % device-count.'
+                assert (
+                    args.local_rank == device
+                ), "expected local-rank to be the same as rank % device-count."
             else:
                 args.local_rank = device
 
-            get_accelerator().set_device(device) # only do so when device_count > 0
+            get_accelerator().set_device(device)  # only do so when device_count > 0
 
+    if args.enable_zbh1_pipeline:
+        deepspeed.runtime.pipe.schedule.TrainSchedule = ZeroBubbleH1Pipeline
+        deepspeed.runtime.pipe.engine.PipelineEngine._INSTRUCTION_MAP.update(
+            {
+                BackwardOnlyPass: _exec_backward_only_pass,
+                WeightPass: _exec_weight_pass,
+            }
+        )
     # Call the init process
     if args.deepspeed or args.ds_inference:
         deepspeed.init_distributed()
     else:
         if not torch.distributed.is_initialized():
             torch.distributed.init_process_group(
-                backend=args.distributed_backend,
-                world_size=args.world_size, rank=args.rank,
-                timeout=timedelta(minutes=args.distributed_timeout_minutes))
+                backend=get_accelerator().communication_backend_name(),
+                world_size=args.world_size,
+                rank=args.rank,
+                timeout=timedelta(minutes=args.distributed_timeout_minutes),
+            )
 
     # Set the tensor model-parallel, pipeline model-parallel, and
     # data-parallel communicators.
     if device_count > 0:
         if mpu.model_parallel_is_initialized():
-            print('model parallel is already initialized')
+            print("model parallel is already initialized")
         else:
             if args.ds_sequence_parallel_size > 1 and args.sequence_parallel:
                 raise RuntimeError(
@@ -239,17 +282,23 @@ def _initialize_distributed():
                     f"Remove --sequence_parallel to use DeepSpeed's sequence parallel."
                 )
 
-            mpu.initialize_model_parallel(args.tensor_model_parallel_size,
-                                           args.pipeline_model_parallel_size,
-                                           args.ds_sequence_parallel_size,
-                                           args.virtual_pipeline_model_parallel_size,
-                                           args.pipeline_model_parallel_split_rank,
-                                           use_distributed_optimizer=args.use_distributed_optimizer)
+            mpu.initialize_model_parallel(
+                args.tensor_model_parallel_size,
+                args.pipeline_model_parallel_size,
+                args.ds_sequence_parallel_size,
+                args.virtual_pipeline_model_parallel_size,
+                args.pipeline_model_parallel_split_rank,
+                use_distributed_optimizer=args.use_distributed_optimizer,
+            )
             if args.rank == 0:
-                print(f'> initialized tensor model parallel with size '
-                      f'{mpu.get_tensor_model_parallel_world_size()}')
-                print(f'> initialized pipeline model parallel with size '
-                      f'{mpu.get_pipeline_model_parallel_world_size()}')
+                print(
+                    f"> initialized tensor model parallel with size "
+                    f"{mpu.get_tensor_model_parallel_world_size()}"
+                )
+                print(
+                    f"> initialized pipeline model parallel with size "
+                    f"{mpu.get_pipeline_model_parallel_world_size()}"
+                )
 
     if args.deepspeed and args.deepspeed_activation_checkpointing:
         setup_deepspeed_random_and_activation_checkpointing(args)
@@ -282,7 +331,7 @@ def _set_random_seed(seed_, data_parallel_random_init=False):
         if get_accelerator().device_count() > 0:
             tensor_parallel.model_parallel_cuda_manual_seed(seed)
     else:
-        raise ValueError('Seed ({}) should be a positive integer.'.format(seed))
+        raise ValueError("Seed ({}) should be a positive integer.".format(seed))
 
 
 def write_args_to_tensorboard():
@@ -291,8 +340,7 @@ def write_args_to_tensorboard():
     writer = get_tensorboard_writer()
     if writer:
         for arg in vars(args):
-            writer.add_text(arg, str(getattr(args, arg)),
-                            global_step=args.iteration)
+            writer.add_text(arg, str(getattr(args, arg)), global_step=args.iteration)
 
 
 def _initialize_mem_buffs():
@@ -306,9 +354,11 @@ def _initialize_mem_buffs():
 def set_jit_fusion_options():
     """Set PyTorch JIT layer fusion options."""
     # flags required to enable jit fusion kernels
-    TORCH_MAJOR = int(torch.__version__.split('.')[0])
-    TORCH_MINOR = int(torch.__version__.split('.')[1])
-    if ((TORCH_MAJOR > 1) or (TORCH_MAJOR == 1 and TORCH_MINOR >= 10)) and not is_rocm_pytorch:
+    TORCH_MAJOR = int(torch.__version__.split(".")[0])
+    TORCH_MINOR = int(torch.__version__.split(".")[1])
+    if (
+        (TORCH_MAJOR > 1) or (TORCH_MAJOR == 1 and TORCH_MINOR >= 10)
+    ) and not is_rocm_pytorch:
         # nvfuser
         torch._C._jit_set_profiling_executor(True)
         torch._C._jit_set_profiling_mode(True)
@@ -328,7 +378,7 @@ def set_jit_fusion_options():
 
 
 def _warmup_jit_function():
-    """ Compilie JIT functions before the main training steps """
+    """Compilie JIT functions before the main training steps"""
     args = get_args()
     if args.bf16:
         dtype = torch.bfloat16
@@ -338,11 +388,20 @@ def _warmup_jit_function():
         dtype = torch.float32
 
     # Warmup fused bias+gelu
-    bias = torch.rand(args.ffn_hidden_size // args.tensor_model_parallel_size,
-                      dtype=dtype, device='cuda')
-    input = torch.rand((args.seq_length // args.ds_sequence_parallel_size, args.micro_batch_size,
-                        args.ffn_hidden_size // args.tensor_model_parallel_size),
-                       dtype=dtype, device='cuda')
+    bias = torch.rand(
+        args.ffn_hidden_size // args.tensor_model_parallel_size,
+        dtype=dtype,
+        device="cuda",
+    )
+    input = torch.rand(
+        (
+            args.seq_length // args.ds_sequence_parallel_size,
+            args.micro_batch_size,
+            args.ffn_hidden_size // args.tensor_model_parallel_size,
+        ),
+        dtype=dtype,
+        device="cuda",
+    )
     # Warmup JIT fusions with the input grad_enable state of both forward
     # prop and recomputation
     for bias_grad, input_grad in zip([True, True], [False, True]):
@@ -356,15 +415,33 @@ def _warmup_jit_function():
         seq_length = args.seq_length // mpu.get_tensor_model_parallel_world_size()
     else:
         seq_length = args.seq_length
-    input = torch.rand((seq_length // args.ds_sequence_parallel_size, args.micro_batch_size, args.hidden_size),
-                       dtype=dtype, device='cuda')
-    residual = torch.rand((seq_length // args.ds_sequence_parallel_size, args.micro_batch_size, args.hidden_size),
-                          dtype=dtype, device='cuda')
-    bias = torch.rand((args.hidden_size), dtype=dtype, device='cuda').expand_as(residual)
+    input = torch.rand(
+        (
+            seq_length // args.ds_sequence_parallel_size,
+            args.micro_batch_size,
+            args.hidden_size,
+        ),
+        dtype=dtype,
+        device="cuda",
+    )
+    residual = torch.rand(
+        (
+            seq_length // args.ds_sequence_parallel_size,
+            args.micro_batch_size,
+            args.hidden_size,
+        ),
+        dtype=dtype,
+        device="cuda",
+    )
+    bias = torch.rand((args.hidden_size), dtype=dtype, device="cuda").expand_as(
+        residual
+    )
     dropout_rate = 0.1
     # Warmup JIT fusions with the input grad_enable state of both forward
     # prop and recomputation
-    for input_grad, bias_grad, residual_grad in zip([False, True], [True, True], [True, True]):
+    for input_grad, bias_grad, residual_grad in zip(
+        [False, True], [True, True], [True, True]
+    ):
         input.requires_grad = input_grad
         bias.requires_grad = bias_grad
         residual.requires_grad = residual_grad
diff --git a/megatron/memory.py b/megatron/memory.py
index e63afa51f08..8813ed5a943 100644
--- a/megatron/memory.py
+++ b/megatron/memory.py
@@ -10,8 +10,7 @@
 
 def allocate_mem_buff(name, numel, dtype, track_usage):
     """Allocate a memory buffer."""
-    assert name not in _MEM_BUFFS, \
-        'memory buffer {} already allocated.'.format(name)
+    assert name not in _MEM_BUFFS, "memory buffer {} already allocated.".format(name)
     _MEM_BUFFS[name] = MemoryBuffer(name, numel, dtype, track_usage)
     return _MEM_BUFFS[name]
 
@@ -33,20 +32,26 @@ class MemoryBuffer:
            `_start` index.
 
     """
+
     def __init__(self, name, numel, dtype, track_usage):
         if torch.distributed.get_rank() == 0:
             element_size = torch.tensor([], dtype=dtype).element_size()
-            print('> building the {} memory buffer with {} num elements '
-                  'and {} dtype ({:.1f} MB)...'.format(
-                      name, numel, dtype, numel*element_size/1024/1024),
-                  flush=True)
+            print(
+                "> building the {} memory buffer with {} num elements "
+                "and {} dtype ({:.1f} MB)...".format(
+                    name, numel, dtype, numel * element_size / 1024 / 1024
+                ),
+                flush=True,
+            )
         self.name = name
         self.numel = numel
         self.dtype = dtype
-        self.data = torch.empty(self.numel,
-                                dtype=self.dtype,
-                                device=get_accelerator().current_device_name(),
-                                requires_grad=False)
+        self.data = torch.empty(
+            self.numel,
+            dtype=self.dtype,
+            device=get_accelerator().current_device_name(),
+            requires_grad=False,
+        )
 
         # Index tracking the start of the free memory.
         self._start = 0
@@ -57,60 +62,60 @@ def __init__(self, name, numel, dtype, track_usage):
             self.in_use_value = 0.0
             self.total_value = 0.0
 
-
     def reset(self):
         """Reset the buffer start index to the beginning of the buffer."""
         self._start = 0
 
-
     def is_in_use(self):
         """Whether the current buffer hold on to any memory."""
         return self._start > 0
 
-
     def numel_in_use(self):
         """Return number of elements in use."""
         return self._start
 
-
     def add(self, tensor):
         """Allocate a chunk of memory from the buffer to tensor and copy
         the values."""
-        assert tensor.dtype == self.dtype, \
-            'Input tensor type {} different from buffer type {}'.format(
-                tensor.dtype, self.dtype)
+        assert (
+            tensor.dtype == self.dtype
+        ), "Input tensor type {} different from buffer type {}".format(
+            tensor.dtype, self.dtype
+        )
         # Number of elements of the input tensor.
         tensor_numel = torch.numel(tensor)
         new_start = self._start + tensor_numel
-        assert new_start <= self.numel, \
-            'Not enough memory left in the buffer ({} > {})'.format(
-                tensor_numel, self.numel - self._start)
+        assert (
+            new_start <= self.numel
+        ), "Not enough memory left in the buffer ({} > {})".format(
+            tensor_numel, self.numel - self._start
+        )
         # New tensor is a view into the memory.
-        new_tensor = self.data[self._start:new_start]
+        new_tensor = self.data[self._start : new_start]
         self._start = new_start
         new_tensor = new_tensor.view(tensor.shape)
         new_tensor.copy_(tensor)
         # Return a pointer to the new tensor.
         return new_tensor
 
-
     def get_data(self):
         """Return the data currently in use."""
         if self.track_usage:
             self.in_use_value += float(self._start)
             self.total_value += float(self.numel)
-        return self.data[:self._start]
-
+        return self.data[: self._start]
 
     def print_average_usage(self):
         """Print memory usage average over time. We would like this value
         to be as high as possible."""
-        assert self.track_usage, 'You need to enable track usage.'
+        assert self.track_usage, "You need to enable track usage."
         if torch.distributed.get_rank() == 0:
-            print(' > usage of {} memory buffer: {:.2f} %'.format(
-                self.name, self.in_use_value * 100.0 / self.total_value),
-                  flush=True)
-
+            print(
+                " > usage of {} memory buffer: {:.2f} %".format(
+                    self.name, self.in_use_value * 100.0 / self.total_value
+                ),
+                flush=True,
+            )
 
 
 class RingMemBuffer:
@@ -119,14 +124,14 @@ class RingMemBuffer:
     def __init__(self, name, num_buffers, numel, dtype, track_usage):
         self.num_buffers = num_buffers
         self.buffers = [
-            allocate_mem_buff(name+' {}'.format(i), numel, dtype, track_usage)
-            for i in range(num_buffers)]
+            allocate_mem_buff(name + " {}".format(i), numel, dtype, track_usage)
+            for i in range(num_buffers)
+        ]
         self._index = -1
 
-
     def get_next_buffer(self):
         self._index += 1
         self._index = self._index % self.num_buffers
         buff = self.buffers[self._index]
-        assert not buff.is_in_use(), 'buffer is already in use.'
+        assert not buff.is_in_use(), "buffer is already in use."
         return buff
diff --git a/megatron/microbatches.py b/megatron/microbatches.py
index 6449d7479c9..0d338b7caf2 100644
--- a/megatron/microbatches.py
+++ b/megatron/microbatches.py
@@ -7,34 +7,48 @@
 
 
 def build_num_microbatches_calculator(args):
-
     # Constant num micro-batches.
     if args.rampup_batch_size is None:
         num_microbatches_calculator = ConstantNumMicroBatches(
-            args.global_batch_size, args.micro_batch_size,
-            args.data_parallel_size)
+            args.global_batch_size, args.micro_batch_size, args.data_parallel_size
+        )
         if args.rank == 0:
-            print('setting number of micro-batches to constant {}'.format(
-                num_microbatches_calculator.get()), flush=True)
+            print(
+                "setting number of micro-batches to constant {}".format(
+                    num_microbatches_calculator.get()
+                ),
+                flush=True,
+            )
 
     else:
-        assert len(args.rampup_batch_size) == 3, 'expected the following ' \
-            'format: --rampup-batch-size <start batch size> ' \
-            '<batch size incerement> <ramp-up samples>'
+        assert len(args.rampup_batch_size) == 3, (
+            "expected the following "
+            "format: --rampup-batch-size <start batch size> "
+            "<batch size incerement> <ramp-up samples>"
+        )
         start_batch_size = int(args.rampup_batch_size[0])
         batch_size_increment = int(args.rampup_batch_size[1])
         ramup_samples = int(args.rampup_batch_size[2])
         if args.rank == 0:
-            print('will use batch size rampup starting from global batch '
-                  'size {} to global batch size {} with batch size increments '
-                  '{} over {} samples.'.format(start_batch_size,
-                                               args.global_batch_size,
-                                               batch_size_increment,
-                                               ramup_samples), flush=True)
+            print(
+                "will use batch size rampup starting from global batch "
+                "size {} to global batch size {} with batch size increments "
+                "{} over {} samples.".format(
+                    start_batch_size,
+                    args.global_batch_size,
+                    batch_size_increment,
+                    ramup_samples,
+                ),
+                flush=True,
+            )
         num_microbatches_calculator = RampupBatchsizeNumMicroBatches(
-            start_batch_size, batch_size_increment, ramup_samples,
-            args.global_batch_size, args.micro_batch_size,
-            args.data_parallel_size)
+            start_batch_size,
+            batch_size_increment,
+            ramup_samples,
+            args.global_batch_size,
+            args.micro_batch_size,
+            args.data_parallel_size,
+        )
 
     return num_microbatches_calculator
 
@@ -48,7 +62,7 @@ def __init__(self):
     def get(self):
         return self.num_micro_batches
 
-    def get_current_global_batch_size(self):
+    def get_current_global_batch_size(self) -> int:
         return self.current_global_batch_size
 
     @abstractmethod
@@ -59,15 +73,14 @@ def update(self, consumed_samples, consistency_check):
 class ConstantNumMicroBatches(NumMicroBatchesCalculator):
 
     def __init__(self, global_batch_size, micro_batch_size, data_parallel_size):
-        micro_batch_times_data_parallel = micro_batch_size * \
-                                          data_parallel_size
-        assert global_batch_size % micro_batch_times_data_parallel == 0, \
-            'global batch size ({}) is not divisible by micro batch size ({})' \
-            ' times data parallel size ({})'.format(global_batch_size,
-                                                    micro_batch_size,
-                                                    data_parallel_size)
-        self.num_micro_batches = global_batch_size // \
-                                 micro_batch_times_data_parallel
+        micro_batch_times_data_parallel = micro_batch_size * data_parallel_size
+        assert global_batch_size % micro_batch_times_data_parallel == 0, (
+            "global batch size ({}) is not divisible by micro batch size ({})"
+            " times data parallel size ({})".format(
+                global_batch_size, micro_batch_size, data_parallel_size
+            )
+        )
+        self.num_micro_batches = global_batch_size // micro_batch_times_data_parallel
         assert self.num_micro_batches >= 1
         self.current_global_batch_size = global_batch_size
 
@@ -77,10 +90,17 @@ def update(self, consumed_samples, consistency_check):
 
 class RampupBatchsizeNumMicroBatches(NumMicroBatchesCalculator):
 
-    def __init__(self, start_batch_size, batch_size_increment, ramup_samples,
-                 global_batch_size, micro_batch_size, data_parallel_size):
+    def __init__(
+        self,
+        start_batch_size,
+        batch_size_increment,
+        ramup_samples,
+        global_batch_size,
+        micro_batch_size,
+        data_parallel_size,
+    ):
         """Batch size ramp up.
-        Over 
+        Over
           steps = (global-batch-size - start-batch-size) / batch_size_increment
         increment batch size from start-batch-size to global-batch-size using
           rampup-samples / steps
@@ -97,10 +117,11 @@ def __init__(self, start_batch_size, batch_size_increment, ramup_samples,
 
         self.micro_batch_size = micro_batch_size
         self.data_parallel_size = data_parallel_size
-        self.micro_batch_times_data_parallel_size = self.micro_batch_size * \
-                                                    self.data_parallel_size
+        self.micro_batch_times_data_parallel_size = (
+            self.micro_batch_size * self.data_parallel_size
+        )
         assert self.micro_batch_times_data_parallel_size > 0
-        
+
         assert start_batch_size > 0
         self.start_batch_size = start_batch_size
 
@@ -110,9 +131,11 @@ def __init__(self, start_batch_size, batch_size_increment, ramup_samples,
         assert diff_batch_size >= 0
         assert batch_size_increment > 0
         self.batch_size_increment = batch_size_increment
-        assert diff_batch_size % batch_size_increment == 0, 'expected ' \
-            'global batch size interval ({}) to be divisible by global batch ' \
-            'size increment ({})'.format(diff_batch_size, batch_size_increment)
+        assert diff_batch_size % batch_size_increment == 0, (
+            "expected "
+            "global batch size interval ({}) to be divisible by global batch "
+            "size increment ({})".format(diff_batch_size, batch_size_increment)
+        )
 
         num_increments = diff_batch_size // self.batch_size_increment
         self.ramup_samples = ramup_samples
@@ -122,23 +145,30 @@ def __init__(self, start_batch_size, batch_size_increment, ramup_samples,
         # Initialize number of microbatches.
         self.update(0, False)
 
-
     def update(self, consumed_samples, consistency_check):
-
         if consumed_samples > self.ramup_samples:
             self.current_global_batch_size = self.global_batch_size
         else:
             steps = int(consumed_samples / self.rampup_samples_per_increment)
-            self.current_global_batch_size = self.start_batch_size + \
-                steps * self.batch_size_increment
+            self.current_global_batch_size = (
+                self.start_batch_size + steps * self.batch_size_increment
+            )
             assert self.current_global_batch_size <= self.global_batch_size
 
         if consistency_check:
-            assert self.current_global_batch_size % \
-                self.micro_batch_times_data_parallel_size == 0, 'current global ' \
-                'batch size ({}) is not divisible by micro-batch-size ({}) times' \
-                'data parallel size ({})'.format(self.current_global_batch_size,
-                                                 self.micro_batch_size,
-                                                 self.data_parallel_size)
-        self.num_micro_batches = self.current_global_batch_size // \
-                                 self.micro_batch_times_data_parallel_size
+            assert (
+                self.current_global_batch_size
+                % self.micro_batch_times_data_parallel_size
+                == 0
+            ), (
+                "current global "
+                "batch size ({}) is not divisible by micro-batch-size ({}) times"
+                "data parallel size ({})".format(
+                    self.current_global_batch_size,
+                    self.micro_batch_size,
+                    self.data_parallel_size,
+                )
+            )
+        self.num_micro_batches = (
+            self.current_global_batch_size // self.micro_batch_times_data_parallel_size
+        )
diff --git a/megatron/model/__init__.py b/megatron/model/__init__.py
index 2306749fcb4..bc5c003e7cf 100644
--- a/megatron/model/__init__.py
+++ b/megatron/model/__init__.py
@@ -1,16 +1,33 @@
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
+# type:ignore
+# noqa: E401,E402,F401
 
+import torch
 from deepspeed.accelerator.real_accelerator import get_accelerator
-if get_accelerator().device_name() == 'cuda':
+
+accelerator = get_accelerator()
+
+if accelerator is not None and accelerator.device_name() == "xpu":
+    import intel_extension_for_pytorch  # noqa: F401  # type: ignore
+
+if accelerator is not None and accelerator.device_name() == "cuda":
     from .fused_layer_norm import MixedFusedLayerNorm as LayerNorm
-    from apex.normalization import MixedFusedRMSNorm as RMSNorm
-else:
     from .rmsnorm import RMSNorm
-    from torch.nn import LayerNorm
+    # try:
+    #     from apex.normalization import FusedLayerNorm as LayerNorm  # type:ignore
+    #     HAS_APEX = True
+    # except Exception:
+    #     HAS_APEX = False
+else:
+    if hasattr(torch.xpu, "IpexRmsNorm"):
+        from .fused_rmsnorm import RMSNorm
+    else:
+        from .rmsnorm import RMSNorm  # noqa:E401,E402,F401
+    from torch.nn import LayerNorm  # noqa:E401,E402,F401
 
-from .distributed import DistributedDataParallel
-from .bert_model import BertModel
-from .gpt_model import GPTModel, GPTModelPipe
-from .t5_model import T5Model
-from .language_model import get_language_model
-from .module import Float16Module
+from .distributed import DistributedDataParallel  # noqa:E401,E402,F401
+from .bert_model import BertModel  # noqa:E401,E402,F401
+from .gpt_model import GPTModel, GPTModelPipe  # noqa:E401,E402,F401
+from .t5_model import T5Model  # noqa:E401,E402,F401
+from .language_model import get_language_model  # noqa:E401,E402,F401
+from .module import Float16Module  # noqa:E401,E402,F401
diff --git a/megatron/model/bert_model.py b/megatron/model/bert_model.py
index 325c0f50e81..26d7fc1f56b 100644
--- a/megatron/model/bert_model.py
+++ b/megatron/model/bert_model.py
@@ -29,15 +29,15 @@ def bert_extended_attention_mask(attention_mask):
     extended_attention_mask = attention_mask_bss.unsqueeze(1)
 
     # Convert attention mask to binary:
-    extended_attention_mask = (extended_attention_mask < 0.5)
+    extended_attention_mask = extended_attention_mask < 0.5
 
     return extended_attention_mask
 
+
 def bert_position_ids(token_ids):
     # Create position ids
     seq_length = token_ids.size(1)
-    position_ids = torch.arange(seq_length, dtype=torch.long,
-                                device=token_ids.device)
+    position_ids = torch.arange(seq_length, dtype=torch.long, device=token_ids.device)
     position_ids = position_ids.unsqueeze(0).expand_as(token_ids)
 
     return position_ids
@@ -61,13 +61,20 @@ def __init__(self, mpu_vocab_size, hidden_size, config, parallel_output):
         tensor_parallel.set_tensor_model_parallel_attributes(self.bias, True, 0, 1)
         self.parallel_output = parallel_output
 
-        self.dense = get_linear_layer(hidden_size, hidden_size, config.init_method, gather_params_on_init=args.zero_stage == 3)
-        setattr(self.dense.weight, 'sequence_parallel', config.sequence_parallel)
-        setattr(self.dense.bias, 'sequence_parallel', config.sequence_parallel)
+        self.dense = get_linear_layer(
+            hidden_size,
+            hidden_size,
+            config.init_method,
+            gather_params_on_init=args.zero_stage == 3,
+        )
+        setattr(self.dense.weight, "sequence_parallel", config.sequence_parallel)
+        setattr(self.dense.bias, "sequence_parallel", config.sequence_parallel)
 
-        self.layernorm = LayerNorm(hidden_size,
-                                   eps=config.layernorm_epsilon,
-                                   sequence_parallel=config.sequence_parallel)
+        self.layernorm = LayerNorm(
+            hidden_size,
+            eps=config.layernorm_epsilon,
+            sequence_parallel=config.sequence_parallel,
+        )
         self.gelu = torch.nn.functional.gelu
         if args.openai_gelu:
             self.gelu = openai_gelu
@@ -78,21 +85,23 @@ def forward(self, hidden_states, word_embeddings_weight):
         hidden_states = self.dense(hidden_states)
         hidden_states = self.gelu(hidden_states)
         hidden_states = self.layernorm(hidden_states)
-        output = parallel_lm_logits(hidden_states,
-                                    word_embeddings_weight,
-                                    self.parallel_output,
-                                    bias=self.bias)
+        output = parallel_lm_logits(
+            hidden_states, word_embeddings_weight, self.parallel_output, bias=self.bias
+        )
         return output
 
 
-def post_language_model_processing(lm_output, pooled_output,
-                                   lm_head, binary_head,
-                                   lm_labels,
-                                   logit_weights,
-                                   fp16_lm_cross_entropy):
+def post_language_model_processing(
+    lm_output,
+    pooled_output,
+    lm_head,
+    binary_head,
+    lm_labels,
+    logit_weights,
+    fp16_lm_cross_entropy,
+):
     # Output.
-    lm_logits = lm_head(
-        lm_output, logit_weights)
+    lm_logits = lm_head(lm_output, logit_weights)
 
     binary_logits = None
     if binary_head is not None:
@@ -100,33 +109,36 @@ def post_language_model_processing(lm_output, pooled_output,
 
     if lm_labels is None:
         # [s b h] => [b s h]
-        return lm_logits.transpose(0,1).contiguous(), binary_logits
+        return lm_logits.transpose(0, 1).contiguous(), binary_logits
     else:
         # [b s] => [s b]
-        lm_labels = lm_labels.transpose(0,1).contiguous()
+        lm_labels = lm_labels.transpose(0, 1).contiguous()
         # lm_logits : [s, b, h] and lm_labels: [s, b]
         if fp16_lm_cross_entropy:
             assert lm_logits.dtype == torch.half
             lm_loss = tensor_parallel.vocab_parallel_cross_entropy(lm_logits, lm_labels)
         else:
-            lm_loss = tensor_parallel.vocab_parallel_cross_entropy(lm_logits.float(),
-                                                        lm_labels)
+            lm_loss = tensor_parallel.vocab_parallel_cross_entropy(
+                lm_logits.float(), lm_labels
+            )
         # [s, b] => [b s]
-        lm_loss = lm_loss.transpose(0,1).contiguous()
+        lm_loss = lm_loss.transpose(0, 1).contiguous()
         return lm_loss, binary_logits
 
 
 class BertModel(MegatronModule):
     """Bert Language model."""
 
-    def __init__(self,
-                 config,
-                 num_tokentypes=2,
-                 add_binary_head=True,
-                 parallel_output=True,
-                 pre_process=True,
-                 post_process=True,
-                 return_moe_loss=False):
+    def __init__(
+        self,
+        config,
+        num_tokentypes=2,
+        add_binary_head=True,
+        parallel_output=True,
+        pre_process=True,
+        post_process=True,
+        return_moe_loss=False,
+    ):
         super().__init__(config=config)
         args = get_args()
 
@@ -156,22 +168,27 @@ def __init__(self,
 
         self.initialize_word_embeddings()
         if self.post_process:
-            self.lm_head = BertLMHead(self.shared_embedding_or_output_weight().size(0), config.hidden_size,
-                                      config, parallel_output)
-            self._lm_head_key = 'lm_head'
+            self.lm_head = BertLMHead(
+                self.shared_embedding_or_output_weight().size(0),
+                config.hidden_size,
+                config,
+                parallel_output,
+            )
+            self._lm_head_key = "lm_head"
             self.binary_head = None
             if self.add_binary_head:
-                self.binary_head = get_linear_layer(config.hidden_size, 2,
-                                                    config.init_method,
-                                                    args.zero_stage == 3)
-                self._binary_head_key = 'binary_head'
+                self.binary_head = get_linear_layer(
+                    config.hidden_size, 2, config.init_method, args.zero_stage == 3
+                )
+                self._binary_head_key = "binary_head"
 
     def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
         self.language_model.set_input_tensor(input_tensor)
 
-    def forward(self, bert_model_input, attention_mask,
-                tokentype_ids=None, lm_labels=None):
+    def forward(
+        self, bert_model_input, attention_mask, tokentype_ids=None, lm_labels=None
+    ):
 
         extended_attention_mask = bert_extended_attention_mask(attention_mask)
         input_ids = bert_model_input
@@ -181,7 +198,7 @@ def forward(self, bert_model_input, attention_mask,
             input_ids,
             position_ids,
             extended_attention_mask,
-            tokentype_ids=tokentype_ids
+            tokentype_ids=tokentype_ids,
         )
 
         if self.post_process and self.add_binary_head:
@@ -198,9 +215,10 @@ def forward(self, bert_model_input, attention_mask,
                 output = torch.zeros(
                     size=(embeddings.shape[0], embeddings.shape[2]),
                     dtype=torch.float32,
-                    device=torch.cuda.current_device())
+                    device=torch.cuda.current_device(),
+                )
                 for i, (embedding, mask) in enumerate(zip(embeddings, masks)):
-                    output[i, :] = torch.mean(embedding[1: mask - 1], dim=0)
+                    output[i, :] = torch.mean(embedding[1 : mask - 1], dim=0)
 
                 return output
 
@@ -210,49 +228,60 @@ def forward(self, bert_model_input, attention_mask,
         if self.post_process:
             if not self.add_binary_head:
                 lm_output, moe_losses = lm_output
-            lm_output = post_language_model_processing(lm_output, pooled_output,
-                                                       self.lm_head, self.binary_head,
-                                                       lm_labels,
-                                                       self.shared_embedding_or_output_weight(),
-                                                       self.fp16_lm_cross_entropy)
+            lm_output = post_language_model_processing(
+                lm_output,
+                pooled_output,
+                self.lm_head,
+                self.binary_head,
+                lm_labels,
+                self.shared_embedding_or_output_weight(),
+                self.fp16_lm_cross_entropy,
+            )
             return *lm_output, moe_losses if self.return_moe_loss else lm_output
         else:
             return lm_output
 
-
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load when model is combined with other heads,
         add an extra key."""
 
         state_dict_ = {}
-        state_dict_[self._language_model_key] \
-            = self.language_model.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                 keep_vars=keep_vars)
+        state_dict_[self._language_model_key] = (
+            self.language_model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
+        )
         if self.post_process:
-            state_dict_[self._lm_head_key] \
-                = self.lm_head.state_dict_for_save_checkpoint(prefix=prefix,
-                                                              keep_vars=keep_vars)
+            state_dict_[self._lm_head_key] = (
+                self.lm_head.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+            )
         if self.post_process and self.add_binary_head:
-            state_dict_[self._binary_head_key] \
-                = self.binary_head.state_dict(prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._binary_head_key] = self.binary_head.state_dict(
+                prefix=prefix, keep_vars=keep_vars
+            )
         # Save word_embeddings.
         if self.post_process and not self.pre_process:
-            state_dict_[self._word_embeddings_for_head_key] \
-                = self.word_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._word_embeddings_for_head_key] = (
+                self.word_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+            )
         return state_dict_
 
     def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
 
         self.language_model.load_state_dict(
-            state_dict[self._language_model_key], strict=strict)
+            state_dict[self._language_model_key], strict=strict
+        )
         if self.post_process:
-            self.lm_head.load_state_dict(
-                state_dict[self._lm_head_key], strict=strict)
+            self.lm_head.load_state_dict(state_dict[self._lm_head_key], strict=strict)
         if self.post_process and self.add_binary_head:
             self.binary_head.load_state_dict(
-                state_dict[self._binary_head_key], strict=strict)
+                state_dict[self._binary_head_key], strict=strict
+            )
         # Load word_embeddings.
         if self.post_process and not self.pre_process:
             self.word_embeddings.load_state_dict(
-                state_dict[self._word_embeddings_for_head_key], strict=strict)
+                state_dict[self._word_embeddings_for_head_key], strict=strict
+            )
diff --git a/megatron/model/biencoder_model.py b/megatron/model/biencoder_model.py
index 3d0207458e5..e27df0156c8 100644
--- a/megatron/model/biencoder_model.py
+++ b/megatron/model/biencoder_model.py
@@ -15,36 +15,45 @@
 from megatron.model.utils import scaled_init_method_normal
 from .module import MegatronModule
 
-def get_model_provider(only_query_model=False, only_context_model=False,
-        biencoder_shared_query_context_model=False):
+
+def get_model_provider(
+    only_query_model=False,
+    only_context_model=False,
+    biencoder_shared_query_context_model=False,
+):
 
     def model_provider(pre_process=True, post_process=True):
         """Build the model."""
 
-        print_rank_0('building Bienoder model ...')
-        model = biencoder_model_provider(only_query_model=only_query_model,
-                only_context_model = only_context_model,
-                biencoder_shared_query_context_model = \
-                biencoder_shared_query_context_model,
-                pre_process=pre_process, post_process=post_process)
+        print_rank_0("building Bienoder model ...")
+        model = biencoder_model_provider(
+            only_query_model=only_query_model,
+            only_context_model=only_context_model,
+            biencoder_shared_query_context_model=biencoder_shared_query_context_model,
+            pre_process=pre_process,
+            post_process=post_process,
+        )
 
         return model
 
     return model_provider
 
 
-def biencoder_model_provider(only_query_model=False,
-                             only_context_model=False,
-                             biencoder_shared_query_context_model=False,
-                             pre_process=True,
-                             post_process=True):
+def biencoder_model_provider(
+    only_query_model=False,
+    only_context_model=False,
+    biencoder_shared_query_context_model=False,
+    pre_process=True,
+    post_process=True,
+):
     """Build the model."""
 
-    assert mpu.get_tensor_model_parallel_world_size() == 1 and \
-        mpu.get_pipeline_model_parallel_world_size() == 1, \
-        "Model parallel size > 1 not supported for ICT"
+    assert (
+        mpu.get_tensor_model_parallel_world_size() == 1
+        and mpu.get_pipeline_model_parallel_world_size() == 1
+    ), "Model parallel size > 1 not supported for ICT"
 
-    print_rank_0('building BiEncoderModel...')
+    print_rank_0("building BiEncoderModel...")
 
     # simpler to just keep using 2 tokentypes since
     # the LM we initialize with has 2 tokentypes
@@ -53,10 +62,10 @@ def biencoder_model_provider(only_query_model=False,
         parallel_output=False,
         only_query_model=only_query_model,
         only_context_model=only_context_model,
-        biencoder_shared_query_context_model=\
-        biencoder_shared_query_context_model,
+        biencoder_shared_query_context_model=biencoder_shared_query_context_model,
         pre_process=pre_process,
-        post_process=post_process)
+        post_process=post_process,
+    )
 
     return model
 
@@ -64,14 +73,16 @@ def biencoder_model_provider(only_query_model=False,
 class BiEncoderModel(MegatronModule):
     """Bert-based module for Biencoder model."""
 
-    def __init__(self,
-                 num_tokentypes=1,
-                 parallel_output=True,
-                 only_query_model=False,
-                 only_context_model=False,
-                 biencoder_shared_query_context_model=False,
-                 pre_process=True,
-                 post_process=True):
+    def __init__(
+        self,
+        num_tokentypes=1,
+        parallel_output=True,
+        only_query_model=False,
+        only_context_model=False,
+        biencoder_shared_query_context_model=False,
+        pre_process=True,
+        post_process=True,
+    ):
         super(BiEncoderModel, self).__init__()
         args = get_args()
 
@@ -79,10 +90,10 @@ def __init__(self,
             num_tokentypes=num_tokentypes,
             parallel_output=parallel_output,
             pre_process=pre_process,
-            post_process=post_process)
+            post_process=post_process,
+        )
 
-        self.biencoder_shared_query_context_model = \
-            biencoder_shared_query_context_model
+        self.biencoder_shared_query_context_model = biencoder_shared_query_context_model
         assert not (only_context_model and only_query_model)
         self.use_context_model = not only_query_model
         self.use_query_model = not only_context_model
@@ -90,18 +101,18 @@ def __init__(self,
 
         if self.biencoder_shared_query_context_model:
             self.model = PretrainedBertModel(**bert_kwargs)
-            self._model_key = 'shared_model'
+            self._model_key = "shared_model"
             self.query_model, self.context_model = self.model, self.model
         else:
             if self.use_query_model:
                 # this model embeds (pseudo-)queries - Embed_input in the paper
                 self.query_model = PretrainedBertModel(**bert_kwargs)
-                self._query_key = 'query_model'
+                self._query_key = "query_model"
 
             if self.use_context_model:
                 # this model embeds evidence blocks - Embed_doc in the paper
                 self.context_model = PretrainedBertModel(**bert_kwargs)
-                self._context_key = 'context_model'
+                self._context_key = "context_model"
 
     def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
@@ -110,23 +121,31 @@ def set_input_tensor(self, input_tensor):
         # self.language_model.set_input_tensor(input_tensor)
         return
 
-    def forward(self, query_tokens, query_attention_mask, query_types,
-                context_tokens, context_attention_mask, context_types):
+    def forward(
+        self,
+        query_tokens,
+        query_attention_mask,
+        query_types,
+        context_tokens,
+        context_attention_mask,
+        context_types,
+    ):
         """Run a forward pass for each of the models and
         return the respective embeddings."""
 
         if self.use_query_model:
-            query_logits = self.embed_text(self.query_model,
-                                           query_tokens,
-                                           query_attention_mask,
-                                           query_types)
+            query_logits = self.embed_text(
+                self.query_model, query_tokens, query_attention_mask, query_types
+            )
         else:
             raise ValueError("Cannot embed query without the query model.")
         if self.use_context_model:
-            context_logits = self.embed_text(self.context_model,
-                                             context_tokens,
-                                             context_attention_mask,
-                                             context_types)
+            context_logits = self.embed_text(
+                self.context_model,
+                context_tokens,
+                context_attention_mask,
+                context_types,
+            )
         else:
             raise ValueError("Cannot embed block without the block model.")
         return query_logits, context_logits
@@ -134,28 +153,30 @@ def forward(self, query_tokens, query_attention_mask, query_types,
     @staticmethod
     def embed_text(model, tokens, attention_mask, token_types):
         """Embed a batch of tokens using the model"""
-        logits = model(tokens,
-                              attention_mask,
-                              token_types)
+        logits = model(tokens, attention_mask, token_types)
         return logits
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """Save dict with state dicts of each of the models."""
         state_dict_ = {}
         if self.biencoder_shared_query_context_model:
-            state_dict_[self._model_key] = \
-                self.model.state_dict_for_save_checkpoint(
-                    prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._model_key] = self.model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
         else:
             if self.use_query_model:
-                state_dict_[self._query_key] = \
+                state_dict_[self._query_key] = (
                     self.query_model.state_dict_for_save_checkpoint(
-                        prefix=prefix, keep_vars=keep_vars)
+                        prefix=prefix, keep_vars=keep_vars
+                    )
+                )
 
             if self.use_context_model:
-                state_dict_[self._context_key] = \
+                state_dict_[self._context_key] = (
                     self.context_model.state_dict_for_save_checkpoint(
-                        prefix=prefix, keep_vars=keep_vars)
+                        prefix=prefix, keep_vars=keep_vars
+                    )
+                )
 
         return state_dict_
 
@@ -163,18 +184,19 @@ def load_state_dict(self, state_dict, strict=True):
         """Load the state dicts of each of the models"""
         if self.biencoder_shared_query_context_model:
             print_rank_0("Loading shared query-context model")
-            self.model.load_state_dict(state_dict[self._model_key], \
-                strict=strict)
+            self.model.load_state_dict(state_dict[self._model_key], strict=strict)
         else:
             if self.use_query_model:
                 print_rank_0("Loading query model")
-                self.query_model.load_state_dict( \
-                    state_dict[self._query_key], strict=strict)
+                self.query_model.load_state_dict(
+                    state_dict[self._query_key], strict=strict
+                )
 
             if self.use_context_model:
                 print_rank_0("Loading context model")
-                self.context_model.load_state_dict( \
-                    state_dict[self._context_key], strict=strict)
+                self.context_model.load_state_dict(
+                    state_dict[self._context_key], strict=strict
+                )
 
     def init_state_dict_from_bert(self):
         """Initialize the state from a pretrained BERT model
@@ -188,37 +210,42 @@ def init_state_dict_from_bert(self):
         tracker_filename = get_checkpoint_tracker_filename(args.bert_load)
         if not os.path.isfile(tracker_filename):
             raise FileNotFoundError("Could not find BERT checkpoint")
-        with open(tracker_filename, 'r') as f:
+        with open(tracker_filename, "r") as f:
             iteration = int(f.read().strip())
             assert iteration > 0
 
         checkpoint_name = get_checkpoint_name(args.bert_load, iteration, False)
         if mpu.get_data_parallel_rank() == 0:
-            print('global rank {} is loading BERT checkpoint {}'.format(
-                torch.distributed.get_rank(), checkpoint_name))
+            print(
+                "global rank {} is loading BERT checkpoint {}".format(
+                    torch.distributed.get_rank(), checkpoint_name
+                )
+            )
 
         # Load the checkpoint.
         try:
-            state_dict = torch.load(checkpoint_name, map_location='cpu')
+            state_dict = torch.load(checkpoint_name, map_location="cpu")
         except ModuleNotFoundError:
             from megatron.fp16_deprecated import loss_scaler
             # For backward compatibility.
-            print_rank_0(' > deserializing using the old code structure ...')
-            sys.modules['fp16.loss_scaler'] = sys.modules[
-                'megatron.fp16_deprecated.loss_scaler']
-            sys.modules['megatron.fp16.loss_scaler'] = sys.modules[
-                'megatron.fp16_deprecated.loss_scaler']
-            state_dict = torch.load(checkpoint_name, map_location='cpu')
-            sys.modules.pop('fp16.loss_scaler', None)
-            sys.modules.pop('megatron.fp16.loss_scaler', None)
+            print_rank_0(" > deserializing using the old code structure ...")
+            sys.modules["fp16.loss_scaler"] = sys.modules[
+                "megatron.fp16_deprecated.loss_scaler"
+            ]
+            sys.modules["megatron.fp16.loss_scaler"] = sys.modules[
+                "megatron.fp16_deprecated.loss_scaler"
+            ]
+            state_dict = torch.load(checkpoint_name, map_location="cpu")
+            sys.modules.pop("fp16.loss_scaler", None)
+            sys.modules.pop("megatron.fp16.loss_scaler", None)
         except BaseException:
-            print_rank_0('could not load the BERT checkpoint')
+            print_rank_0("could not load the BERT checkpoint")
             sys.exit()
 
-        checkpoint_version = state_dict.get('checkpoint_version', 0)
+        checkpoint_version = state_dict.get("checkpoint_version", 0)
 
         # load the LM state dict into each model
-        model_dict = state_dict['model']['language_model']
+        model_dict = state_dict["model"]["language_model"]
 
         if self.biencoder_shared_query_context_model:
             self.model.language_model.load_state_dict(model_dict)
@@ -228,17 +255,17 @@ def init_state_dict_from_bert(self):
                 self.query_model.language_model.load_state_dict(model_dict)
                 # give each model the same ict_head to begin with as well
                 if self.biencoder_projection_dim > 0:
-                    query_proj_state_dict = \
-                        self.state_dict_for_save_checkpoint()\
-                        [self._query_key]['projection_enc']
+                    query_proj_state_dict = self.state_dict_for_save_checkpoint()[
+                        self._query_key
+                    ]["projection_enc"]
                 fix_query_key_value_ordering(self.query_model, checkpoint_version)
 
             if self.use_context_model:
                 self.context_model.language_model.load_state_dict(model_dict)
-                if self.query_model is not None and \
-                    self.biencoder_projection_dim > 0:
-                    self.context_model.projection_enc.load_state_dict\
-                        (query_proj_state_dict)
+                if self.query_model is not None and self.biencoder_projection_dim > 0:
+                    self.context_model.projection_enc.load_state_dict(
+                        query_proj_state_dict
+                    )
                 fix_query_key_value_ordering(self.context_model, checkpoint_version)
 
 
@@ -246,8 +273,13 @@ class PretrainedBertModel(MegatronModule):
     """BERT-based encoder for queries or contexts used for
     learned information retrieval."""
 
-    def __init__(self, num_tokentypes=2,
-            parallel_output=True, pre_process=True, post_process=True):
+    def __init__(
+        self,
+        num_tokentypes=2,
+        parallel_output=True,
+        pre_process=True,
+        post_process=True,
+    ):
         super(PretrainedBertModel, self).__init__()
 
         args = get_args()
@@ -259,7 +291,8 @@ def __init__(self, num_tokentypes=2,
         self.post_process = post_process
         init_method = init_method_normal(args.init_method_std)
         scaled_init_method = scaled_init_method_normal(
-            args.init_method_std, args.num_layers)
+            args.init_method_std, args.num_layers
+        )
 
         self.language_model, self._language_model_key = get_language_model(
             num_tokentypes=num_tokentypes,
@@ -268,24 +301,29 @@ def __init__(self, num_tokentypes=2,
             init_method=init_method,
             scaled_init_method=scaled_init_method,
             pre_process=self.pre_process,
-            post_process=self.post_process)
+            post_process=self.post_process,
+        )
 
         if args.biencoder_projection_dim > 0:
-            self.projection_enc = get_linear_layer(args.hidden_size,
-                                                   args.biencoder_projection_dim,
-                                                   init_method,
-                                                   gather_params_on_init=args.zero_stage == 3)
-            self._projection_enc_key = 'projection_enc'
+            self.projection_enc = get_linear_layer(
+                args.hidden_size,
+                args.biencoder_projection_dim,
+                init_method,
+                gather_params_on_init=args.zero_stage == 3,
+            )
+            self._projection_enc_key = "projection_enc"
 
     def forward(self, input_ids, attention_mask, tokentype_ids=None):
         extended_attention_mask = attention_mask.unsqueeze(1)
-        #extended_attention_mask = bert_extended_attention_mask(attention_mask)
+        # extended_attention_mask = bert_extended_attention_mask(attention_mask)
         position_ids = bert_position_ids(input_ids)
 
-        lm_output = self.language_model(input_ids,
-                                        position_ids,
-                                        extended_attention_mask,
-                                        tokentype_ids=tokentype_ids)
+        lm_output = self.language_model(
+            input_ids,
+            position_ids,
+            extended_attention_mask,
+            tokentype_ids=tokentype_ids,
+        )
         # This mask will be used in average-pooling and max-pooling
         pool_mask = (input_ids == self.pad_id).unsqueeze(2)
 
@@ -301,19 +339,21 @@ def forward(self, input_ids, attention_mask, tokentype_ids=None):
 
         return pooled_output
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load when model is combined with other heads,
         add an extra key."""
 
         state_dict_ = {}
-        state_dict_[self._language_model_key] \
-            = self.language_model.state_dict_for_save_checkpoint(
-                prefix=prefix, keep_vars=keep_vars)
+        state_dict_[self._language_model_key] = (
+            self.language_model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
+        )
 
         if self.biencoder_projection_dim > 0:
-            state_dict_[self._projection_enc_key] = \
-                self.projection_enc.state_dict(prefix=prefix,
-                                               keep_vars=keep_vars)
+            state_dict_[self._projection_enc_key] = self.projection_enc.state_dict(
+                prefix=prefix, keep_vars=keep_vars
+            )
 
         return state_dict_
 
@@ -321,9 +361,11 @@ def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
         print_rank_0("loading pretrained weights")
         self.language_model.load_state_dict(
-            state_dict[self._language_model_key], strict=strict)
+            state_dict[self._language_model_key], strict=strict
+        )
 
         if self.biencoder_projection_dim > 0:
             print_rank_0("loading projection head weights")
             self.projection_enc.load_state_dict(
-                state_dict[self._projection_enc_key], strict=strict)
+                state_dict[self._projection_enc_key], strict=strict
+            )
diff --git a/megatron/model/classification.py b/megatron/model/classification.py
index f2469f9b855..32d91b00616 100644
--- a/megatron/model/classification.py
+++ b/megatron/model/classification.py
@@ -16,12 +16,9 @@
 
 class Classification(MegatronModule):
 
-    def __init__(self,
-                 config,
-                 num_classes,
-                 num_tokentypes=2,
-                 pre_process=True,
-                 post_process=True):
+    def __init__(
+        self, config, num_classes, num_tokentypes=2, pre_process=True, post_process=True
+    ):
         super().__init__(config=config, share_embeddings_and_output_weights=False)
         args = get_args()
 
@@ -35,16 +32,19 @@ def __init__(self,
             add_pooler=True,
             encoder_attn_mask_type=AttnMaskType.padding,
             pre_process=self.pre_process,
-            post_process=self.post_process)
+            post_process=self.post_process,
+        )
 
         # Multi-choice head.
         if self.post_process:
             self.classification_dropout = torch.nn.Dropout(args.hidden_dropout)
-            self.classification_head = get_linear_layer(args.hidden_size,
-                                                        self.num_classes,
-                                                        init_method,
-                                                        gather_params_on_init=args.zero_stage == 3)
-            self._classification_head_key = 'classification_head'
+            self.classification_head = get_linear_layer(
+                args.hidden_size,
+                self.num_classes,
+                init_method,
+                gather_params_on_init=args.zero_stage == 3,
+            )
+            self._classification_head_key = "classification_head"
 
     def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
@@ -60,7 +60,7 @@ def forward(self, model_input, attention_mask, tokentype_ids=None):
             input_ids,
             position_ids,
             extended_attention_mask,
-            tokentype_ids=tokentype_ids
+            tokentype_ids=tokentype_ids,
         )
 
         if self.post_process:
@@ -74,29 +74,35 @@ def forward(self, model_input, attention_mask, tokentype_ids=None):
             return classification_logits
         return lm_output
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load when model is combined with other heads,
         add an extra key."""
 
         state_dict_ = {}
-        state_dict_[self._language_model_key] \
-            = self.language_model.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                 keep_vars=keep_vars)
+        state_dict_[self._language_model_key] = (
+            self.language_model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
+        )
         if self.post_process:
-            state_dict_[self._classification_head_key] \
-                = self.classification_head.state_dict(prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._classification_head_key] = (
+                self.classification_head.state_dict(prefix=prefix, keep_vars=keep_vars)
+            )
         return state_dict_
 
     def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
 
         self.language_model.load_state_dict(
-            state_dict[self._language_model_key], strict=strict)
+            state_dict[self._language_model_key], strict=strict
+        )
         if self.post_process:
             if self._classification_head_key in state_dict:
                 self.classification_head.load_state_dict(
-                    state_dict[self._classification_head_key], strict=strict)
+                    state_dict[self._classification_head_key], strict=strict
+                )
             else:
-                print_rank_last('***WARNING*** could not find {} in the checkpoint, '
-                                'initializing to random'.format(
-                                    self._classification_head_key))
+                print_rank_last(
+                    "***WARNING*** could not find {} in the checkpoint, "
+                    "initializing to random".format(self._classification_head_key)
+                )
diff --git a/megatron/model/distributed.py b/megatron/model/distributed.py
index f6b1203c34a..eacb73034b0 100644
--- a/megatron/model/distributed.py
+++ b/megatron/model/distributed.py
@@ -12,34 +12,34 @@
 from .module import MegatronModule
 from deepspeed.accelerator import get_accelerator
 
+
 class MemoryBuffer:
 
     def __init__(self, numel, numel_padded, dtype):
         self.numel = numel
         self.numel_padded = numel_padded
         self.dtype = dtype
-        self.data = torch.zeros(self.numel_padded,
-                                dtype=self.dtype,
-                                device=get_accelerator().current_device_name(),
-                                requires_grad=False)
+        self.data = torch.zeros(
+            self.numel_padded,
+            dtype=self.dtype,
+            device=get_accelerator().current_device_name(),
+            requires_grad=False,
+        )
 
     def zero(self):
         """Reset the buffer to zero."""
         self.data.zero_()
 
-
     def get(self, shape, start_index):
         """Return a tensor with the input `shape` as a view into the
         1-D data starting at `start_index`."""
         end_index = start_index + shape.numel()
-        assert end_index <= self.numel, \
-            'requested tensor is out of the buffer range.'
+        assert end_index <= self.numel, "requested tensor is out of the buffer range."
         buffer_tensor = self.data[start_index:end_index]
         buffer_tensor = buffer_tensor.view(shape)
         return buffer_tensor
 
 
-
 class DistributedDataParallelBase(MegatronModule, ABC):
     """Abstract class for DDP."""
 
@@ -48,30 +48,25 @@ def __init__(self, module):
         # Keep a pointer to the model.
         self.module = module
 
-
     @abstractmethod
     def allreduce_gradients(self):
         pass
 
-
     def forward(self, *inputs, **kwargs):
         return self.module(*inputs, **kwargs)
 
-
-    def state_dict(self, prefix='', keep_vars=False):
+    def state_dict(self, prefix="", keep_vars=False):
         return self.module.state_dict(prefix=prefix, keep_vars=keep_vars)
 
-
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
-        return self.module.state_dict_for_save_checkpoint(prefix=prefix,
-                                                          keep_vars=keep_vars)
-
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
+        return self.module.state_dict_for_save_checkpoint(
+            prefix=prefix, keep_vars=keep_vars
+        )
 
     def load_state_dict(self, state_dict, strict=True):
         self.module.load_state_dict(state_dict, strict=strict)
 
 
-
 class DistributedDataParallel(DistributedDataParallelBase):
     """DDP with contiguous buffers options to storre and accumulate gradients.
     This class:
@@ -88,14 +83,13 @@ class DistributedDataParallel(DistributedDataParallelBase):
             gradients.
     """
 
-    def __init__(self, module,
-                 accumulate_allreduce_grads_in_fp32,
-                 use_contiguous_buffers):
+    def __init__(
+        self, module, accumulate_allreduce_grads_in_fp32, use_contiguous_buffers
+    ):
 
         super(DistributedDataParallel, self).__init__(module)
 
-        self.accumulate_allreduce_grads_in_fp32 \
-            = accumulate_allreduce_grads_in_fp32
+        self.accumulate_allreduce_grads_in_fp32 = accumulate_allreduce_grads_in_fp32
         self.use_contiguous_buffers = use_contiguous_buffers
         # If we are using fp32-accumulate-allreduce explicitly
         # this means we need main grads in a continous buffer.
@@ -115,16 +109,20 @@ def __init__(self, module,
 
             # Simple function to define buffer type.
             def _get_buffer_type(param):
-                return torch.float if \
-                    self.accumulate_allreduce_grads_in_fp32 else param.dtype
+                return (
+                    torch.float
+                    if self.accumulate_allreduce_grads_in_fp32
+                    else param.dtype
+                )
 
             # First calculate total number of elements per type.
             type_num_elements = {}
             for param in self.module.parameters():
                 if param.requires_grad:
                     dtype = _get_buffer_type(param)
-                    type_num_elements[dtype] = type_num_elements.get(dtype, 0) \
-                                               + param.data.nelement()
+                    type_num_elements[dtype] = (
+                        type_num_elements.get(dtype, 0) + param.data.nelement()
+                    )
 
             # Allocate the buffer.
             for dtype, num_elements in type_num_elements.items():
@@ -133,13 +131,14 @@ def _get_buffer_type(param):
                 # multiple of data_parallel_world_size. (This padding is done
                 # due to a constraint with the reduce_scatter op, which requires
                 # all tensors have equal size. See: optimizer.py.)
-                num_elements_padded = data_parallel_world_size * \
-                    int(math.ceil(num_elements / data_parallel_world_size))
+                num_elements_padded = data_parallel_world_size * int(
+                    math.ceil(num_elements / data_parallel_world_size)
+                )
 
                 # Allocate grad buffer.
-                self._grad_buffers[dtype] = MemoryBuffer(num_elements,
-                                                         num_elements_padded,
-                                                         dtype)
+                self._grad_buffers[dtype] = MemoryBuffer(
+                    num_elements, num_elements_padded, dtype
+                )
 
             # Assume the back prop order is reverse the params order,
             # store the start index for the gradients.
@@ -148,7 +147,8 @@ def _get_buffer_type(param):
                     dtype = _get_buffer_type(param)
                     type_num_elements[dtype] -= param.data.nelement()
                     param.main_grad = self._grad_buffers[dtype].get(
-                        param.data.shape, type_num_elements[dtype])
+                        param.data.shape, type_num_elements[dtype]
+                    )
                     if dtype not in self._grad_buffer_param_index_map:
                         self._grad_buffer_param_index_map[dtype] = {}
                     self._grad_buffer_param_index_map[dtype][param] = (
@@ -170,9 +170,9 @@ def _get_buffer_type(param):
                     grad_acc.register_hook(self._make_param_hook(param))
                     self.grad_accs.append(grad_acc)
 
-
     def _make_param_hook(self, param):
         """Create the all-reduce hook for backprop."""
+
         # Hook used for back-prop.
         def param_hook(*unused):
             # Add the gradient to the buffer.
@@ -181,23 +181,23 @@ def param_hook(*unused):
                 param.main_grad.add_(param.grad.data)
                 # Now we can deallocate grad memory.
                 param.grad = None
-        return param_hook
 
+        return param_hook
 
     def zero_grad_buffer(self):
         """Set the grad buffer data to zero. Needs to be called at the
         begining of each iteration."""
-        assert self._grad_buffers is not None, 'buffers are not initialized.'
+        assert self._grad_buffers is not None, "buffers are not initialized."
         for _, buffer_ in self._grad_buffers.items():
             buffer_.zero()
 
-
     def broadcast_params(self):
         for param in self.module.parameters():
-            torch.distributed.broadcast(param.data,
-                                        src=mpu.get_data_parallel_src_rank(),
-                                        group=mpu.get_data_parallel_group())
-
+            torch.distributed.broadcast(
+                param.data,
+                src=mpu.get_data_parallel_src_rank(),
+                group=mpu.get_data_parallel_group(),
+            )
 
     def allreduce_gradients(self):
         """Reduce gradients across data parallel ranks."""
@@ -206,7 +206,8 @@ def allreduce_gradients(self):
             for _, buffer_ in self._grad_buffers.items():
                 buffer_.data /= mpu.get_data_parallel_world_size()
                 torch.distributed.all_reduce(
-                    buffer_.data, group=mpu.get_data_parallel_group())
+                    buffer_.data, group=mpu.get_data_parallel_group()
+                )
         else:
             # Otherwise, bucketize and all-reduce
             buckets = {}
@@ -225,7 +226,9 @@ def allreduce_gradients(self):
                 coalesced = _flatten_dense_tensors(grads)
                 coalesced /= mpu.get_data_parallel_world_size()
                 torch.distributed.all_reduce(
-                    coalesced, group=mpu.get_data_parallel_group())
-                for buf, synced in zip(grads, _unflatten_dense_tensors(
-                        coalesced, grads)):
+                    coalesced, group=mpu.get_data_parallel_group()
+                )
+                for buf, synced in zip(
+                    grads, _unflatten_dense_tensors(coalesced, grads)
+                ):
                     buf.copy_(synced)
diff --git a/megatron/model/enums.py b/megatron/model/enums.py
index bc4e4aa29a0..37568a05059 100644
--- a/megatron/model/enums.py
+++ b/megatron/model/enums.py
@@ -2,20 +2,24 @@
 
 import enum
 
+
 class LayerType(enum.Enum):
     encoder = 1
     decoder = 2
     retro_encoder = 3
     retro_decoder = 4
     retro_decoder_with_retriever = 5
- 
+
+
 class AttnType(enum.Enum):
     self_attn = 1
     cross_attn = 2
 
+
 class AttnMaskType(enum.Enum):
     padding = 1
     causal = 2
 
+
 # For backward compatibility with old model checkpoints
 from megatron.core.enums import ModelType
diff --git a/megatron/model/fused_bias_gelu.py b/megatron/model/fused_bias_gelu.py
index 29222db024e..ac632705b46 100644
--- a/megatron/model/fused_bias_gelu.py
+++ b/megatron/model/fused_bias_gelu.py
@@ -11,10 +11,12 @@
 # actual gelu is:
 # x * 0.5 * (1.0 + torch.erf(x * 0.70710678))
 
+
 @torch.jit.script
 def bias_gelu(bias, y):
     x = bias + y
-    return  x * 0.5 * (1.0 + torch.tanh(0.79788456 * x * (1 + 0.044715 * x * x)))
+    return x * 0.5 * (1.0 + torch.tanh(0.79788456 * x * (1 + 0.044715 * x * x)))
+
 
 # gradient of tanh approximation of gelu
 # gradient of actual gelu is:
@@ -24,10 +26,14 @@ def bias_gelu_back(g, bias, y):
     x = bias + y
     tanh_out = torch.tanh(0.79788456 * x * (1 + 0.044715 * x * x))
     # sqrt(2/pi) * 3 * 0.044715 -> 0.1070322243
-    ff = 0.5 * x * ((1 - tanh_out * tanh_out) * (0.79788456 + 0.1070322243 * x * x)) + 0.5 * (1 + tanh_out)
-    return ff*g
+    ff = 0.5 * x * (
+        (1 - tanh_out * tanh_out) * (0.79788456 + 0.1070322243 * x * x)
+    ) + 0.5 * (1 + tanh_out)
+    return ff * g
+
 
 class GeLUFunction(torch.autograd.Function):
+
     @staticmethod
     # bias is an optional argument
     def forward(ctx, input, bias):
@@ -40,4 +46,5 @@ def backward(ctx, grad_output):
         tmp = bias_gelu_back(grad_output, bias, input)
         return tmp, tmp
 
+
 bias_gelu_impl = GeLUFunction.apply
diff --git a/megatron/model/fused_layer_norm.py b/megatron/model/fused_layer_norm.py
index 2f3b89014b9..d6b5cdbc8f9 100644
--- a/megatron/model/fused_layer_norm.py
+++ b/megatron/model/fused_layer_norm.py
@@ -1,9 +1,11 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 """This code is copied fron NVIDIA apex:
       https://github.com/NVIDIA/apex
    with some changes. """
 
+from deepspeed.accelerator.real_accelerator import get_accelerator
 import numbers
 import torch
 from torch.nn.parameter import Parameter
@@ -13,9 +15,11 @@
 import inspect
 
 from megatron.core.utils import make_viewless_tensor
+from megatron import get_args
 
 try:
     from apex.contrib.layer_norm.layer_norm import FastLayerNormFN
+
     HAVE_PERSIST_LAYER_NORM = True
 except:
     HAVE_PERSIST_LAYER_NORM = False
@@ -29,11 +33,15 @@
 
 class MixedFusedLayerNorm(torch.nn.Module):
 
-  def __init__(self, normalized_shape, eps=1e-5,
-               no_persist_layer_norm=True,
-               sequence_parallel=False,
-               apply_layernorm_1p=False,
-               mem_efficient_ln=True):
+    def __init__(
+        self,
+        normalized_shape,
+        eps=1e-5,
+        no_persist_layer_norm=True,
+        sequence_parallel=False,
+        apply_layernorm_1p=False,
+        mem_efficient_ln=True,
+    ):
         super(MixedFusedLayerNorm, self).__init__()
 
         self.apply_layernorm_1p = apply_layernorm_1p
@@ -45,62 +53,113 @@ def __init__(self, normalized_shape, eps=1e-5,
         # List of hiddens sizes supported in the persistent layer norm kernel
         # If the hidden size is not supported, fall back to the non-persistent
         # kernel.
-        persist_ln_hidden_sizes = [1024, 1536, 2048, 2304, 3072, 3840, 4096,
-            5120, 6144, 8192, 10240, 12288, 12800, 15360, 16384, 18432, 20480,
-            24576, 25600, 30720, 32768, 40960, 49152, 65536]
-        if normalized_shape not in persist_ln_hidden_sizes or \
-                not HAVE_PERSIST_LAYER_NORM:
+        persist_ln_hidden_sizes = [
+            1024,
+            1536,
+            2048,
+            2304,
+            3072,
+            3840,
+            4096,
+            5120,
+            6144,
+            8192,
+            10240,
+            12288,
+            12800,
+            15360,
+            16384,
+            18432,
+            20480,
+            24576,
+            25600,
+            30720,
+            32768,
+            40960,
+            49152,
+            65536,
+        ]
+        if (
+            normalized_shape not in persist_ln_hidden_sizes
+            or not HAVE_PERSIST_LAYER_NORM
+        ):
             no_persist_layer_norm = True
 
         if isinstance(normalized_shape, numbers.Integral):
             normalized_shape = (normalized_shape,)
         self.normalized_shape = torch.Size(normalized_shape)
         self.eps = eps
-        self.weight = Parameter(torch.Tensor(*normalized_shape))
-        self.bias = Parameter(torch.Tensor(*normalized_shape))
+        init_device = None
+        if get_accelerator().device_name() == "hpu":
+            init_device = get_accelerator().current_device_name()
+        self.weight = Parameter(
+            torch.empty(
+                *normalized_shape, device=init_device, dtype=get_args().params_dtype
+            )
+        )
+        self.bias = Parameter(
+            torch.empty(
+                *normalized_shape, device=init_device, dtype=get_args().params_dtype
+            )
+        )
         self.reset_parameters()
         self.no_persist_layer_norm = no_persist_layer_norm
         self.sequence_parallel = sequence_parallel
 
         # set sequence parallelism flag on weight and bias parameters
-        setattr(self.weight, 'sequence_parallel', self.sequence_parallel)
-        setattr(self.bias, 'sequence_parallel', self.sequence_parallel)
-
-
-  def reset_parameters(self):
+        setattr(self.weight, "sequence_parallel", self.sequence_parallel)
+        setattr(self.bias, "sequence_parallel", self.sequence_parallel)
 
-    if self.apply_layernorm_1p:
-        init.zeros_(self.weight)
-        init.zeros_(self.bias)
-    else:
-        init.ones_(self.weight)
-        init.zeros_(self.bias)
+    def reset_parameters(self):
 
-  def forward(self, input):
+        if self.apply_layernorm_1p:
+            init.zeros_(self.weight)
+            init.zeros_(self.bias)
+        else:
+            init.ones_(self.weight)
+            init.zeros_(self.bias)
+
+    def forward(self, input):
+
+        weight = self.weight + 1 if self.apply_layernorm_1p else self.weight
+        # CPU path is here for unittest sake.
+        if not input.is_cuda:
+            print(
+                "WARNING! The input of FusedLayerNorm should be on the GPU."
+                "This warning should only be triggered in the FusedLayerNorm unit tests."
+            )
+            return F.layer_norm(
+                input, self.normalized_shape, weight, self.bias, self.eps
+            )
+
+        if self.no_persist_layer_norm:
+            # Apex does not have versions yet (https://github.com/NVIDIA/apex/pull/1648), so we need to inspect
+            # the function manually on whether the extra arg introduced in https://github.com/NVIDIA/apex/pull/1715 exists yet
+            if (
+                "memory_efficient"
+                in inspect.getfullargspec(FusedLayerNormAffineFunction.forward).args
+            ):
+                return FusedLayerNormAffineFunction.apply(
+                    input,
+                    weight,
+                    self.bias,
+                    self.normalized_shape,
+                    self.eps,
+                    self.mem_efficient_ln,
+                )
+            else:
+                return FusedLayerNormAffineFunction.apply(
+                    input, weight, self.bias, self.normalized_shape, self.eps
+                )
+        else:
+            output = FastLayerNormFN.apply(input, weight, self.bias, self.eps)
 
-    weight = self.weight + 1 if self.apply_layernorm_1p else self.weight
-    # CPU path is here for unittest sake.
-    if not input.is_cuda:
-        print("WARNING! The input of FusedLayerNorm should be on the GPU."
-              "This warning should only be triggered in the FusedLayerNorm unit tests.")
-        return F.layer_norm(input, self.normalized_shape, weight, self.bias, self.eps)
+            # Apex's fast layer norm function outputs a 'view' tensor (i.e., has
+            # a populated '_base' field). This will result in schedule.py's
+            # deallocate_output_tensor() throwing an error, so a viewless tensor is
+            # created to prevent this.
+            output = make_viewless_tensor(
+                inp=output, requires_grad=input.requires_grad, keep_graph=True
+            )
 
-    if self.no_persist_layer_norm:
-        # Apex does not have versions yet (https://github.com/NVIDIA/apex/pull/1648), so we need to inspect 
-        # the function manually on whether the extra arg introduced in https://github.com/NVIDIA/apex/pull/1715 exists yet
-        if 'memory_efficient' in inspect.getfullargspec(FusedLayerNormAffineFunction.forward).args:
-            return FusedLayerNormAffineFunction.apply(input, weight, self.bias, self.normalized_shape, self.eps, self.mem_efficient_ln)
-        else:
-            return FusedLayerNormAffineFunction.apply(input, weight, self.bias, self.normalized_shape, self.eps)
-    else:
-        output = FastLayerNormFN.apply(input, weight, self.bias, self.eps)
-
-        # Apex's fast layer norm function outputs a 'view' tensor (i.e., has
-        # a populated '_base' field). This will result in schedule.py's
-        # deallocate_output_tensor() throwing an error, so a viewless tensor is
-        # created to prevent this.
-        output = make_viewless_tensor(inp = output,
-                                      requires_grad = input.requires_grad,
-                                      keep_graph = True)
-
-        return output
+            return output
diff --git a/megatron/model/fused_rmsnorm.py b/megatron/model/fused_rmsnorm.py
new file mode 100644
index 00000000000..f0c891d4ef6
--- /dev/null
+++ b/megatron/model/fused_rmsnorm.py
@@ -0,0 +1,21 @@
+from megatron import get_args
+
+import torch
+from torch.nn.parameter import Parameter
+from torch.nn import init
+import intel_extension_for_pytorch as ipex  # noqa
+
+
+# Taken from facebookresearch/llama
+class RMSNorm(torch.nn.Module):
+
+    def __init__(self, dim: int, eps: float = 1e-6, sequence_parallel: bool = False):
+        super().__init__()
+        self.eps = eps
+        self.weight = Parameter(torch.ones(dim, dtype=get_args().params_dtype))
+        self.sequence_parallel = sequence_parallel
+        setattr(self.weight, "sequence_parallel", self.sequence_parallel)
+
+    def forward(self, x):
+        output = torch.xpu.IpexRmsNorm(x, self.weight.shape, self.weight, self.eps)
+        return output
diff --git a/megatron/model/fused_softmax.py b/megatron/model/fused_softmax.py
index 2fe61d40738..e81dc9bffaa 100644
--- a/megatron/model/fused_softmax.py
+++ b/megatron/model/fused_softmax.py
@@ -81,9 +81,7 @@ def forward(ctx, inputs, scale):
 
         scale_t = torch.tensor([scale])
 
-        softmax_results = scaled_softmax_cuda.forward(
-            inputs, scale_t[0]
-        )
+        softmax_results = scaled_softmax_cuda.forward(inputs, scale_t[0])
         ctx.save_for_backward(softmax_results, scale_t)
         return softmax_results
 
@@ -157,7 +155,7 @@ def is_kernel_available(self, mask, b, np, sq, sk):
             and self.input_in_float16  # input must be fp16
             and 16 < sk <= 4096  # sk must be 16 ~ 2048
             and sq % 4 == 0  # sq must be divisor of 4
-            and sk % 4 == 0  # sk must be divisor of 4 
+            and sk % 4 == 0  # sk must be divisor of 4
             and attn_batches % 4 == 0  # np * b must be divisor of 4
         ):
             if 0 <= sk <= 4096:
diff --git a/megatron/model/gpt_model.py b/megatron/model/gpt_model.py
index 0527765f16e..a32b0475089 100644
--- a/megatron/model/gpt_model.py
+++ b/megatron/model/gpt_model.py
@@ -1,8 +1,10 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
 
 """GPT-2 model."""
 
 import torch
+from collections import OrderedDict
 
 from megatron import get_args
 from megatron.core import mpu, tensor_parallel, sequence_parallel
@@ -16,11 +18,11 @@
 
 from megatron.model import LayerNorm, RMSNorm
 from .language_model import EmbeddingPipe
-from .transformer import ParallelTransformerLayerPipe, LMHeadPipe
+from .transformer import ParallelTransformerLayerPipe, LMHeadPipe, get_num_experts_per_layer
 from deepspeed.pipe import PipelineModule, LayerSpec, TiedLayerSpec
 
 
-try:         
+try:
     from deepspeed.checkpoint import (
         VOCABULARY_PARAMETER_PATTERNS,
         PIPELINE_REPLICATED_PARAMETER_PATTERNS,
@@ -28,29 +30,30 @@
         PARAMETER_WITH_ROW_PARALLELISM_PATTERNS,
         PARAMETER_WITH_2_SUB_PARAMS_CAT_DIM_0,
     )
-    DS_UNIVERSAL_CHECKPOINT_INFO = True 
+
+    DS_UNIVERSAL_CHECKPOINT_INFO = True
 except ImportError:
-    DS_UNIVERSAL_CHECKPOINT_INFO = False  
+    DS_UNIVERSAL_CHECKPOINT_INFO = False
 
 
-def post_language_model_processing(lm_output, labels, logit_weights,
-                                   parallel_output,
-                                   fp16_lm_cross_entropy):
+def post_language_model_processing(
+    lm_output, labels, logit_weights, parallel_output, fp16_lm_cross_entropy
+):
 
     # Output. Format [s b h]
-    output = parallel_lm_logits(
-        lm_output,
-        logit_weights,
-        parallel_output)
+    output = parallel_lm_logits(lm_output, logit_weights, parallel_output)
 
     if labels is None:
         # [s b h] => [b s h]
-        return output.transpose(0,1).contiguous()
+        return output.transpose(0, 1).contiguous()
     else:
         # [b s] => [s b]
-        labels = labels.transpose(0,1).contiguous()
-        cross_entropy = sequence_parallel.vocab_sequence_parallel_cross_entropy if mpu.get_sequence_parallel_world_size() > 1 \
+        labels = labels.transpose(0, 1).contiguous()
+        cross_entropy = (
+            sequence_parallel.vocab_sequence_parallel_cross_entropy
+            if mpu.get_sequence_parallel_world_size() > 1
             else tensor_parallel.vocab_parallel_cross_entropy
+        )
         if fp16_lm_cross_entropy:
             assert output.dtype == torch.half
             loss = cross_entropy(output, labels)
@@ -58,11 +61,12 @@ def post_language_model_processing(lm_output, labels, logit_weights,
             loss = cross_entropy(output.float(), labels)
 
         # [s b] => [b, s]
-        loss = loss.transpose(0,1).contiguous()
+        loss = loss.transpose(0, 1).contiguous()
         return loss
 
 
 class UniversalCheckpointInfo:
+
     def __init__(self, using_model_pipe: bool):
         self.using_model_pipe = using_model_pipe
         self.args = get_args()
@@ -79,35 +83,36 @@ def _build_universal_checkpoint_info(self):
 
             if self.using_model_pipe:
                 # Replicated (shared) parameters on the pipeline dimension
-                info[PIPELINE_REPLICATED_PARAMETER_PATTERNS] = self._get_pp_replicated_param_patterns()
+                info[PIPELINE_REPLICATED_PARAMETER_PATTERNS] = (
+                    self._get_pp_replicated_param_patterns()
+                )
 
             if self.args.tensor_model_parallel_size > 1:
                 # Parameter slices that should be averaged not concatenated.
-                info[TP_REPLICATED_PARAMETER_PATTERNS] = self._get_tp_replicated_param_patterns()
+                info[TP_REPLICATED_PARAMETER_PATTERNS] = (
+                    self._get_tp_replicated_param_patterns()
+                )
 
                 # Parameter that are sliced on the row dimension
-                info[PARAMETER_WITH_ROW_PARALLELISM_PATTERNS] = self._get_row_parallel_param_patterns()
+                info[PARAMETER_WITH_ROW_PARALLELISM_PATTERNS] = (
+                    self._get_row_parallel_param_patterns()
+                )
 
             # SWIGLU parameters are first sliced on dim=0 to tp slices
             # Then, each tp slice is chunked into 2 to create the linear layers L1, L2 used for silu(L1(x)) * L2(x))
-            info[PARAMETER_WITH_2_SUB_PARAMS_CAT_DIM_0] = self._get_swiglu_col_parallel_param_patterns()
+            info[PARAMETER_WITH_2_SUB_PARAMS_CAT_DIM_0] = (
+                self._get_swiglu_col_parallel_param_patterns()
+            )
         return info
 
     def _get_vocab_param_patterns(self):
         if self.using_model_pipe:
             if self.args.untie_embeddings_and_output_weights:
-                patterns = [
-                    r"\d+.word_embeddings.weight",
-                    r"\d+.lm_head.weight"
-                ]
+                patterns = [r"\d+.word_embeddings.weight", r"\d+.lm_head.weight"]
             else:
-                patterns = [
-                    r"tied_modules.embed.word_embeddings.weight"
-                ]
+                patterns = [r"tied_modules.embed.word_embeddings.weight"]
         else:
-            patterns = [
-                "language_model.embedding.word_embeddings.weight"
-            ]
+            patterns = ["language_model.embedding.word_embeddings.weight"]
             if self.args.untie_embeddings_and_output_weights:
                 patterns.append("language_model.output_layer.weight")
         return patterns
@@ -130,30 +135,43 @@ def _get_tp_replicated_param_patterns(self):
             layers_prefix + r"\d+.post_attention_layernorm.weight",
         ]
         # Add final normalization layer
-        final_norm_w_pattern = r"\d+.weight" if self.using_model_pipe \
+        final_norm_w_pattern = (
+            r"\d+.weight"
+            if self.using_model_pipe
             else "language_model.encoder.final_layernorm.weight"
+        )
         patterns.append(final_norm_w_pattern)
-        if self.args.normalization == 'layernorm':
-            final_norm_b_pattern = r"\d+.bias" if self.using_model_pipe \
+        if self.args.normalization == "layernorm":
+            final_norm_b_pattern = (
+                r"\d+.bias"
+                if self.using_model_pipe
                 else "language_model.encoder.final_layernorm.bias"
+            )
             patterns.append(final_norm_b_pattern)
         # add Positional Embedding
         if self.args.add_position_embedding:
-            pos_emb_pattern = "tied_modules.embed.position_embeddings.weight" if self.using_model_pipe \
+            pos_emb_pattern = (
+                "tied_modules.embed.position_embeddings.weight"
+                if self.using_model_pipe
                 else "language_model.embedding.position_embeddings.weight"
+            )
             patterns.append(pos_emb_pattern)
         # add Linear bias
         if self.args.add_bias_linear:
-            patterns.extend([
-                layers_prefix + r"\d+.self_attention.dense.bias",
-                layers_prefix + r"\d+.mlp.dense_4h_to_h.bias",
-            ])
+            patterns.extend(
+                [
+                    layers_prefix + r"\d+.self_attention.dense.bias",
+                    layers_prefix + r"\d+.mlp.dense_4h_to_h.bias",
+                ]
+            )
         # add LN bias
-        if self.args.normalization == 'layernorm':
-            patterns.extend([
-                layers_prefix + r"\d+.input_layernorm.bias",
-                layers_prefix + r"\d+.post_attention_layernorm.bias",
-            ])
+        if self.args.normalization == "layernorm":
+            patterns.extend(
+                [
+                    layers_prefix + r"\d+.input_layernorm.bias",
+                    layers_prefix + r"\d+.post_attention_layernorm.bias",
+                ]
+            )
         return patterns
 
     def _get_row_parallel_param_patterns(self):
@@ -178,22 +196,29 @@ def _get_swiglu_col_parallel_param_patterns(self):
 class GPTModel(MegatronModule):
     """GPT-2 Language model."""
 
-    def __init__(self,
-                 config,
-                 num_tokentypes=0,
-                 parallel_output=True,
-                 pre_process=True,
-                 post_process=True,
-                 return_moe_loss=True):
+    def __init__(
+        self,
+        config,
+        num_tokentypes=0,
+        parallel_output=True,
+        pre_process=True,
+        post_process=True,
+        return_moe_loss=True,
+    ):
         args = get_args()
-        super().__init__(config=config, share_embeddings_and_output_weights=not args.untie_embeddings_and_output_weights)
+        super().__init__(
+            config=config,
+            share_embeddings_and_output_weights=not args.untie_embeddings_and_output_weights,
+        )
 
         self.parallel_output = parallel_output
         self.pre_process = pre_process
         self.post_process = post_process
         self.fp16_lm_cross_entropy = args.fp16_lm_cross_entropy
         self.return_moe_loss = return_moe_loss
-        self.untie_embeddings_and_output_weights = args.untie_embeddings_and_output_weights
+        self.untie_embeddings_and_output_weights = (
+            args.untie_embeddings_and_output_weights
+        )
 
         self.language_model, self._language_model_key = get_language_model(
             config=config,
@@ -202,7 +227,8 @@ def __init__(self,
             encoder_attn_mask_type=AttnMaskType.causal,
             pre_process=self.pre_process,
             post_process=self.post_process,
-            num_experts=args.num_experts)
+            num_experts=args.num_experts,
+        )
 
         if not args.untie_embeddings_and_output_weights:
             self.initialize_word_embeddings()
@@ -211,12 +237,19 @@ def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
         self.language_model.set_input_tensor(input_tensor)
 
-    def forward(self, input_ids, position_ids, attention_mask,
-                retriever_input_ids=None,
-                retriever_position_ids=None,
-                retriever_attn_mask=None,
-                labels=None, tokentype_ids=None, inference_params=None,
-                curriculum_seqlen=None):
+    def forward(
+        self,
+        input_ids,
+        position_ids,
+        attention_mask,
+        retriever_input_ids=None,
+        retriever_position_ids=None,
+        retriever_attn_mask=None,
+        labels=None,
+        tokentype_ids=None,
+        inference_params=None,
+        curriculum_seqlen=None,
+    ):
         args = get_args()
         if curriculum_seqlen is not None:
             args.curriculum_seqlen = curriculum_seqlen
@@ -229,7 +262,9 @@ def forward(self, input_ids, position_ids, attention_mask,
                     labels = labels[:, :curriculum_seqlen].contiguous()
 
                 # attention_mask has size [1, 1, seqlen, seqlen]
-                attention_mask = attention_mask[:, :, :curriculum_seqlen, :curriculum_seqlen].contiguous()
+                attention_mask = attention_mask[
+                    :, :, :curriculum_seqlen, :curriculum_seqlen
+                ].contiguous()
         else:
             if args.curriculum_learning_legacy:
                 # If got a None input, need to reset curriculum_seqlen on user side
@@ -242,22 +277,28 @@ def forward(self, input_ids, position_ids, attention_mask,
             retriever_input_ids=retriever_input_ids,
             retriever_position_ids=retriever_position_ids,
             retriever_attn_mask=retriever_attn_mask,
-            inference_params=inference_params)
+            inference_params=inference_params,
+        )
 
         if self.post_process:
             lm_output = post_language_model_processing(
-                lm_output, labels,
-                self.language_model.output_layer.weight if self.untie_embeddings_and_output_weights else self.shared_embedding_or_output_weight(),
+                lm_output,
+                labels,
+                self.language_model.output_layer.weight
+                if self.untie_embeddings_and_output_weights
+                else self.shared_embedding_or_output_weight(),
                 self.parallel_output,
-                self.fp16_lm_cross_entropy)
+                self.fp16_lm_cross_entropy,
+            )
 
         return lm_output, moe_losses if self.return_moe_loss else lm_output
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
 
         state_dict_ = {}
         language_model_state_dict = self.language_model.state_dict_for_save_checkpoint(
-                prefix=prefix, keep_vars=keep_vars)
+            prefix=prefix, keep_vars=keep_vars
+        )
         # MoE states need to be handled separately by DeepSpeed engine, thus
         # moving them to the top level dictionary
         if "moe_state_dict" in language_model_state_dict:
@@ -266,23 +307,32 @@ def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
             del language_model_state_dict["moe_state_dict"]
         state_dict_[self._language_model_key] = language_model_state_dict
         # Save word_embeddings.
-        if self.post_process and not self.pre_process and not self.untie_embeddings_and_output_weights:
-            state_dict_[self._word_embeddings_for_head_key] \
-                = self.word_embeddings.state_dict(prefix=prefix,
-                                                  keep_vars=keep_vars)
+        if (
+            self.post_process
+            and not self.pre_process
+            and not self.untie_embeddings_and_output_weights
+        ):
+            state_dict_[self._word_embeddings_for_head_key] = (
+                self.word_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+            )
         return state_dict_
 
     def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
 
         # Load word_embeddings.
-        if self.post_process and not self.pre_process and not self.untie_embeddings_and_output_weights:
+        if (
+            self.post_process
+            and not self.pre_process
+            and not self.untie_embeddings_and_output_weights
+        ):
             self.word_embeddings.load_state_dict(
-                state_dict[self._word_embeddings_for_head_key], strict=strict)
+                state_dict[self._word_embeddings_for_head_key], strict=strict
+            )
         # Gather MoE states and move under language model
         moe_state_dict = {}
         for key in list(state_dict.keys()):
-            if 'expert' in key and 'moe.gate.wg.weight' not in key:
+            if "expert" in key and "moe.gate.wg.weight" not in key:
                 moe_state_dict[key] = state_dict.pop(key)
         if self._language_model_key in state_dict:
             state_dict = state_dict[self._language_model_key]
@@ -301,7 +351,9 @@ def CrossEntropy(output, labels):
 
     # [b s] => [s b]
     labels = labels.transpose(0, 1).contiguous()
-    losses = tensor_parallel.vocab_parallel_cross_entropy(output.contiguous().float(), labels)
+    losses = tensor_parallel.vocab_parallel_cross_entropy(
+        output.contiguous().float(), labels
+    )
     # [s b] => [b, s]
     losses = losses.transpose(0, 1).contiguous()
     loss_mask = loss_mask.view(-1)
@@ -309,13 +361,10 @@ def CrossEntropy(output, labels):
     return loss
 
 
-class GPTModelPipe(PipelineModule,MegatronModule):
+class GPTModelPipe(PipelineModule, MegatronModule):
     """GPT-2 Language model."""
 
-    def __init__(self,
-                 config,
-                 num_tokentypes=0,
-                 parallel_output=True):
+    def __init__(self, config, num_tokentypes=0, parallel_output=True):
         args = get_args()
         self.parallel_output = parallel_output
 
@@ -323,8 +372,9 @@ def __init__(self,
             config.init_method = init_method_normal(config.init_method_std)
 
         if config.output_layer_init_method is None:
-            config.output_layer_init_method = scaled_init_method_normal(config.init_method_std,
-                                                                        config.num_layers)
+            config.output_layer_init_method = scaled_init_method_normal(
+                config.init_method_std, config.num_layers
+            )
 
         self.specs = []
 
@@ -340,88 +390,180 @@ def _to_float16(inputs):
 
         # Embedding layer
         if args.untie_embeddings_and_output_weights:
-            self.specs.append(LayerSpec(EmbeddingPipe,
-                                        args.hidden_size,
-                                        args.padded_vocab_size,
-                                        args.max_position_embeddings,
-                                        args.hidden_dropout,
-                                        config,
-                                        num_tokentypes=num_tokentypes,
-                                        embedding_weights_in_fp32=args.embedding_weights_in_fp32,))
+            self.specs.append(
+                LayerSpec(
+                    EmbeddingPipe,
+                    args.hidden_size,
+                    args.padded_vocab_size,
+                    args.max_position_embeddings,
+                    args.hidden_dropout,
+                    config,
+                    num_tokentypes=num_tokentypes,
+                    embedding_weights_in_fp32=args.embedding_weights_in_fp32,
+                )
+            )
         else:
-            self.specs.append(TiedLayerSpec('embed',
-                                            EmbeddingPipe,
-                                            args.hidden_size,
-                                            args.padded_vocab_size,
-                                            args.max_position_embeddings,
-                                            args.hidden_dropout,
-                                            config,
-                                            num_tokentypes=num_tokentypes,
-                                            embedding_weights_in_fp32=args.embedding_weights_in_fp32,
-                                            tied_weight_attr='word_embeddings_weight'))
+            self.specs.append(
+                TiedLayerSpec(
+                    "embed",
+                    EmbeddingPipe,
+                    args.hidden_size,
+                    args.padded_vocab_size,
+                    args.max_position_embeddings,
+                    args.hidden_dropout,
+                    config,
+                    num_tokentypes=num_tokentypes,
+                    embedding_weights_in_fp32=args.embedding_weights_in_fp32,
+                    tied_weight_attr="word_embeddings_weight",
+                )
+            )
+
+        experts_per_layer = get_num_experts_per_layer(
+            args.num_experts, args.num_layers, args.expert_interval
+        )
+        self.is_moe_model = any(n_experts > 1 for n_experts in experts_per_layer)
+
+        # Currently PipelineEngine does not support more than 1 pipe and/or grad partitioned tensors that
+        # require grads.
+        # When using MoE, we have 2 tensors that are passed along pipeline stages and both require grads.
+        # Therefore, verify that both pipe_partitioned / grad_partitioned are not enabled
+        if (
+            self.is_moe_model
+            and args.pipeline_model_parallel_size > 1
+            and args.tensor_model_parallel_size > 1
+        ):
+            pipe_partitioned_enabled = args.deepspeed_config_dict.get(
+                "pipeline", {}
+            ).get("pipe_partitioned", False)
+            grad_partitioned_enabled = args.deepspeed_config_dict.get(
+                "pipeline", {}
+            ).get("grad_partitioned", False)
+            assert (
+                not pipe_partitioned_enabled and not grad_partitioned_enabled
+            ), "Pipe and/or Grad partitioning are not supported for MoE model"
 
         for layer_idx in range(args.num_layers):
             self.specs.append(
-                LayerSpec(ParallelTransformerLayerPipe,
+                LayerSpec(
+                    ParallelTransformerLayerPipe,
                     config,
                     layer_number=layer_idx,
-                    self_attn_mask_type=AttnMaskType.causal))
+                    self_attn_mask_type=AttnMaskType.causal,
+                    num_experts=experts_per_layer[layer_idx],
+                    input_aggregated_moe_loss=(self.is_moe_model and layer_idx > 0),
+                    return_aggregated_moe_loss=self.is_moe_model,
+                )
+            )
+
+        # if model has experts, add a layer to get and cache the aggregated moe loss from the
+        # last transformer layer
+        if self.is_moe_model:
+            self.specs.append(self._calculate_moe_loss)
 
         # Final layernorm after transformer layers
-        if args.normalization == 'layernorm':
-            self.specs.append(LayerSpec(LayerNorm,
-                          args.hidden_size,
-                          eps=args.layernorm_epsilon))
+        if args.normalization == "layernorm":
+            self.specs.append(
+                LayerSpec(
+                    LayerNorm,
+                    args.hidden_size,
+                    eps=args.layernorm_epsilon,
+                    sequence_parallel=args.sequence_parallel,
+                )
+            )
         else:
-            self.specs.append(LayerSpec(RMSNorm, args.hidden_size, args.layernorm_epsilon))
+            self.specs.append(
+                LayerSpec(
+                    RMSNorm,
+                    args.hidden_size,
+                    args.layernorm_epsilon,
+                    sequence_parallel=args.sequence_parallel,
+                )
+            )
 
         def _logits_helper(embedding, lm_output):
-            """A wrapper to massage inputs/outputs from pipeline. """
+            """A wrapper to massage inputs/outputs from pipeline."""
             return parallel_lm_logits(
-                lm_output,
-                embedding.word_embeddings_weight,
-                self.parallel_output)
+                lm_output, embedding.word_embeddings_weight, self.parallel_output
+            )
+
         if args.untie_embeddings_and_output_weights:
             self.specs.append(
                 LayerSpec(LMHeadPipe, args.hidden_size, args.padded_vocab_size, config)
             )
         else:
             self.specs.append(
-                TiedLayerSpec('embed',
-                              EmbeddingPipe,
-                              args.hidden_size,
-                              args.padded_vocab_size,
-                              args.max_position_embeddings,
-                              args.hidden_dropout,
-                              config,
-                              num_tokentypes=num_tokentypes,
-                              embedding_weights_in_fp32=args.embedding_weights_in_fp32,
-                              forward_fn=_logits_helper,
-                              tied_weight_attr='word_embeddings_weight')
+                TiedLayerSpec(
+                    "embed",
+                    EmbeddingPipe,
+                    args.hidden_size,
+                    args.padded_vocab_size,
+                    args.max_position_embeddings,
+                    args.hidden_dropout,
+                    config,
+                    num_tokentypes=num_tokentypes,
+                    embedding_weights_in_fp32=args.embedding_weights_in_fp32,
+                    forward_fn=_logits_helper,
+                    tied_weight_attr="word_embeddings_weight",
+                )
             )
 
         # Convert to fp32 if needed
         if args.fp16 or args.bf16:
             self.specs.append(float16_to_fp32)
 
+        # Cache losses
+        self.moe_loss = None
+        self.last_lm_loss = None  # detached, for display only
+        self.last_moe_loss = None  # detached, for display only
+
         if args.checkpoint_activations:
             interval = args.checkpoint_num_layers
-        elif args.recompute_granularity == "full" and args.recompute_method == 'uniform':
+        elif (
+            args.recompute_granularity == "full" and args.recompute_method == "uniform"
+        ):
             # deepspeed's pipeline doesn't support the block recompute method
             interval = args.recompute_num_layers
         else:
             interval = 0
 
         from deepspeed.runtime.pipe.topology import PipeModelDataParallelTopology
-        topo = PipeModelDataParallelTopology(num_pp=mpu.get_pipeline_model_parallel_world_size(),
-                                             num_mp=mpu.get_tensor_model_parallel_world_size(),
-                                             num_dp=mpu.get_data_parallel_world_size())
 
-        super().__init__(layers=self.specs,
-                         loss_fn=CrossEntropy,
-                         topology=topo,
-                         activation_checkpoint_interval=interval,
-                         partition_method='type:transformer')
+        topo = PipeModelDataParallelTopology(
+            num_pp=mpu.get_pipeline_model_parallel_world_size(),
+            num_mp=mpu.get_tensor_model_parallel_world_size(),
+            num_dp=mpu.get_data_parallel_world_size(),
+        )
+
+        super().__init__(
+            layers=self.specs,
+            loss_fn=self.loss_func,
+            topology=topo,
+            activation_checkpoint_interval=interval,
+            partition_method="type:transformer",
+        )
+
+    def _calculate_moe_loss(self, inputs):
+        """Calculate MoE auxiliary loss"""
+        assert isinstance(inputs, tuple) and len(inputs) == 2
+        hidden, aggregated_moe_loss = inputs[0], inputs[1]
+        args = get_args()
+        self.moe_loss = aggregated_moe_loss * args.moe_loss_coeff
+        return hidden
+
+    def loss_func(self, output, labels):
+        loss = CrossEntropy(output, labels)
+        self.last_lm_loss = loss.clone().detach()
+        if self.moe_loss is not None:
+            loss += self.moe_loss
+            self.last_moe_loss = self.moe_loss.clone().detach()
+        return loss
 
     def universal_checkpoint_info(self):
         return UniversalCheckpointInfo(using_model_pipe=True).get()
+
+    def get_additional_losses(self):
+        if not self.is_moe_model:
+            return None
+        return OrderedDict(
+            {"lm loss": self.last_lm_loss, "moe loss": self.last_moe_loss}
+        )
diff --git a/megatron/model/language_model.py b/megatron/model/language_model.py
index ec2ae1877ad..901bb4c661c 100644
--- a/megatron/model/language_model.py
+++ b/megatron/model/language_model.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
 
 """Transformer based language model."""
@@ -17,17 +18,18 @@
 from .utils import init_method_normal, scaled_init_method_normal, gather_and_init
 
 
-def parallel_lm_logits(input_, word_embeddings_weight, parallel_output,
-                       bias=None):
+def parallel_lm_logits(input_, word_embeddings_weight, parallel_output, bias=None):
     """LM logits using word embedding weights."""
     args = get_args()
     # Parallel logits.
-    if args.async_tensor_model_parallel_allreduce or\
-            args.sequence_parallel:
+    if args.async_tensor_model_parallel_allreduce or args.sequence_parallel:
         input_parallel = input_
         model_parallel = mpu.get_tensor_model_parallel_world_size() > 1
-        async_grad_allreduce = args.async_tensor_model_parallel_allreduce and \
-            model_parallel and not args.sequence_parallel
+        async_grad_allreduce = (
+            args.async_tensor_model_parallel_allreduce
+            and model_parallel
+            and not args.sequence_parallel
+        )
     else:
         input_parallel = tensor_parallel.copy_to_tensor_model_parallel_region(input_)
         async_grad_allreduce = False
@@ -39,7 +41,8 @@ def parallel_lm_logits(input_, word_embeddings_weight, parallel_output,
         bias=bias,
         gradient_accumulation_fusion=args.gradient_accumulation_fusion,
         async_grad_allreduce=async_grad_allreduce,
-        sequence_parallel=args.sequence_parallel)
+        sequence_parallel=args.sequence_parallel,
+    )
     # Gather if needed.
 
     if parallel_output:
@@ -48,20 +51,27 @@ def parallel_lm_logits(input_, word_embeddings_weight, parallel_output,
     return tensor_parallel.gather_from_tensor_model_parallel_region(logits_parallel)
 
 
-def get_language_model(config, num_tokentypes, add_pooler,
-                       encoder_attn_mask_type,
-                       add_encoder=True,
-                       add_decoder=False,
-                       decoder_attn_mask_type=AttnMaskType.causal,
-                       pre_process=True, post_process=True, num_experts=[1]):
+def get_language_model(
+    config,
+    num_tokentypes,
+    add_pooler,
+    encoder_attn_mask_type,
+    add_encoder=True,
+    add_decoder=False,
+    decoder_attn_mask_type=AttnMaskType.causal,
+    pre_process=True,
+    post_process=True,
+    num_experts=[1],
+):
     """Build language model and return along with the key to save."""
     args = get_args()
     if config.init_method is None:
         config.init_method = init_method_normal(config.init_method_std)
 
     if config.output_layer_init_method is None:
-        config.output_layer_init_method = scaled_init_method_normal(config.init_method_std,
-                                                                    config.num_layers)
+        config.output_layer_init_method = scaled_init_method_normal(
+            config.init_method_std, config.num_layers
+        )
 
     # Language model.
     language_model = TransformerLanguageModel(
@@ -74,9 +84,10 @@ def get_language_model(config, num_tokentypes, add_pooler,
         add_pooler=add_pooler,
         pre_process=pre_process,
         post_process=post_process,
-        num_experts=num_experts)
+        num_experts=num_experts,
+    )
     # key used for checkpoints.
-    language_model_key = 'language_model'
+    language_model_key = "language_model"
 
     return language_model, language_model_key
 
@@ -96,10 +107,14 @@ class Pooler(MegatronModule):
     def __init__(self, hidden_size, init_method):
         super(Pooler, self).__init__()
         args = get_args()
-        self.dense = get_linear_layer(hidden_size, hidden_size, init_method, gather_params_on_init=args.zero_stage == 3)
+        self.dense = get_linear_layer(
+            hidden_size,
+            hidden_size,
+            init_method,
+            gather_params_on_init=args.zero_stage == 3,
+        )
         self.sequence_parallel = args.sequence_parallel
 
-
     def forward(self, hidden_states, sequence_index=0):
         # hidden_states: [s, b, h]
         # sequence_index: index of the token to pool.
@@ -108,8 +123,8 @@ def forward(self, hidden_states, sequence_index=0):
         # same pooler is run on all tensor parallel nodes
         if self.sequence_parallel:
             hidden_states = tensor_parallel.gather_from_sequence_parallel_region(
-                hidden_states,
-                tensor_parallel_output_grad=False)
+                hidden_states, tensor_parallel_output_grad=False
+            )
 
         pooled = hidden_states[sequence_index, :, :]
         pooled = self.dense(pooled)
@@ -135,14 +150,16 @@ class Embedding(MegatronModule):
                                    training in bf16.
     """
 
-    def __init__(self,
-                 hidden_size,
-                 vocab_size,
-                 max_sequence_length,
-                 embedding_dropout_prob,
-                 config,
-                 num_tokentypes=0,
-                 embedding_weights_in_fp32=False):
+    def __init__(
+        self,
+        hidden_size,
+        vocab_size,
+        max_sequence_length,
+        embedding_dropout_prob,
+        config,
+        num_tokentypes=0,
+        embedding_weights_in_fp32=False,
+    ):
         super(Embedding, self).__init__()
 
         self.hidden_size = hidden_size
@@ -155,25 +172,32 @@ def __init__(self,
         self.embedding_weights_in_fp32 = embedding_weights_in_fp32
         self.params_dtype = args.params_dtype
         self.word_embeddings = tensor_parallel.VocabParallelEmbedding(
-            vocab_size, self.hidden_size, config=config, init_method=config.init_method)
-        self._word_embeddings_key = 'word_embeddings'
+            vocab_size, self.hidden_size, config=config, init_method=config.init_method
+        )
+        self._word_embeddings_key = "word_embeddings"
 
         # Position embedding (serial).
         self.add_position_embedding = args.add_position_embedding
         if self.add_position_embedding:
-            self._position_embeddings_key = 'position_embeddings'
+            self._position_embeddings_key = "position_embeddings"
             if args.sequence_parallel:
-                self.position_embeddings = tensor_parallel.layers.SequenceParallelPositionEmbedding(
-                    max_sequence_length, self.hidden_size)
+                self.position_embeddings = (
+                    tensor_parallel.layers.SequenceParallelPositionEmbedding(
+                        max_sequence_length, self.hidden_size
+                    )
+                )
                 # Initialize the position embeddings.
                 self.init_method(self.position_embeddings.local_embeddings.weight)
             else:
                 self.position_embeddings = torch.nn.Embedding(
-                    max_sequence_length, self.hidden_size)
+                    max_sequence_length, self.hidden_size
+                )
                 # Initialize the position embeddings.
                 if args.perform_initialization:
                     if args.zero_stage == 3:
-                        gather_and_init(self.position_embeddings.weight, self.init_method)
+                        gather_and_init(
+                            self.position_embeddings.weight, self.init_method
+                        )
                     else:
                         self.init_method(self.position_embeddings.weight)
 
@@ -181,10 +205,11 @@ def __init__(self,
         # Add this as an optional field that can be added through
         # method call so we can load a pretrain model without
         # token types and add them as needed.
-        self._tokentype_embeddings_key = 'tokentype_embeddings'
+        self._tokentype_embeddings_key = "tokentype_embeddings"
         if self.num_tokentypes > 0:
-            self.tokentype_embeddings = torch.nn.Embedding(self.num_tokentypes,
-                                                           self.hidden_size)
+            self.tokentype_embeddings = torch.nn.Embedding(
+                self.num_tokentypes, self.hidden_size
+            )
             # Initialize the token-type embeddings.
             if args.perform_initialization:
                 if args.zero_stage == 3:
@@ -216,13 +241,13 @@ def add_tokentype_embeddings(self, num_tokentypes):
         This allows us to load the model normally and then add this embedding.
         """
         if self.tokentype_embeddings is not None:
-            raise Exception('tokentype embeddings is already initialized')
+            raise Exception("tokentype embeddings is already initialized")
         if torch.distributed.get_rank() == 0:
-            print('adding embedding for {} tokentypes'.format(num_tokentypes),
-                  flush=True)
+            print(
+                "adding embedding for {} tokentypes".format(num_tokentypes), flush=True
+            )
         self.num_tokentypes = num_tokentypes
-        self.tokentype_embeddings = torch.nn.Embedding(num_tokentypes,
-                                                       self.hidden_size)
+        self.tokentype_embeddings = torch.nn.Embedding(num_tokentypes, self.hidden_size)
         # Initialize the token-type embeddings.
         args = get_args()
         self.init_method(self.tokentype_embeddings.weight)
@@ -256,8 +281,8 @@ def forward(self, input_ids, position_ids, tokentype_ids=None):
 
         # Dropout.
         if self.sequence_parallel:
-            # already partition sequence, do not need scatter_to_sequence_parallel_region
-            # embeddings = tensor_parallel.scatter_to_sequence_parallel_region(embeddings)
+            # already partition sequence, do not need scatter_to_sequence_parallel_region ?
+            embeddings = tensor_parallel.scatter_to_sequence_parallel_region(embeddings)
             with tensor_parallel.get_cuda_rng_tracker().fork():
                 embeddings = self.embedding_dropout(embeddings)
         else:
@@ -265,21 +290,21 @@ def forward(self, input_ids, position_ids, tokentype_ids=None):
 
         return embeddings
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load."""
 
         state_dict_ = {}
-        state_dict_[self._word_embeddings_key] \
-            = self.word_embeddings.state_dict(prefix=prefix,
-                                              keep_vars=keep_vars)
+        state_dict_[self._word_embeddings_key] = self.word_embeddings.state_dict(
+            prefix=prefix, keep_vars=keep_vars
+        )
         if self.add_position_embedding:
-            state_dict_[self._position_embeddings_key] \
-                = self.position_embeddings.state_dict(prefix=prefix,
-                                                  keep_vars=keep_vars)
+            state_dict_[self._position_embeddings_key] = (
+                self.position_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+            )
         if self.num_tokentypes > 0:
-            state_dict_[self._tokentype_embeddings_key] \
-                = self.tokentype_embeddings.state_dict(prefix=prefix,
-                                                       keep_vars=keep_vars)
+            state_dict_[self._tokentype_embeddings_key] = (
+                self.tokentype_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+            )
 
         return state_dict_
 
@@ -293,9 +318,8 @@ def load_state_dict(self, state_dict, strict=True):
             # for backward compatibility.
             state_dict_ = {}
             for key in state_dict.keys():
-                if 'word_embeddings' in key:
-                    state_dict_[key.split('word_embeddings.')[1]] \
-                        = state_dict[key]
+                if "word_embeddings" in key:
+                    state_dict_[key.split("word_embeddings.")[1]] = state_dict[key]
         self.word_embeddings.load_state_dict(state_dict_, strict=strict)
 
         # Position embedding.
@@ -306,9 +330,10 @@ def load_state_dict(self, state_dict, strict=True):
                 # for backward compatibility.
                 state_dict_ = {}
                 for key in state_dict.keys():
-                    if 'position_embeddings' in key:
-                        state_dict_[key.split('position_embeddings.')[1]] \
-                            = state_dict[key]
+                    if "position_embeddings" in key:
+                        state_dict_[key.split("position_embeddings.")[1]] = state_dict[
+                            key
+                        ]
             self.position_embeddings.load_state_dict(state_dict_, strict=strict)
 
         # Tokentype embedding.
@@ -319,26 +344,29 @@ def load_state_dict(self, state_dict, strict=True):
             else:
                 # for backward compatibility.
                 for key in state_dict.keys():
-                    if 'tokentype_embeddings' in key:
-                        state_dict_[key.split('tokentype_embeddings.')[1]] \
-                            = state_dict[key]
+                    if "tokentype_embeddings" in key:
+                        state_dict_[key.split("tokentype_embeddings.")[1]] = state_dict[
+                            key
+                        ]
             if len(state_dict_.keys()) > 0:
-                self.tokentype_embeddings.load_state_dict(state_dict_,
-                                                          strict=strict)
+                self.tokentype_embeddings.load_state_dict(state_dict_, strict=strict)
             else:
-                print('***WARNING*** expected tokentype embeddings in the '
-                      'checkpoint but could not find it', flush=True)
+                print(
+                    "***WARNING*** expected tokentype embeddings in the "
+                    "checkpoint but could not find it",
+                    flush=True,
+                )
 
 
 class EmbeddingPipe(Embedding):
 
     def forward(self, inputs, **kwargs):
-        if not hasattr(self, '_args'):
+        if not hasattr(self, "_args"):
             self._args = get_args()
 
         input_ids = inputs[0]
         position_ids = inputs[1]
-        if hasattr(self._args, 'attn_mask'):
+        if hasattr(self._args, "attn_mask"):
             attention_mask = None
         else:
             attention_mask = inputs[2]
@@ -347,17 +375,18 @@ def forward(self, inputs, **kwargs):
             tokentype_ids = inputs[3]
         else:
             tokentype_ids = None
-        
-        embeddings = super().forward(input_ids, position_ids, tokentype_ids=tokentype_ids)
+
+        embeddings = super().forward(
+            input_ids, position_ids, tokentype_ids=tokentype_ids
+        )
 
         # If cmd args has attn_mask, we don't forward it as an activation.
-        if hasattr(self._args, 'attn_mask'):
+        if hasattr(self._args, "attn_mask"):
             return embeddings
         else:
             assert False
             return embeddings, attention_mask
 
-
     @property
     def word_embeddings_weight(self):
         """Easy accessory for the DeepSpeed pipeline engine to tie embeddings across stages."""
@@ -377,22 +406,30 @@ class TransformerLanguageModel(MegatronModule):
                         will ignore this embedding
     """
 
-    def __init__(self,
-                 config,
-                 encoder_attn_mask_type,
-                 num_tokentypes=0,
-                 add_encoder=True,
-                 add_decoder=False,
-                 decoder_attn_mask_type=AttnMaskType.causal,
-                 add_pooler=False,
-                 pre_process=True,
-                 post_process=True,
-                 num_experts=[1]):
+    def __init__(
+        self,
+        config,
+        encoder_attn_mask_type,
+        num_tokentypes=0,
+        add_encoder=True,
+        add_decoder=False,
+        decoder_attn_mask_type=AttnMaskType.causal,
+        add_pooler=False,
+        pre_process=True,
+        post_process=True,
+        num_experts=[1],
+    ):
         args = get_args()
-        # TODO: passing share_embeddings_and_output_weights=False will not work correctly for T5 and embeddings will not be synced. Fix later for T5.
-        if args.untie_embeddings_and_output_weights: assert not add_decoder
-        super(TransformerLanguageModel, self).__init__(share_embeddings_and_output_weights=not args.untie_embeddings_and_output_weights)
-
+        # TODO: passing `share_embeddings_and_output_weights=False`
+        # will not work correctly for T5 and embeddings will not be synced.
+        # Fix later for T5.
+        if args.untie_embeddings_and_output_weights:
+            assert not add_decoder
+        super(TransformerLanguageModel, self).__init__(
+            share_embeddings_and_output_weights=(
+                not args.untie_embeddings_and_output_weights
+            )
+        )
         self.pre_process = pre_process
         self.post_process = post_process
         self.hidden_size = config.hidden_size
@@ -405,27 +442,33 @@ def __init__(self,
         self.add_pooler = add_pooler
         self.encoder_hidden_state = None
         self.add_retriever = args.retro_add_retriever
-        self.untie_embeddings_and_output_weights = args.untie_embeddings_and_output_weights
+        self.untie_embeddings_and_output_weights = (
+            args.untie_embeddings_and_output_weights
+        )
         self.num_experts = num_experts
 
         # Embeddings.
         if self.pre_process:
-            self.embedding = Embedding(self.hidden_size,
-                                       args.padded_vocab_size,
-                                       args.max_position_embeddings,
-                                       args.hidden_dropout,
-                                       config,
-                                       self.num_tokentypes,
-                                       args.embedding_weights_in_fp32)
-            self._embedding_key = 'embedding'
+            self.embedding = Embedding(
+                self.hidden_size,
+                args.padded_vocab_size,
+                args.max_position_embeddings,
+                args.hidden_dropout,
+                config,
+                self.num_tokentypes,
+                args.embedding_weights_in_fp32,
+            )
+            self._embedding_key = "embedding"
 
         # Rotary positional embeddings
-        self.use_rotary_position_embeddings = \
-            args.use_rotary_position_embeddings
+        self.use_rotary_position_embeddings = args.use_rotary_position_embeddings
         if args.use_rotary_position_embeddings:
             self.seq_length = args.seq_length
-            rotary_dim = args.hidden_size // args.num_attention_heads \
-                if args.kv_channels is None else args.kv_channels
+            rotary_dim = (
+                args.hidden_size // args.num_attention_heads
+                if args.kv_channels is None
+                else args.kv_channels
+            )
 
             if args.rotary_percent < 1.0:
                 rotary_dim = int(rotary_dim * args.rotary_percent)
@@ -440,14 +483,19 @@ def __init__(self,
         if self.add_encoder:
             self.encoder = ParallelTransformer(
                 config,
-                model_type=args.model_type if not args.retro_add_retriever \
-                    else ModelType.retro_decoder,
+                # args.model_type if not args.retro_add_retriever
+                # else ModelType.retro_decoder
+                model_type=(
+                    ModelType.retro_decoder
+                    if args.retro_add_retriever
+                    else args.model_type
+                ),
                 self_attn_mask_type=self.encoder_attn_mask_type,
                 pre_process=self.pre_process,
                 post_process=self.post_process,
-                num_experts=self.num_experts
+                num_experts=self.num_experts,
             )
-            self._encoder_key = 'encoder'
+            self._encoder_key = "encoder"
         else:
             self.encoder = None
 
@@ -461,8 +509,9 @@ def __init__(self,
                 self_attn_mask_type=self.decoder_attn_mask_type,
                 pre_process=self.pre_process,
                 post_process=self.post_process,
-                num_experts=self.num_experts)
-            self._decoder_key = 'decoder'
+                num_experts=self.num_experts,
+            )
+            self._decoder_key = "decoder"
         else:
             self.decoder = None
 
@@ -470,7 +519,7 @@ def __init__(self,
             # Pooler.
             if self.add_pooler:
                 self.pooler = Pooler(self.hidden_size, self.init_method)
-                self._pooler_key = 'pooler'
+                self._pooler_key = "pooler"
 
             if self.untie_embeddings_and_output_weights:
                 self.output_layer = tensor_parallel.ColumnParallelLinear(
@@ -478,24 +527,29 @@ def __init__(self,
                     args.padded_vocab_size,
                     config=config,
                     init_method=self.init_method,
-                    bias=False) # Setting bias to False always to keep it consistent with embedding tying that also does not have a bias.
-                self._output_layer_key = 'output_layer'
+                    # Setting bias to False always to keep it consistent with
+                    # embedding tying that also does not have a bias.
+                    bias=False,
+                )
+                self._output_layer_key = "output_layer"
 
     def set_input_tensor(self, input_tensor):
-        """ See megatron.model.transformer.set_input_tensor()"""
-
+        """See megatron.model.transformer.set_input_tensor()"""
         # This is usually handled in schedules.py but some inference code still
         # gives us non-lists or None
         if not isinstance(input_tensor, list):
             input_tensor = [input_tensor]
 
         if self.add_encoder and self.add_decoder:
-            assert len(input_tensor) == 1, \
-                'input_tensor should only be length 1 for stage with both encoder and decoder'
+            assert len(input_tensor) == 1, (
+                "input_tensor should only be length 1 "
+                "for stage with both encoder and decoder"
+            )
             self.encoder.set_input_tensor(input_tensor[0])
         elif self.add_encoder:
-            assert len(input_tensor) == 1, \
-                'input_tensor should only be length 1 for stage with only encoder'
+            assert len(input_tensor) == 1, (
+                "input_tensor should only be length 1 " "for stage with only encoder"
+            )
             self.encoder.set_input_tensor(input_tensor[0])
         elif self.add_decoder:
             if len(input_tensor) == 2:
@@ -505,32 +559,42 @@ def set_input_tensor(self, input_tensor):
                 self.decoder.set_input_tensor(None)
                 self.encoder_hidden_state = input_tensor[0]
             else:
-                raise Exception('input_tensor must have either length 1 or 2')
+                raise Exception("input_tensor must have either length 1 or 2")
         else:
-            raise Exception('Stage must have at least either encoder or decoder')
-
-    def forward(self, enc_input_ids, enc_position_ids, enc_attn_mask,
-                dec_input_ids=None, dec_position_ids=None, dec_attn_mask=None,
-                retriever_input_ids=None,
-                retriever_position_ids=None,
-                retriever_attn_mask=None,
-                enc_dec_attn_mask=None, tokentype_ids=None,
-                inference_params=None,
-                pooling_sequence_index=0,
-                enc_hidden_states=None, output_enc_hidden=False):
+            raise Exception("Stage must have at least either encoder or decoder")
+
+    def forward(
+        self,
+        enc_input_ids,
+        enc_position_ids,
+        enc_attn_mask,
+        dec_input_ids=None,
+        dec_position_ids=None,
+        dec_attn_mask=None,
+        retriever_input_ids=None,
+        retriever_position_ids=None,
+        retriever_attn_mask=None,
+        enc_dec_attn_mask=None,
+        tokentype_ids=None,
+        inference_params=None,
+        pooling_sequence_index=0,
+        enc_hidden_states=None,
+        output_enc_hidden=False,
+    ):
         args = get_args()
         # Encoder embedding.
         if self.pre_process:
-            encoder_input = self.embedding(enc_input_ids, enc_position_ids,
-                                           tokentype_ids=tokentype_ids)
+            encoder_input = self.embedding(
+                enc_input_ids, enc_position_ids, tokentype_ids=tokentype_ids
+            )
         else:
             encoder_input = None
 
         # Retriever embedding.
         if self.add_retriever and self.pre_process:
-            retriever_input = self.embedding(retriever_input_ids,
-                                             retriever_position_ids,
-                                             tokentype_ids=tokentype_ids)
+            retriever_input = self.embedding(
+                retriever_input_ids, retriever_position_ids, tokentype_ids=tokentype_ids
+            )
         else:
             retriever_input = None
 
@@ -538,10 +602,12 @@ def forward(self, enc_input_ids, enc_position_ids, enc_attn_mask,
         rotary_pos_emb = None
         if self.use_rotary_position_embeddings:
             if inference_params is not None:
-                rotary_pos_emb = \
-                    self.rotary_pos_emb(inference_params.max_sequence_len)
+                rotary_pos_emb = self.rotary_pos_emb(inference_params.max_sequence_len)
             else:
-                if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
+                if (
+                    args.curriculum_learning_legacy
+                    or args.data_efficiency_curriculum_learning
+                ):
                     rotary_pos_emb = self.rotary_pos_emb(args.curriculum_seqlen)
                 else:
                     rotary_pos_emb = self.rotary_pos_emb(self.seq_length)
@@ -555,16 +621,19 @@ def forward(self, enc_input_ids, enc_position_ids, enc_attn_mask,
                     retriever_input=retriever_input,
                     retriever_attn_mask=retriever_attn_mask,
                     inference_params=inference_params,
-                    rotary_pos_emb=rotary_pos_emb)
+                    rotary_pos_emb=rotary_pos_emb,
+                )
             else:
                 encoder_output = self.encoder_hidden_state
         else:
-            encoder_output, encoder_moe_losses = enc_hidden_states.to(encoder_input.dtype), []
+            encoder_output, encoder_moe_losses = (
+                enc_hidden_states.to(encoder_input.dtype),
+                [],
+            )
 
         if self.post_process:
             if self.add_pooler:
-                pooled_output = self.pooler(encoder_output,
-                                            pooling_sequence_index)
+                pooled_output = self.pooler(encoder_output, pooling_sequence_index)
 
         # output_enc_hidden refers to when we just need the encoder's
         # output. For example, it is helpful to compute
@@ -577,8 +646,7 @@ def forward(self, enc_input_ids, enc_position_ids, enc_attn_mask,
 
         # Decoder embedding.
         if self.pre_process:
-            decoder_input = self.embedding(dec_input_ids,
-                                           dec_position_ids)
+            decoder_input = self.embedding(dec_input_ids, dec_position_ids)
         else:
             decoder_input = None
 
@@ -589,25 +657,40 @@ def forward(self, enc_input_ids, enc_position_ids, enc_attn_mask,
             encoder_output=encoder_output,
             enc_dec_attn_mask=enc_dec_attn_mask,
             inference_params=inference_params,
-            rotary_pos_emb=rotary_pos_emb)
+            rotary_pos_emb=rotary_pos_emb,
+        )
 
         if self.add_pooler and self.post_process:
-            return decoder_output, encoder_output, pooled_output, decoder_moe_losses, encoder_moe_losses
+            return (
+                decoder_output,
+                encoder_output,
+                pooled_output,
+                decoder_moe_losses,
+                encoder_moe_losses,
+            )
         else:
-            return decoder_output, encoder_output, decoder_moe_losses, encoder_moe_losses
+            return (
+                decoder_output,
+                encoder_output,
+                decoder_moe_losses,
+                encoder_moe_losses,
+            )
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load."""
         args = get_args()
         state_dict_ = {}
         moe_state_dict = {}
         if self.pre_process:
-            state_dict_[self._embedding_key] \
-                = self.embedding.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                keep_vars=keep_vars)
+            state_dict_[self._embedding_key] = (
+                self.embedding.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+            )
         if self.add_encoder:
             encoder_state_dict = self.encoder.state_dict_for_save_checkpoint(
-                prefix=prefix, keep_vars=keep_vars)
+                prefix=prefix, keep_vars=keep_vars
+            )
             if args.random_ltd:
                 # When using random-LTD, it is required to call remove_random_ltd_state_dict
                 # during model checkpoint saving to transfer the random-LTD-wrapped
@@ -616,29 +699,37 @@ def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
                 # finetuning of the checkpoint there is no need to depend on random-LTD
                 # again.
                 from deepspeed.runtime.data_pipeline.data_routing.helper import remove_random_ltd_state_dict
+
                 encoder_state_dict = remove_random_ltd_state_dict(encoder_state_dict)
             # MoE states need to be handled separately by DeepSpeed engine, thus
             # moving them to the top level dictionary
             # If components other than encoder may contain MoE states, need to add
             # the same logic
             for key in list(encoder_state_dict.keys()):
-                if 'expert' in key and 'moe.gate.wg.weight' not in key:
-                    moe_state_dict[self._encoder_key+key] = encoder_state_dict.pop(key)
+                if "expert" in key and "moe.gate.wg.weight" not in key:
+                    moe_state_dict[self._encoder_key + key] = encoder_state_dict.pop(
+                        key
+                    )
             state_dict_[self._encoder_key] = encoder_state_dict
 
         if self.post_process:
             if self.add_pooler:
-                state_dict_[self._pooler_key] \
-                    = self.pooler.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                 keep_vars=keep_vars)
+                state_dict_[self._pooler_key] = (
+                    self.pooler.state_dict_for_save_checkpoint(
+                        prefix=prefix, keep_vars=keep_vars
+                    )
+                )
             if self.untie_embeddings_and_output_weights:
-                state_dict_[self._output_layer_key] \
-                    = self.output_layer.state_dict(prefix=prefix, keep_vars=keep_vars)
+                state_dict_[self._output_layer_key] = self.output_layer.state_dict(
+                    prefix=prefix, keep_vars=keep_vars
+                )
 
         if self.add_decoder:
-            state_dict_[self._decoder_key] \
-                = self.decoder.state_dict_for_save_checkpoint(prefix=prefix,
-                                                              keep_vars=keep_vars)
+            state_dict_[self._decoder_key] = (
+                self.decoder.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+            )
 
         state_dict_["moe_state_dict"] = moe_state_dict
         return state_dict_
@@ -654,7 +745,7 @@ def load_state_dict(self, state_dict, strict=True):
                 # for backward compatibility.
                 state_dict_ = {}
                 for key in state_dict.keys():
-                    if '_embeddings' in key:
+                    if "_embeddings" in key:
                         state_dict_[key] = state_dict[key]
             self.embedding.load_state_dict(state_dict_, strict=strict)
 
@@ -663,14 +754,14 @@ def load_state_dict(self, state_dict, strict=True):
             if self._encoder_key in state_dict:
                 state_dict_ = state_dict[self._encoder_key]
             # For backward compatibility.
-            elif 'transformer' in state_dict:
-                state_dict_ = state_dict['transformer']
+            elif "transformer" in state_dict:
+                state_dict_ = state_dict["transformer"]
             else:
                 # For backward compatibility.
                 state_dict_ = {}
                 for key in state_dict.keys():
-                    if 'transformer.' in key:
-                        state_dict_[key.split('transformer.')[1]] = state_dict[key]
+                    if "transformer." in key:
+                        state_dict_[key.split("transformer.")[1]] = state_dict[key]
 
             # For backward compatibility.
             # Somehow this backward compatibility could be wrong: sometimes
@@ -679,9 +770,10 @@ def load_state_dict(self, state_dict, strict=True):
             state_dict_self_attention = {}
             encoder_state_dict_keys = list(self.encoder.state_dict().keys())
             for key in state_dict_.keys():
-                if '.attention.' in key and key not in encoder_state_dict_keys:
-                    state_dict_self_attention[key.replace(".attention.",
-                        ".self_attention.")] = state_dict_[key]
+                if ".attention." in key and key not in encoder_state_dict_keys:
+                    state_dict_self_attention[
+                        key.replace(".attention.", ".self_attention.")
+                    ] = state_dict_[key]
                 else:
                     state_dict_self_attention[key] = state_dict_[key]
             state_dict_ = state_dict_self_attention
@@ -690,11 +782,11 @@ def load_state_dict(self, state_dict, strict=True):
             if "moe_state_dict" in state_dict:
                 for key in list(state_dict["moe_state_dict"].keys()):
                     if self._encoder_key in key:
-                        key_list = key.split('.')
-                        while key_list[0] != 'encoder':
+                        key_list = key.split(".")
+                        while key_list[0] != "encoder":
                             key_list.pop(0)
                         key_list.pop(0)
-                        actual_key = '.'.join(key_list)
+                        actual_key = ".".join(key_list)
                         state_dict_[actual_key] = state_dict["moe_state_dict"].pop(key)
                 if len(state_dict["moe_state_dict"]) == 0:
                     del state_dict["moe_state_dict"]
@@ -703,18 +795,20 @@ def load_state_dict(self, state_dict, strict=True):
         # Pooler.
         if self.post_process:
             if self.add_pooler:
-                assert 'pooler' in state_dict, \
-                    'could not find data for pooler in the checkpoint'
-                self.pooler.load_state_dict(state_dict[self._pooler_key],
-                                            strict=strict)
+                assert (
+                    "pooler" in state_dict
+                ), "could not find data for pooler in the checkpoint"
+                self.pooler.load_state_dict(state_dict[self._pooler_key], strict=strict)
             if self.untie_embeddings_and_output_weights:
-                assert 'output_layer' in state_dict, \
-                    'could not find data for output_layer in the checkpoint'
-                self.output_layer.load_state_dict(state_dict[self._output_layer_key],
-                                                  strict=strict)
+                assert (
+                    "output_layer" in state_dict
+                ), "could not find data for output_layer in the checkpoint"
+                self.output_layer.load_state_dict(
+                    state_dict[self._output_layer_key], strict=strict
+                )
         # Decoder.
         if self.add_decoder:
-            assert 'decoder' in state_dict, \
-                'could not find data for pooler in the checkpoint'
-            self.decoder.load_state_dict(state_dict[self._decoder_key],
-                                         strict=strict)
+            assert (
+                "decoder" in state_dict
+            ), "could not find data for pooler in the checkpoint"
+            self.decoder.load_state_dict(state_dict[self._decoder_key], strict=strict)
diff --git a/megatron/model/module.py b/megatron/model/module.py
index 963ad2d29d4..67b0e966540 100644
--- a/megatron/model/module.py
+++ b/megatron/model/module.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 """Megatron Module"""
@@ -10,15 +11,13 @@
 from megatron.core import mpu, tensor_parallel
 
 
-_FLOAT_TYPES = [get_accelerator().FloatTensor(0).dtype]
-_HALF_TYPES = [get_accelerator().HalfTensor(0).dtype]
-_BF16_TYPES = [get_accelerator().BFloat16Tensor(0).dtype]
-
+_FLOAT_TYPES = None
+_HALF_TYPES = None
+_BF16_TYPES = None
 
 
 def param_is_not_shared(param):
-    return not hasattr(param, 'shared') or not param.shared
-
+    return not hasattr(param, "shared") or not param.shared
 
 
 class MegatronModule(torch.nn.Module):
@@ -30,28 +29,29 @@ def __init__(self, config=None, share_embeddings_and_output_weights=True):
         self.config = config
         self.share_embeddings_and_output_weights = share_embeddings_and_output_weights
 
-
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """Use this function to override the state dict for
         saving checkpoints."""
         return self.state_dict(prefix=prefix, keep_vars=keep_vars)
 
-
     def shared_embedding_or_output_weight(self):
         if self.pre_process:
             return self.language_model.embedding.word_embeddings.weight
         else:
             if not self.share_embeddings_and_output_weights:
-                raise Exception('shared_embedding_or_output_weight() called for last '
-                                'stage, but share_embeddings_and_output_weights is false')
+                raise Exception(
+                    "shared_embedding_or_output_weight() called for last "
+                    "stage, but share_embeddings_and_output_weights is false"
+                )
             return self.word_embeddings.weight
 
-
     def initialize_word_embeddings(self):
         args = get_args()
         if not self.share_embeddings_and_output_weights:
-            raise Exception('initialize_word_embeddings() was called but '
-                            'share_embeddings_and_output_weights is false')
+            raise Exception(
+                "initialize_word_embeddings() was called but "
+                "share_embeddings_and_output_weights is false"
+            )
 
         # This function just initializes the word embeddings in the final stage
         # when we are using pipeline parallelism. Nothing to do if we aren't
@@ -73,51 +73,62 @@ def initialize_word_embeddings(self):
         #    update is the same on both stages.
         if mpu.is_pipeline_last_stage() and not self.pre_process:
             assert not mpu.is_pipeline_first_stage()
-            self._word_embeddings_for_head_key = 'word_embeddings_for_head'
+            self._word_embeddings_for_head_key = "word_embeddings_for_head"
             # set word_embeddings weights to 0 here, then copy first
             # stage's weights using all_reduce below.
             self.word_embeddings = tensor_parallel.VocabParallelEmbedding(
-                args.padded_vocab_size, self.config.hidden_size,
-                config=self.config, init_method=self.config.init_method)
+                args.padded_vocab_size,
+                self.config.hidden_size,
+                config=self.config,
+                init_method=self.config.init_method,
+            )
             self.word_embeddings.weight.data.fill_(0)
             self.word_embeddings.weight.shared = True
 
         # Zero out initial weights for decoder embedding.
         # NOTE: We don't currently support T5 with the interleaved schedule.
-        if not mpu.is_pipeline_first_stage(ignore_virtual=True) and \
-                self.pre_process:
+        if not mpu.is_pipeline_first_stage(ignore_virtual=True) and self.pre_process:
             self.language_model.embedding.zero_parameters()
 
         if not torch.distributed.is_initialized():
             if not getattr(MegatronModule, "embedding_warning_printed", False):
-                print("WARNING! Distributed processes aren't initialized, so "
-                      "word embeddings in the last layer are not initialized. "
-                      "If you are just manipulating a model this is fine, but "
-                      "this needs to be handled manually. If you are training "
-                      "something is definitely wrong.")
+                print(
+                    "WARNING! Distributed processes aren't initialized, so "
+                    "word embeddings in the last layer are not initialized. "
+                    "If you are just manipulating a model this is fine, but "
+                    "this needs to be handled manually. If you are training "
+                    "something is definitely wrong."
+                )
                 MegatronModule.embedding_warning_printed = True
             return
 
         # Ensure that first and last stages have the same initial parameter
         # values.
         if mpu.is_rank_in_embedding_group():
-            torch.distributed.all_reduce(self.shared_embedding_or_output_weight().data,
-                                         group=mpu.get_embedding_group())
+            torch.distributed.all_reduce(
+                self.shared_embedding_or_output_weight().data,
+                group=mpu.get_embedding_group(),
+            )
 
         # Ensure that encoder(first stage) and decoder(split stage) position
         # embeddings have the same initial parameter values
         # NOTE: We don't currently support T5 with the interleaved schedule.
-        if mpu.is_rank_in_position_embedding_group() and \
-                args.pipeline_model_parallel_split_rank is not None:
+        if (
+            mpu.is_rank_in_position_embedding_group()
+            and args.pipeline_model_parallel_split_rank is not None
+        ):
             # TODO: Support tokentype embedding.
             self.language_model.embedding.cuda()
             position_embeddings = self.language_model.embedding.position_embeddings
-            torch.distributed.all_reduce(position_embeddings.weight.data,
-                                         group=mpu.get_position_embedding_group())
+            torch.distributed.all_reduce(
+                position_embeddings.weight.data,
+                group=mpu.get_position_embedding_group(),
+            )
 
     def universal_checkpoint_info(self):
         return {}
 
+
 def conversion_helper(val, conversion):
     """Apply conversion to val. Recursively apply conversion if `val`
     #is a nested tuple/list structure."""
@@ -131,6 +142,10 @@ def conversion_helper(val, conversion):
 
 def fp32_to_float16(val, float16_convertor):
     """Convert fp32 `val` to fp16/bf16"""
+    global _FLOAT_TYPES
+    if _FLOAT_TYPES is None:
+        _FLOAT_TYPES = [get_accelerator().FloatTensor(0).dtype]
+
     def half_conversion(val):
         val_typecheck = val
         if isinstance(val_typecheck, (Parameter, Variable)):
@@ -138,11 +153,18 @@ def half_conversion(val):
         if val_typecheck.dtype in _FLOAT_TYPES:
             val = float16_convertor(val)
         return val
+
     return conversion_helper(val, half_conversion)
 
 
 def float16_to_fp32(val):
     """Convert fp16/bf16 `val` to fp32"""
+    global _HALF_TYPES, _BF16_TYPES
+    if _HALF_TYPES is None:
+        _HALF_TYPES = [get_accelerator().HalfTensor(0).dtype]
+    if _BF16_TYPES is None:
+        _BF16_TYPES = [get_accelerator().BFloat16Tensor(0).dtype]
+
     def float_conversion(val):
         val_typecheck = val
         if isinstance(val_typecheck, (Parameter, Variable)):
@@ -150,8 +172,8 @@ def float_conversion(val):
         if val_typecheck.dtype in _BF16_TYPES + _HALF_TYPES:
             val = val.float()
         return val
-    return conversion_helper(val, float_conversion)
 
+    return conversion_helper(val, float_conversion)
 
 
 class Float16Module(MegatronModule):
@@ -160,23 +182,25 @@ def __init__(self, module, args):
         super(Float16Module, self).__init__()
 
         if args.fp16:
-            self.add_module('module', module.half())
+            self.add_module("module", module.half())
+
             def float16_convertor(val):
                 return val.half()
+
         elif args.bf16:
-            self.add_module('module', module.bfloat16())
+            self.add_module("module", module.bfloat16())
+
             def float16_convertor(val):
                 return val.bfloat16()
+
         else:
-            raise Exception('should not be here')
+            raise Exception("should not be here")
 
         self.float16_convertor = float16_convertor
 
-
     def set_input_tensor(self, input_tensor):
         return self.module.set_input_tensor(input_tensor)
 
-
     def forward(self, *inputs, **kwargs):
         if mpu.is_pipeline_first_stage():
             inputs = fp32_to_float16(inputs, self.float16_convertor)
@@ -185,15 +209,13 @@ def forward(self, *inputs, **kwargs):
             outputs = float16_to_fp32(outputs)
         return outputs
 
-
-    def state_dict(self, prefix='', keep_vars=False):
+    def state_dict(self, prefix="", keep_vars=False):
         return self.module.state_dict(prefix=prefix, keep_vars=keep_vars)
 
-
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
-        return self.module.state_dict_for_save_checkpoint(prefix=prefix,
-                                                          keep_vars=keep_vars)
-
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
+        return self.module.state_dict_for_save_checkpoint(
+            prefix=prefix, keep_vars=keep_vars
+        )
 
     def load_state_dict(self, state_dict, strict=True):
         self.module.load_state_dict(state_dict, strict=strict)
diff --git a/megatron/model/multiple_choice.py b/megatron/model/multiple_choice.py
index 13e1e34a9ab..07b3af88a4d 100644
--- a/megatron/model/multiple_choice.py
+++ b/megatron/model/multiple_choice.py
@@ -16,11 +16,7 @@
 
 class MultipleChoice(MegatronModule):
 
-    def __init__(self,
-                 config,
-                 num_tokentypes=2,
-                 pre_process=True,
-                 post_process=True):
+    def __init__(self, config, num_tokentypes=2, pre_process=True, post_process=True):
         super(MultipleChoice, self).__init__(share_embeddings_and_output_weights=False)
         args = get_args()
 
@@ -33,15 +29,19 @@ def __init__(self,
             add_pooler=True,
             encoder_attn_mask_type=AttnMaskType.padding,
             pre_process=self.pre_process,
-            post_process=self.post_process)
+            post_process=self.post_process,
+        )
 
         # Multi-choice head.
         if self.post_process:
             self.multichoice_dropout = torch.nn.Dropout(args.hidden_dropout)
-            self.multichoice_head = get_linear_layer(args.hidden_size, 1,
-                                                     init_method,
-                                                     gather_params_on_init=args.zero_stage == 3)
-            self._multichoice_head_key = 'multichoice_head'
+            self.multichoice_head = get_linear_layer(
+                args.hidden_size,
+                1,
+                init_method,
+                gather_params_on_init=args.zero_stage == 3,
+            )
+            self._multichoice_head_key = "multichoice_head"
 
     def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
@@ -72,7 +72,7 @@ def forward(self, model_input, attention_mask, tokentype_ids=None):
             input_ids,
             position_ids,
             extended_attention_mask,
-            tokentype_ids=tokentype_ids
+            tokentype_ids=tokentype_ids,
         )
         if self.post_process:
             _, pooled_output = lm_output[0], lm_output[1]
@@ -85,29 +85,35 @@ def forward(self, model_input, attention_mask, tokentype_ids=None):
             return multichoice_logits
         return lm_output
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load when model is combined with other heads,
         add an extra key."""
 
         state_dict_ = {}
-        state_dict_[self._language_model_key] \
-            = self.language_model.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                 keep_vars=keep_vars)
+        state_dict_[self._language_model_key] = (
+            self.language_model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
+        )
         if self.post_process:
-            state_dict_[self._multichoice_head_key] \
-                = self.multichoice_head.state_dict(prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._multichoice_head_key] = self.multichoice_head.state_dict(
+                prefix=prefix, keep_vars=keep_vars
+            )
         return state_dict_
 
     def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
 
         self.language_model.load_state_dict(
-            state_dict[self._language_model_key], strict=strict)
+            state_dict[self._language_model_key], strict=strict
+        )
         if self.post_process:
             if self._multichoice_head_key in state_dict:
                 self.multichoice_head.load_state_dict(
-                    state_dict[self._multichoice_head_key], strict=strict)
+                    state_dict[self._multichoice_head_key], strict=strict
+                )
             else:
-                print_rank_last('***WARNING*** could not find {} in the checkpoint, '
-                                'initializing to random'.format(
-                                    self._multichoice_head_key))
+                print_rank_last(
+                    "***WARNING*** could not find {} in the checkpoint, "
+                    "initializing to random".format(self._multichoice_head_key)
+                )
diff --git a/megatron/model/realm_model.py b/megatron/model/realm_model.py
index 62d92b85586..5635f04a888 100644
--- a/megatron/model/realm_model.py
+++ b/megatron/model/realm_model.py
@@ -14,15 +14,19 @@
 from megatron.model.bert_model import bert_extended_attention_mask, bert_position_ids
 from deepspeed.accelerator import get_accelerator
 
+
 def general_ict_model_provider(only_query_model=False, only_block_model=False):
     """Build the model."""
     args = get_args()
-    assert args.ict_head_size is not None, \
-        "Need to specify --ict-head-size to provide an ICTBertModel"
-    assert mpu.get_tensor_model_parallel_world_size() == 1 and mpu.get_pipeline_model_parallel_world_size() == 1, \
-        "Model parallel size > 1 not supported for ICT"
+    assert (
+        args.ict_head_size is not None
+    ), "Need to specify --ict-head-size to provide an ICTBertModel"
+    assert (
+        mpu.get_tensor_model_parallel_world_size() == 1
+        and mpu.get_pipeline_model_parallel_world_size() == 1
+    ), "Model parallel size > 1 not supported for ICT"
 
-    print_rank_0('building ICTBertModel...')
+    print_rank_0("building ICTBertModel...")
 
     # simpler to just keep using 2 tokentypes since the LM we initialize with has 2 tokentypes
     model = ICTBertModel(
@@ -30,24 +34,28 @@ def general_ict_model_provider(only_query_model=False, only_block_model=False):
         num_tokentypes=2,
         parallel_output=True,
         only_query_model=only_query_model,
-        only_block_model=only_block_model)
+        only_block_model=only_block_model,
+    )
 
     return model
 
 
 class ICTBertModel(MegatronModule):
     """Bert-based module for Inverse Cloze task."""
-    def __init__(self,
-                 ict_head_size,
-                 num_tokentypes=1,
-                 parallel_output=True,
-                 only_query_model=False,
-                 only_block_model=False):
+
+    def __init__(
+        self,
+        ict_head_size,
+        num_tokentypes=1,
+        parallel_output=True,
+        only_query_model=False,
+        only_block_model=False,
+    ):
         super(ICTBertModel, self).__init__()
         bert_kwargs = dict(
             ict_head_size=ict_head_size,
             num_tokentypes=num_tokentypes,
-            parallel_output=parallel_output
+            parallel_output=parallel_output,
         )
         assert not (only_block_model and only_query_model)
         self.use_block_model = not only_query_model
@@ -56,14 +64,16 @@ def __init__(self,
         if self.use_query_model:
             # this model embeds (pseudo-)queries - Embed_input in the paper
             self.query_model = IREncoderBertModel(**bert_kwargs)
-            self._query_key = 'question_model'
+            self._query_key = "question_model"
 
         if self.use_block_model:
             # this model embeds evidence blocks - Embed_doc in the paper
             self.block_model = IREncoderBertModel(**bert_kwargs)
-            self._block_key = 'context_model'
+            self._block_key = "context_model"
 
-    def forward(self, query_tokens, query_attention_mask, block_tokens, block_attention_mask):
+    def forward(
+        self, query_tokens, query_attention_mask, block_tokens, block_attention_mask
+    ):
         """Run a forward pass for each of the models and return the respective embeddings."""
         query_logits = self.embed_query(query_tokens, query_attention_mask)
         block_logits = self.embed_block(block_tokens, block_attention_mask)
@@ -73,7 +83,9 @@ def embed_query(self, query_tokens, query_attention_mask):
         """Embed a batch of tokens using the query model"""
         if self.use_query_model:
             query_types = get_accelerator().LongTensor(*query_tokens.shape).fill_(0)
-            query_ict_logits, _ = self.query_model.forward(query_tokens, query_attention_mask, query_types)
+            query_ict_logits, _ = self.query_model.forward(
+                query_tokens, query_attention_mask, query_types
+            )
             return query_ict_logits
         else:
             raise ValueError("Cannot embed query without query model.")
@@ -82,23 +94,29 @@ def embed_block(self, block_tokens, block_attention_mask):
         """Embed a batch of tokens using the block model"""
         if self.use_block_model:
             block_types = get_accelerator().LongTensor(*block_tokens.shape).fill_(0)
-            block_ict_logits, _ = self.block_model.forward(block_tokens, block_attention_mask, block_types)
+            block_ict_logits, _ = self.block_model.forward(
+                block_tokens, block_attention_mask, block_types
+            )
             return block_ict_logits
         else:
             raise ValueError("Cannot embed block without block model.")
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """Save dict with state dicts of each of the models."""
         state_dict_ = {}
         if self.use_query_model:
-            state_dict_[self._query_key] \
-                = self.query_model.state_dict_for_save_checkpoint(
-                    prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._query_key] = (
+                self.query_model.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+            )
 
         if self.use_block_model:
-            state_dict_[self._block_key] \
-                = self.block_model.state_dict_for_save_checkpoint(
-                    prefix=prefix, keep_vars=keep_vars)
+            state_dict_[self._block_key] = (
+                self.block_model.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+            )
 
         return state_dict_
 
@@ -106,13 +124,11 @@ def load_state_dict(self, state_dict, strict=True):
         """Load the state dicts of each of the models"""
         if self.use_query_model:
             print("Loading ICT query model", flush=True)
-            self.query_model.load_state_dict(
-                state_dict[self._query_key], strict=strict)
+            self.query_model.load_state_dict(state_dict[self._query_key], strict=strict)
 
         if self.use_block_model:
             print("Loading ICT block model", flush=True)
-            self.block_model.load_state_dict(
-                state_dict[self._block_key], strict=strict)
+            self.block_model.load_state_dict(state_dict[self._block_key], strict=strict)
 
     def init_state_dict_from_bert(self):
         """Initialize the state from a pretrained BERT model on iteration zero of ICT pretraining"""
@@ -120,32 +136,38 @@ def init_state_dict_from_bert(self):
         tracker_filename = get_checkpoint_tracker_filename(args.bert_load)
         if not os.path.isfile(tracker_filename):
             raise FileNotFoundError("Could not find BERT load for ICT")
-        with open(tracker_filename, 'r') as f:
+        with open(tracker_filename, "r") as f:
             iteration = int(f.read().strip())
             assert iteration > 0
 
         checkpoint_name = get_checkpoint_name(args.bert_load, iteration, False)
         if mpu.get_data_parallel_rank() == 0:
-            print('global rank {} is loading checkpoint {}'.format(
-                torch.distributed.get_rank(), checkpoint_name))
+            print(
+                "global rank {} is loading checkpoint {}".format(
+                    torch.distributed.get_rank(), checkpoint_name
+                )
+            )
 
         try:
-            state_dict = torch.load(checkpoint_name, map_location='cpu')
+            state_dict = torch.load(checkpoint_name, map_location="cpu")
         except BaseException:
             raise ValueError("Could not load checkpoint")
 
         # load the LM state dict into each model
-        model_dict = state_dict['model']['language_model']
+        model_dict = state_dict["model"]["language_model"]
         self.query_model.language_model.load_state_dict(model_dict)
         self.block_model.language_model.load_state_dict(model_dict)
 
         # give each model the same ict_head to begin with as well
-        query_ict_head_state_dict = self.state_dict_for_save_checkpoint()[self._query_key]['ict_head']
+        query_ict_head_state_dict = self.state_dict_for_save_checkpoint()[
+            self._query_key
+        ]["ict_head"]
         self.block_model.ict_head.load_state_dict(query_ict_head_state_dict)
 
 
 class IREncoderBertModel(MegatronModule):
     """BERT-based encoder for queries or blocks used for learned information retrieval."""
+
     def __init__(self, ict_head_size, num_tokentypes=2, parallel_output=True):
         super(IREncoderBertModel, self).__init__()
         args = get_args()
@@ -153,52 +175,61 @@ def __init__(self, ict_head_size, num_tokentypes=2, parallel_output=True):
         self.ict_head_size = ict_head_size
         self.parallel_output = parallel_output
         init_method = init_method_normal(args.init_method_std)
-        scaled_init_method = scaled_init_method_normal(args.init_method_std,
-                                                       args.num_layers)
+        scaled_init_method = scaled_init_method_normal(
+            args.init_method_std, args.num_layers
+        )
 
         self.language_model, self._language_model_key = get_language_model(
             num_tokentypes=num_tokentypes,
             add_pooler=True,
             encoder_attn_mask_type=AttnMaskType.padding,
             init_method=init_method,
-            scaled_init_method=scaled_init_method)
+            scaled_init_method=scaled_init_method,
+        )
 
-        self.ict_head = get_linear_layer(args.hidden_size, ict_head_size, init_method, gather_params_on_init=args.zero_stage == 3)
-        self._ict_head_key = 'ict_head'
+        self.ict_head = get_linear_layer(
+            args.hidden_size,
+            ict_head_size,
+            init_method,
+            gather_params_on_init=args.zero_stage == 3,
+        )
+        self._ict_head_key = "ict_head"
 
     def forward(self, input_ids, attention_mask, tokentype_ids=None):
         extended_attention_mask = bert_extended_attention_mask(
-            attention_mask, next(self.language_model.parameters()).dtype)
+            attention_mask, next(self.language_model.parameters()).dtype
+        )
         position_ids = bert_position_ids(input_ids)
 
         lm_output, pooled_output = self.language_model(
             input_ids,
             position_ids,
             extended_attention_mask,
-            tokentype_ids=tokentype_ids)
+            tokentype_ids=tokentype_ids,
+        )
 
         # Output.
         ict_logits = self.ict_head(pooled_output)
         return ict_logits, None
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load when model is combined with other heads,
         add an extra key."""
 
         state_dict_ = {}
-        state_dict_[self._language_model_key] \
-            = self.language_model.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                 keep_vars=keep_vars)
-        state_dict_[self._ict_head_key] \
-            = self.ict_head.state_dict(prefix=prefix,
-                                       keep_vars=keep_vars)
+        state_dict_[self._language_model_key] = (
+            self.language_model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
+        )
+        state_dict_[self._ict_head_key] = self.ict_head.state_dict(
+            prefix=prefix, keep_vars=keep_vars
+        )
         return state_dict_
 
     def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
         self.language_model.load_state_dict(
-            state_dict[self._language_model_key], strict=strict)
-        self.ict_head.load_state_dict(
-            state_dict[self._ict_head_key], strict=strict)
-
-
+            state_dict[self._language_model_key], strict=strict
+        )
+        self.ict_head.load_state_dict(state_dict[self._ict_head_key], strict=strict)
diff --git a/megatron/model/rmsnorm.py b/megatron/model/rmsnorm.py
index 60e89781710..33ad1d74827 100644
--- a/megatron/model/rmsnorm.py
+++ b/megatron/model/rmsnorm.py
@@ -1,16 +1,32 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
+
+from deepspeed.accelerator import get_accelerator
+from megatron import get_args
+
 import torch
+from torch.nn import init
 from torch.nn.parameter import Parameter
 
+
 # Taken from facebookresearch/llama
 class RMSNorm(torch.nn.Module):
-    def __init__(self, dim: int, eps: float = 1e-6):
+
+    def __init__(self, dim: int, eps: float = 1e-6, sequence_parallel: bool = False):
         super().__init__()
         self.eps = eps
-        self.weight = Parameter(torch.ones(dim))
+        init_device = None
+        if get_accelerator().device_name() == "hpu":
+            init_device = get_accelerator().current_device_name()
+        self.weight = Parameter(
+            torch.empty(dim, device=init_device, dtype=get_args().params_dtype)
+        )
+        init.ones_(self.weight)
+        self.sequence_parallel = sequence_parallel
+        setattr(self.weight, "sequence_parallel", self.sequence_parallel)
 
     def _norm(self, x):
         return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)
 
     def forward(self, x):
         output = self._norm(x.float()).type_as(x)
-        return output * self.weight
\ No newline at end of file
+        return output * self.weight
diff --git a/megatron/model/rotary_pos_embedding.py b/megatron/model/rotary_pos_embedding.py
index 4d4497e0cd9..bc53a49b1ca 100644
--- a/megatron/model/rotary_pos_embedding.py
+++ b/megatron/model/rotary_pos_embedding.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # coding=utf-8
 
 # The following code has been taken from https://github.com/NVIDIA/NeMo/blob/ \
@@ -9,25 +10,32 @@
 
 from torch import einsum, nn
 
-__all__ = ['RotaryEmbedding', 'apply_rotary_pos_emb']
+__all__ = ["RotaryEmbedding", "apply_rotary_pos_emb"]
+
+# sin, cos tensors cached for all devices
+cos_cached = None
+sin_cached = None
+
 
 class RotaryEmbedding(nn.Module):
+
     def __init__(self, dim, theta=10000):
         super().__init__()
         inv_freq = 1.0 / (theta ** (torch.arange(0, dim, 2).float() / dim))
-        self.register_buffer('inv_freq', inv_freq)
-        if importlib.util.find_spec('einops') is None:
+        self.register_buffer("inv_freq", inv_freq)
+        if importlib.util.find_spec("einops") is None:
             raise RuntimeError("einops is required for Rotary Embedding")
 
     def forward(self, max_seq_len, offset=0):
         seq = torch.arange(max_seq_len, device=self.inv_freq.device) + offset
-        freqs = einsum('i , j -> i j', seq.type_as(self.inv_freq), self.inv_freq)
+        freqs = einsum("i , j -> i j", seq.type_as(self.inv_freq), self.inv_freq)
         # first part even vector components, second part odd vector components,
         #  2 * dim in dimension size
         emb = torch.cat((freqs, freqs), dim=-1)
         # emb [seq_length, .., dim]
         from einops import rearrange
-        return rearrange(emb, 'n d -> n 1 1 d')
+
+        return rearrange(emb, "n d -> n 1 1 d")
 
 
 def _rotate_half(x):
@@ -35,7 +43,8 @@ def _rotate_half(x):
     change sign so the last dimension becomes [-odd, +even]
     """
     from einops import rearrange
-    x = rearrange(x, '... (j d) -> ... j d', j=2)
+
+    x = rearrange(x, "... (j d) -> ... j d", j=2)
     x1, x2 = x.unbind(dim=-2)
     return torch.cat((-x2, x1), dim=-1)
 
@@ -47,10 +56,23 @@ def apply_rotary_pos_emb(t, freqs):
     check https://kexue.fm/archives/8265 for detailed formulas
     """
     rot_dim = freqs.shape[-1]
-    # ideally t_pass is empty so rotary pos embedding is applied to all tensor t
-    t, t_pass = t[..., :rot_dim], t[..., rot_dim:]
+    t_pass = None
+    if t.shape[-1] != rot_dim:
+        # ideally t_pass is empty so rotary pos embedding is applied to all tensor t
+        t, t_pass = t[..., :rot_dim], t[..., rot_dim:]
 
+    global cos_cached, sin_cached
+    if cos_cached is None or sin_cached is None or t.shape[0] != cos_cached.shape[0]:
+        freqs_ = freqs[: t.shape[0]]
+        cos_cached = freqs_.cos().to(t.dtype)
+        sin_cached = freqs_.sin().to(t.dtype)
     # first part is cosine component
     # second part is sine component, need to change signs with _rotate_half method
-    t = (t * freqs.cos().to(t.dtype)) + (_rotate_half(t) * freqs.sin().to(t.dtype))
-    return t if t_pass.shape[-1] == 0 else torch.cat((t, t_pass), dim=-1)
+    # try:
+    t = (t * cos_cached) + (_rotate_half(t) * sin_cached)
+    # except Exception:
+    #     import ezpz
+    #     ezpz.breakpoint(0)
+    if t_pass is None:
+        return t
+    return torch.cat((t, t_pass), dim=-1)
diff --git a/megatron/model/t5_model.py b/megatron/model/t5_model.py
index 5a4c2c32c93..85336fee260 100644
--- a/megatron/model/t5_model.py
+++ b/megatron/model/t5_model.py
@@ -9,10 +9,7 @@
 from megatron.model.enums import AttnMaskType
 from megatron.model.language_model import parallel_lm_logits, get_language_model
 from megatron.model import LayerNorm
-from megatron.model.utils import (
-    openai_gelu,
-    get_linear_layer
-)
+from megatron.model.utils import (openai_gelu, get_linear_layer)
 from .module import MegatronModule
 
 
@@ -29,8 +26,7 @@ def attn_mask_postprocess(attn_mask):
 def t5_position_ids(token_ids):
     # Create position ids
     seq_length = token_ids.size(1)
-    position_ids = torch.arange(seq_length, dtype=torch.long,
-                                device=token_ids.device)
+    position_ids = torch.arange(seq_length, dtype=torch.long, device=token_ids.device)
     position_ids = position_ids.unsqueeze(0).expand_as(token_ids)
 
     return position_ids
@@ -54,25 +50,26 @@ def __init__(self, mpu_vocab_size, parallel_output):
         self.parallel_output = parallel_output
 
     def forward(self, hidden_states, word_embeddings_weight):
-        output = parallel_lm_logits(hidden_states,
-                                    word_embeddings_weight,
-                                    self.parallel_output,
-                                    bias=self.bias)
+        output = parallel_lm_logits(
+            hidden_states, word_embeddings_weight, self.parallel_output, bias=self.bias
+        )
         return output
 
 
 class T5Model(MegatronModule):
     """T5 Language model."""
 
-    def __init__(self,
-                 config,
-                 num_tokentypes=0,
-                 parallel_output=True,
-                 pre_process=True,
-                 post_process=True,
-                 add_encoder=True,
-                 add_decoder=True,
-                 return_moe_loss=False):
+    def __init__(
+        self,
+        config,
+        num_tokentypes=0,
+        parallel_output=True,
+        pre_process=True,
+        post_process=True,
+        add_encoder=True,
+        add_decoder=True,
+        return_moe_loss=False,
+    ):
         super().__init__(config=config)
         args = get_args()
 
@@ -93,95 +90,122 @@ def __init__(self,
             encoder_attn_mask_type=AttnMaskType.padding,
             pre_process=self.pre_process,
             post_process=self.post_process,
-            num_experts=args.num_experts,)
+            num_experts=args.num_experts,
+        )
 
         self.initialize_word_embeddings()
 
         if self.post_process and self.add_decoder:
             self.lm_head = T5LMHead(
-                self.shared_embedding_or_output_weight().size(0),
-                parallel_output)
-            self._lm_head_key = 'lm_head'
+                self.shared_embedding_or_output_weight().size(0), parallel_output
+            )
+            self._lm_head_key = "lm_head"
 
     def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
         self.language_model.set_input_tensor(input_tensor)
 
-    def forward(self, encoder_input_ids, decoder_input_ids, encoder_attn_mask,
-                decoder_attn_mask, encoder_decoder_attn_mask,
-                tokentype_ids=None, lm_labels=None, enc_hidden_states=None):
+    def forward(
+        self,
+        encoder_input_ids,
+        decoder_input_ids,
+        encoder_attn_mask,
+        decoder_attn_mask,
+        encoder_decoder_attn_mask,
+        tokentype_ids=None,
+        lm_labels=None,
+        enc_hidden_states=None,
+    ):
 
         # Converting the attention masks to proper parameter settings
-        encoder_attn_mask, decoder_attn_mask, encoder_decoder_attn_mask = t5_extended_attention_mask(
-            [encoder_attn_mask, decoder_attn_mask, encoder_decoder_attn_mask])
+        encoder_attn_mask, decoder_attn_mask, encoder_decoder_attn_mask = (
+            t5_extended_attention_mask(
+                [encoder_attn_mask, decoder_attn_mask, encoder_decoder_attn_mask]
+            )
+        )
 
         encoder_position_ids = t5_position_ids(encoder_input_ids)
         decoder_position_ids = t5_position_ids(decoder_input_ids)
 
-        lm_output = self.language_model(encoder_input_ids,
-                                        encoder_position_ids,
-                                        encoder_attn_mask,
-                                        decoder_input_ids,
-                                        decoder_position_ids,
-                                        decoder_attn_mask,
-                                        encoder_decoder_attn_mask,
-                                        tokentype_ids=tokentype_ids,
-                                        enc_hidden_states=enc_hidden_states)
+        lm_output = self.language_model(
+            encoder_input_ids,
+            encoder_position_ids,
+            encoder_attn_mask,
+            decoder_input_ids,
+            decoder_position_ids,
+            decoder_attn_mask,
+            encoder_decoder_attn_mask,
+            tokentype_ids=tokentype_ids,
+            enc_hidden_states=enc_hidden_states,
+        )
 
         if self.post_process and self.add_decoder:
             decoder_output, encoder_output, dec_moe_losses, enc_moe_losses = lm_output
             # Output. [s, b, h]
-            lm_logits = self.lm_head(decoder_output,
-                                     self.shared_embedding_or_output_weight())
+            lm_logits = self.lm_head(
+                decoder_output, self.shared_embedding_or_output_weight()
+            )
 
             if lm_labels is None:
                 # [s b h] => [b s h]
-                return lm_logits.transpose(0,1).contiguous()
+                return lm_logits.transpose(0, 1).contiguous()
             else:
                 # [b s] => [s b]
-                lm_labels = lm_labels.transpose(0,1).contiguous()
+                lm_labels = lm_labels.transpose(0, 1).contiguous()
                 if self.fp16_lm_cross_entropy:
                     assert lm_logits.dtype == torch.half
-                    lm_loss = tensor_parallel.vocab_parallel_cross_entropy(lm_logits, lm_labels)
+                    lm_loss = tensor_parallel.vocab_parallel_cross_entropy(
+                        lm_logits, lm_labels
+                    )
                 else:
-                    lm_loss = tensor_parallel.vocab_parallel_cross_entropy(lm_logits.float(),
-                                                                                lm_labels)
+                    lm_loss = tensor_parallel.vocab_parallel_cross_entropy(
+                        lm_logits.float(), lm_labels
+                    )
                 # [s b] => [b s]
-                lm_loss = lm_loss.transpose(0,1).contiguous()
-            return lm_loss, dec_moe_losses, enc_moe_losses if self.return_moe_loss else lm_loss
+                lm_loss = lm_loss.transpose(0, 1).contiguous()
+            return (
+                lm_loss,
+                dec_moe_losses,
+                enc_moe_losses if self.return_moe_loss else lm_loss,
+            )
         elif self.add_decoder and not self.add_encoder:
-            decoder_output, _, decoder_moe_losses, _= lm_output
+            decoder_output, _, decoder_moe_losses, _ = lm_output
             return decoder_output, decoder_moe_losses
         return lm_output
 
-    def state_dict_for_save_checkpoint(self, prefix='', keep_vars=False):
+    def state_dict_for_save_checkpoint(self, prefix="", keep_vars=False):
         """For easy load when model is combined with other heads,
         add an extra key."""
 
         state_dict_ = {}
-        state_dict_[self._language_model_key] \
-            = self.language_model.state_dict_for_save_checkpoint(prefix=prefix,
-                                                                 keep_vars=keep_vars)
+        state_dict_[self._language_model_key] = (
+            self.language_model.state_dict_for_save_checkpoint(
+                prefix=prefix, keep_vars=keep_vars
+            )
+        )
         if self.post_process and self.add_decoder:
-            state_dict_[self._lm_head_key] \
-                = self.lm_head.state_dict_for_save_checkpoint(prefix=prefix,
-                                                              keep_vars=keep_vars)
-         # Save word_embeddings.
+            state_dict_[self._lm_head_key] = (
+                self.lm_head.state_dict_for_save_checkpoint(
+                    prefix=prefix, keep_vars=keep_vars
+                )
+            )
+        # Save word_embeddings.
         if self.post_process and not self.pre_process and self.add_decoder:
-            state_dict_[self._word_embeddings_for_head_key] \
-                = self.word_embeddings.state_dict(prefix=prefix,
-                                                  keep_vars=keep_vars)
+            state_dict_[self._word_embeddings_for_head_key] = (
+                self.word_embeddings.state_dict(prefix=prefix, keep_vars=keep_vars)
+            )
         return state_dict_
 
     def load_state_dict(self, state_dict, strict=True):
         """Customized load."""
 
         self.language_model.load_state_dict(
-            state_dict[self._language_model_key], strict=strict)
+            state_dict[self._language_model_key], strict=strict
+        )
         if self.post_process and self.add_decoder:
-            self.lm_head.load_state_dict(state_dict[self._lm_head_key],
-                                         strict=strict)
+            self.lm_head.load_state_dict(state_dict[self._lm_head_key], strict=strict)
         # Load word embeddings.
         if self.post_process and not self.pre_process and self.add_decoder:
             self.word_embeddings.load_state_dict(
-                state_dict[self._word_embeddings_for_head_key], strict=strict)
+                state_dict[self._word_embeddings_for_head_key], strict=strict
+            )
diff --git a/megatron/model/transformer.py b/megatron/model/transformer.py
index 924f46c6888..592ff2855b3 100644
--- a/megatron/model/transformer.py
+++ b/megatron/model/transformer.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
 
 """Transformer."""
@@ -24,6 +25,7 @@
 
 try:
     from deepspeed.sequence.layer import DistributedAttention
+
     dist_attn_supported = True
 except ImportError:
     dist_attn_supported = False
@@ -36,9 +38,12 @@
 try:
     # FlashAttention (1.x)
     from flash_attn.flash_attn_interface import flash_attn_unpadded_func
-    from flash_attn.flash_attn_triton import flash_attn_func
 except ImportError:
     flash_attn_unpadded_func = None
+
+try:
+    from flash_attn.flash_attn_triton import flash_attn_func
+except ImportError:
     flash_attn_func = None
 
 try:
@@ -66,28 +71,31 @@
         hyperparameters: transformer hyperparameters
 """
 
+
 class DropPath(MegatronModule):
     """Drop paths (Stochastic Depth) per sample
     (when applied in main path of residual blocks).
     """
 
-    def __init__(self, drop_prob=0.):
+    def __init__(self, drop_prob=0.0):
         super(DropPath, self).__init__()
         self.drop_prob = drop_prob
 
     def forward(self, hidden_state):
-        if self.drop_prob == 0. or not self.training:
+        if self.drop_prob == 0.0 or not self.training:
             return hidden_state
         keep_prob = 1 - self.drop_prob
         # work with diff dim tensors, not just 2D ConvNets
         # hidden_state: [s, b, h]
         shape = (1,) + (hidden_state.shape[1],) + (1,) * (hidden_state.ndim - 2)
-        random_tensor = keep_prob + \
-            torch.rand(shape, dtype=hidden_state.dtype, device=hidden_state.device)
+        random_tensor = keep_prob + torch.rand(
+            shape, dtype=hidden_state.dtype, device=hidden_state.device
+        )
         random_tensor.floor_()  # binarize
         output = hidden_state.div(keep_prob) * random_tensor
         return output
 
+
 class ParallelMLP(MegatronModule):
     """MLP.
 
@@ -116,7 +124,7 @@ def __init__(self, config, moe=False, enable_expert_tensor_parallelism=False):
             gather_output=False,
             skip_bias_add=True,
             moe=moe,
-            enable_expert_tensor_parallelism=enable_expert_tensor_parallelism
+            enable_expert_tensor_parallelism=enable_expert_tensor_parallelism,
         )
 
         self.bias_gelu_fusion = False
@@ -128,13 +136,17 @@ def __init__(self, config, moe=False, enable_expert_tensor_parallelism=False):
         elif args.onnx_safe:
             self.activation_func = erf_gelu
         elif args.swiglu:
+
             def swiglu(x):
                 x = torch.chunk(x, 2, dim=-1)
                 return F.silu(x[0]) * x[1]
+
             self.activation_func = swiglu
         elif args.squared_relu:
+
             def squared_relu(x):
                 return torch.pow(F.relu(x), 2)
+
             self.activation_func = squared_relu
         else:
             self.bias_gelu_fusion = args.bias_gelu_fusion
@@ -149,7 +161,7 @@ def squared_relu(x):
             bias=self.add_bias,
             input_is_parallel=True,
             moe=moe,
-            enable_expert_tensor_parallelism=enable_expert_tensor_parallelism
+            enable_expert_tensor_parallelism=enable_expert_tensor_parallelism,
         )
 
     def forward(self, hidden_states):
@@ -171,10 +183,12 @@ def forward(self, hidden_states):
         output, output_bias = self.dense_4h_to_h(intermediate_parallel)
         return output, output_bias
 
+
 class SwitchMLP(MegatronModule):
     """
     Routes input to one of N MLP "experts"
     """
+
     def __init__(self, config):
         super(SwitchMLP, self).__init__()
         args = get_args()
@@ -191,29 +205,29 @@ def forward(self, hidden_states):
         route = self.router(hidden_states)
         route = torch.nn.functional.softmax(route, dim=2)
         max_prob, max_ind = torch.max(route, dim=2)
-        max_prob = torch.unsqueeze(max_prob, 2) # [s b 1]
+        max_prob = torch.unsqueeze(max_prob, 2)  # [s b 1]
 
         # TODO (rprenger) TODO this could be made easier to read
         # Converting [s, b, h] to [s*b, h].
         # Each vector could be routed differently
-        hidden_states = hidden_states.view(-1, hidden_states.size(2)) # [s*b h]
-        max_prob = max_prob.view(-1, max_prob.size(2)) # [s*b 1]
-        max_ind = max_ind.view(-1) # [s*b]
+        hidden_states = hidden_states.view(-1, hidden_states.size(2))  # [s*b h]
+        max_prob = max_prob.view(-1, max_prob.size(2))  # [s*b 1]
+        max_ind = max_ind.view(-1)  # [s*b]
 
         output_total = torch.empty_like(hidden_states)
         output_bias_total = torch.empty_like(hidden_states)
-        #TODO (rprenger) This does each expert in serial, but it could be parallelized
+        # TODO (rprenger) This does each expert in serial, but it could be parallelized
 
         for expert_num, expert in enumerate(self.experts):
             local_indices = (max_ind == expert_num).nonzero()
-            hidden = hidden_states[local_indices,:]
+            hidden = hidden_states[local_indices, :]
             output, output_bias = expert(hidden)
             output_bias = output_bias.expand_as(output)
-            output_total[local_indices,:] = output
-            output_bias_total[local_indices,:] = output_bias
+            output_total[local_indices, :] = output
+            output_bias_total[local_indices, :] = output_bias
 
-        output_total = output_total*max_prob
-        output_bias_total = output_bias_total*max_prob
+        output_total = output_total * max_prob
+        output_bias_total = output_bias_total * max_prob
         output_total = output_total.view(s, b, h)
         output_bias_total = output_bias_total.view(s, b, h)
 
@@ -222,8 +236,7 @@ def forward(self, hidden_states):
 
 class CoreAttention(MegatronModule):
 
-    def __init__(self, layer_number, config,
-                 attn_mask_type=AttnMaskType.padding):
+    def __init__(self, layer_number, config, attn_mask_type=AttnMaskType.padding):
         super(CoreAttention, self).__init__()
         self.fp16 = config.fp16
         self.bf16 = config.bf16
@@ -242,14 +255,19 @@ def __init__(self, layer_number, config,
         seq_parallel_world_size = 1
         if parallel_state.sequence_parallel_is_initialized():
             seq_parallel_world_size = parallel_state.get_sequence_parallel_world_size()
-        world_size = seq_parallel_world_size if seq_parallel_world_size > 1 else parallel_state.get_tensor_model_parallel_world_size()
+        world_size = (
+            seq_parallel_world_size
+            if seq_parallel_world_size > 1
+            else parallel_state.get_tensor_model_parallel_world_size()
+        )
 
-        self.hidden_size_per_partition = core.utils.divide(projection_size,
-                                                           world_size)
+        self.hidden_size_per_partition = core.utils.divide(projection_size, world_size)
         self.hidden_size_per_attention_head = core.utils.divide(
-            projection_size, config.num_attention_heads)
+            projection_size, config.num_attention_heads
+        )
         self.num_attention_heads_per_partition = core.utils.divide(
-            config.num_attention_heads, world_size)
+            config.num_attention_heads, world_size
+        )
 
         coeff = None
         self.norm_factor = math.sqrt(self.hidden_size_per_attention_head)
@@ -258,49 +276,56 @@ def __init__(self, layer_number, config,
             self.norm_factor *= coeff
 
         self.scale_mask_softmax = FusedScaleMaskSoftmax(
-            self.fp16, self.bf16,
+            self.fp16,
+            self.bf16,
             self.attn_mask_type,
             config.masked_softmax_fusion,
             attention_mask_func,
             self.attention_softmax_in_fp32,
-            coeff)
+            coeff,
+        )
 
         # Dropout. Note that for a single iteration, this layer will generate
         # different outputs on different number of parallel partitions but
         # on average it should not be partition dependent.
         self.attention_dropout = torch.nn.Dropout(config.attention_dropout)
 
-    def forward(self, query_layer, key_layer,
-                value_layer, attention_mask):
+    def forward(self, query_layer, key_layer, value_layer, attention_mask):
 
         # ===================================
         # Raw attention scores. [b, np, s, s]
         # ===================================
 
         # [b, np, sq, sk]
-        output_size = (query_layer.size(1),
-                       query_layer.size(2),
-                       query_layer.size(0),
-                       key_layer.size(0))
+        output_size = (
+            query_layer.size(1),
+            query_layer.size(2),
+            query_layer.size(0),
+            key_layer.size(0),
+        )
 
         # [sq, b, np, hn] -> [sq, b * np, hn]
-        query_layer = query_layer.view(output_size[2],
-                                       output_size[0] * output_size[1], -1)
+        query_layer = query_layer.view(
+            output_size[2], output_size[0] * output_size[1], -1
+        )
         # [sk, b, np, hn] -> [sk, b * np, hn]
-        key_layer = key_layer.view(output_size[3],
-                                   output_size[0] * output_size[1], -1)
+        key_layer = key_layer.view(output_size[3], output_size[0] * output_size[1], -1)
 
         # preallocting input tensor: [b * np, sq, sk]
         matmul_input_buffer = parallel_state.get_global_memory_buffer().get_tensor(
-            (output_size[0]*output_size[1], output_size[2], output_size[3]),
-            query_layer.dtype, "mpu")
+            (output_size[0] * output_size[1], output_size[2], output_size[3]),
+            query_layer.dtype,
+            "mpu",
+        )
 
         # Raw attention scores. [b * np, sq, sk]
         matmul_result = torch.baddbmm(
             matmul_input_buffer,
-            query_layer.transpose(0, 1),   # [b * np, sq, hn]
+            query_layer.transpose(0, 1),  # [b * np, sq, hn]
             key_layer.transpose(0, 1).transpose(1, 2),  # [b * np, hn, sk]
-            beta=0.0, alpha=(1.0/self.norm_factor))
+            beta=0.0,
+            alpha=(1.0 / self.norm_factor),
+        )
 
         # change view to [b, np, sq, sk]
         attention_scores = matmul_result.view(*output_size)
@@ -310,8 +335,7 @@ def forward(self, query_layer, key_layer,
         # ===========================
 
         # attention scores and attention mask [b, np, sq, sk]
-        attention_probs = self.scale_mask_softmax(attention_scores,
-                                                  attention_mask)
+        attention_probs = self.scale_mask_softmax(attention_scores, attention_mask)
 
         # This is actually dropping out entire tokens to attend to, which might
         # seem a bit unusual, but is taken from the original Transformer paper.
@@ -329,18 +353,22 @@ def forward(self, query_layer, key_layer,
         # [sk, b, np, hn] --> [b, np, sq, hn]
 
         # context layer shape: [b, np, sq, hn]
-        output_size = (value_layer.size(1),
-                       value_layer.size(2),
-                       query_layer.size(0),
-                       value_layer.size(3))
+        output_size = (
+            value_layer.size(1),
+            value_layer.size(2),
+            query_layer.size(0),
+            value_layer.size(3),
+        )
 
         # change view [sk, b * np, hn]
-        value_layer = value_layer.view(value_layer.size(0),
-                                       output_size[0] * output_size[1], -1)
+        value_layer = value_layer.view(
+            value_layer.size(0), output_size[0] * output_size[1], -1
+        )
 
         # change view [b * np, sq, sk]
-        attention_probs = attention_probs.view(output_size[0] * output_size[1],
-                                               output_size[2], -1)
+        attention_probs = attention_probs.view(
+            output_size[0] * output_size[1], output_size[2], -1
+        )
 
         # matmul: [b * np, sq, hn]
         context_layer = torch.bmm(attention_probs, value_layer.transpose(0, 1))
@@ -352,8 +380,9 @@ def forward(self, query_layer, key_layer,
         context_layer = context_layer.permute(2, 0, 1, 3).contiguous()
 
         # [sq, b, np, hn] --> [sq, b, hp]
-        new_context_layer_shape = context_layer.size()[:-2] + \
-            (self.hidden_size_per_partition,)
+        new_context_layer_shape = context_layer.size()[:-2] + (
+            self.hidden_size_per_partition,
+        )
         context_layer = context_layer.view(*new_context_layer_shape)
 
         return context_layer
@@ -369,19 +398,47 @@ class FlashSelfAttention(torch.nn.Module):
         attention_dropout: The dropout rate to apply to the attention
                            (default: 0.0)
     """
-    def __init__(self, causal=False, softmax_scale=None, attention_dropout=0.0,
-                 device=None, dtype=None):
+
+    def __init__(
+        self,
+        causal=False,
+        softmax_scale=None,
+        attention_dropout=0.0,
+        device=None,
+        dtype=None,
+    ):
         super().__init__()
-        assert flash_attn_unpadded_func is not None or flash_attn_varlen_func is not None or flash_attn_builder is not None, \
-            ('Please install FlashAttention first, e.g., with pip install flash-attn or implement your own flash attention')
-        assert rearrange is not None, 'Please install einops first, e.g., with pip install einops'
+        assert (
+            flash_attn_unpadded_func is not None
+            or flash_attn_varlen_func is not None
+            or flash_attn_builder is not None
+        ), "Please install FlashAttention first, e.g., with pip install flash-attn or implement your own flash attention"
+        assert (
+            rearrange is not None
+        ), "Please install einops first, e.g., with pip install einops"
         self.causal = causal
         self.softmax_scale = softmax_scale
         self.dropout_p = attention_dropout
 
         # Use FlashAttention-2 when args.use_flash_attn_v2 is True
         args = get_args()
-        self.flash_attn_func = flash_attn_varlen_func if args.use_flash_attn_v2 else flash_attn_unpadded_func
+        self.use_flash_attn_builder_v1 = False
+        self.use_flash_attn_builder_v2 = False
+        self.use_flash_attn = False
+        if args.use_flash_attn_builder:
+            if hasattr(flash_attn_builder, "flash_attn_func"):
+                self.flash_attn_func = flash_attn_builder.flash_attn_func
+                self.use_flash_attn_builder_v1 = True
+            else:
+                self.flash_attn_func = flash_attn_builder.flash_attn_func_v2
+                self.use_flash_attn_builder_v2 = True
+        else:
+            self.flash_attn_func = (
+                flash_attn_varlen_func
+                if args.use_flash_attn_v2
+                else flash_attn_unpadded_func
+            )
+            self.use_flash_attn = True
 
     def forward(self, q, k, v):
         """Implements the multihead softmax attention.
@@ -390,52 +447,85 @@ def forward(self, q, k, v):
             q, k, v: The tensor containing the query, key, and value. (B, S, H, D)
         """
 
-        assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q,k,v)))
+        assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v)))
         assert all((get_accelerator().on_accelerator(i) for i in (q, k, v)))
-        # if get_accelerator().device_name() == 'cuda':
-        #     assert all((i.is_cuda for i in (q,k,v)))
-        # else:
-        #     assert all((i.is_xpu for i in (q,k,v)))
 
         batch_size, seqlen_q = q.shape[0], q.shape[1]
         seqlen_k = k.shape[1]
 
-        if get_accelerator().device_name() == 'cuda':
-            # goes for cuda device
-            q, k, v = [rearrange(x, 'b s ... -> (b s) ...') for x in [q, k, v]]
-            cu_seqlens_q = torch.arange(0, (batch_size + 1) * seqlen_q, step=seqlen_q, dtype=torch.int32,
-                                        device=q.device)
+        if self.use_flash_attn:
+            q, k, v = [rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v]]
+            cu_seqlens_q = torch.arange(
+                0,
+                (batch_size + 1) * seqlen_q,
+                step=seqlen_q,
+                dtype=torch.int32,
+                device=q.device,
+            )
+        elif self.use_flash_attn_builder_v1:
+            q, k, v = [
+                rearrange(x, "b s h d -> b h s d").contiguous() for x in [q, k, v]
+            ]
         else:
-            # goes for other device
-            q, k, v = [rearrange(x, 'b s h d -> b h s d').contiguous() for x in [q, k, v]]
+            # use_flash_attn_builder_v2
+            q, k, v = [rearrange(x, "b s h d -> b h s d") for x in [q, k, v]]
 
         if self.training:
             # during training q,k,v always have same seqlen
             assert seqlen_k == seqlen_q
 
             is_causal = self.causal
-            cu_seqlens_k = cu_seqlens_q if get_accelerator().device_name() == 'cuda' else None
+            cu_seqlens_k = (
+                cu_seqlens_q if get_accelerator().device_name() == "cuda" else None
+            )
             dropout_p = self.dropout_p
         else:
             # turn off FA causal mask after first inference autoregressive iteration
             # only on first autoregressive step q,k,v have same seqlen
             is_causal = seqlen_q == seqlen_k
-            cu_seqlens_k = torch.arange(0, (batch_size + 1) * seqlen_k, step=seqlen_k, dtype=torch.int32,
-                        device=q.device) if get_accelerator().device_name() == 'cuda' else None
+            cu_seqlens_k = (
+                torch.arange(
+                    0,
+                    (batch_size + 1) * seqlen_k,
+                    step=seqlen_k,
+                    dtype=torch.int32,
+                    device=q.device,
+                )
+                if get_accelerator().device_name() == "cuda"
+                else None
+            )
             dropout_p = 0
 
-        output = self.flash_attn_func(
-            q, k, v, cu_seqlens_q, cu_seqlens_k, seqlen_q, seqlen_k,
-            dropout_p,
-            softmax_scale=self.softmax_scale, causal=is_causal
-        ) if get_accelerator().device_name() == 'cuda' else flash_attn_builder.flash_attn_func(
-            q, k, v, self.dropout_p, self.softmax_scale, is_causal
-        )
+        if self.use_flash_attn:
+            output = self.flash_attn_func(
+                q,
+                k,
+                v,
+                cu_seqlens_q,
+                cu_seqlens_k,
+                seqlen_q,
+                seqlen_k,
+                dropout_p,
+                softmax_scale=self.softmax_scale,
+                causal=is_causal,
+            )
+        else:
+            # use_flash_attn_builder
+            output = self.flash_attn_func(
+                q, k, v, self.dropout_p, self.softmax_scale, is_causal
+            )
+
+        if self.use_flash_attn:
+            output = rearrange(output, "(b s) ... -> b s ...", b=batch_size)
+        elif self.use_flash_attn_builder_v1:
+            output = rearrange(output, "b h s d -> b s h d").contiguous()
+        else:
+            # use_flash_attn_builder_v2:
+            output = rearrange(output, "b h s d -> b s h d")
 
-        output = rearrange(output, '(b s) ... -> b s ...', b=batch_size) if get_accelerator().device_name() == 'cuda' else rearrange(
-            output, 'b h s d -> b s h d').contiguous()
         return output
 
+
 class FlashSelfAttentionTriton(torch.nn.Module):
     """Implement the scaled dot product attention with softmax.
     Arguments
@@ -446,11 +536,22 @@ class FlashSelfAttentionTriton(torch.nn.Module):
         attention_dropout: The dropout rate to apply to the attention
                            (default: 0.0)
     """
-    def __init__(self, causal=False, softmax_scale=None, attention_dropout=0.0,
-                 device=None, dtype=None):
+
+    def __init__(
+        self,
+        causal=False,
+        softmax_scale=None,
+        attention_dropout=0.0,
+        device=None,
+        dtype=None,
+    ):
         super().__init__()
-        assert flash_attn_func is not None, ('Triton version of FlashAttention is not installed.')
-        assert rearrange is not None, 'Please install einops first, e.g., with pip install einops'
+        assert (
+            flash_attn_func is not None
+        ), "Triton version of FlashAttention is not installed."
+        assert (
+            rearrange is not None
+        ), "Please install einops first, e.g., with pip install einops"
         self.causal = causal
         self.softmax_scale = softmax_scale
         self.dropout_p = attention_dropout
@@ -464,13 +565,13 @@ def forward(self, q, k, v):
 
         assert q.dtype in [torch.float16, torch.bfloat16]
         assert q.is_cuda
-        q, k, v = [rearrange(x, 's b ... -> b s ...').contiguous()
-                       for x in (q, k, v)]
-        
+        q, k, v = [rearrange(x, "s b ... -> b s ...").contiguous() for x in (q, k, v)]
+
         output = flash_attn_func(q, k, v, None, self.causal)
-        output = rearrange(output, 'b s h d -> s b (h d)').contiguous()
+        output = rearrange(output, "b s h d -> s b (h d)").contiguous()
         return output
 
+
 class ParallelAttention(MegatronModule):
     """Parallel self-attention layer abstract class.
 
@@ -478,9 +579,13 @@ class ParallelAttention(MegatronModule):
     and returns output of the same size.
     """
 
-    def __init__(self, config, layer_number,
-                 attention_type=AttnType.self_attn,
-                 attn_mask_type=AttnMaskType.padding):
+    def __init__(
+        self,
+        config,
+        layer_number,
+        attention_type=AttnType.self_attn,
+        attn_mask_type=AttnMaskType.padding,
+    ):
         super(ParallelAttention, self).__init__()
         args = get_args()
         self.layer_number = max(1, layer_number)
@@ -490,11 +595,18 @@ def __init__(self, config, layer_number,
         self.sequence_parallel = config.sequence_parallel
         self.num_attention_heads = config.num_attention_heads
         self.num_key_value_heads = config.num_key_value_heads
-        self.use_gqa = (self.num_attention_heads != self.num_key_value_heads)
-
-        self.use_flash_attn = (args.use_flash_attn_v1 or args.use_flash_attn_triton or args.use_flash_attn_v2) \
-            and attention_type == AttnType.self_attn \
+        self.use_gqa = self.num_attention_heads != self.num_key_value_heads
+
+        self.use_flash_attn = (
+            (
+                args.use_flash_attn_v1
+                or args.use_flash_attn_triton
+                or args.use_flash_attn_v2
+                or args.use_flash_attn_builder
+            )
+            and attention_type == AttnType.self_attn
             and self.attn_mask_type == AttnMaskType.causal
+        )
         self.use_flash_attn_triton = args.use_flash_attn_triton
         if self.use_flash_attn:
             global flash_attn_builder
@@ -504,37 +616,53 @@ def __init__(self, config, layer_number,
                 flash_attn_builder = None
 
             if args.use_flash_attn_v1:
-                assert flash_attn_unpadded_func != None or flash_attn_builder != None, ("Cannot import FlashAttention v1 "
-                                                                                        "and Cannot find FlashAttention Builder")
+                assert (
+                    flash_attn_unpadded_func != None
+                ), "Cannot import FlashAttention v1 "
             if args.use_flash_attn_v2:
-                assert flash_attn_varlen_func != None, "Cannot import FlashAttention v2 "
+                assert (
+                    flash_attn_varlen_func != None
+                ), "Cannot import FlashAttention v2 "
             if args.use_flash_attn_triton:
                 assert flash_attn_func != None, "Cannot import FlashAttention triton "
+            if args.use_flash_attn_builder:
+                assert (
+                    flash_attn_builder != None
+                ), "Cannot find FlashAttention op builder "
 
-            assert attention_type == AttnType.self_attn, ('FlashAttention code path only supports '
-                                                          'self-attention for now')
-            assert self.attn_mask_type == AttnMaskType.causal, ('FlashAttention code path only '
-                                                                'supports causal mask for now')
+            assert attention_type == AttnType.self_attn, (
+                "FlashAttention code path only supports " "self-attention for now"
+            )
+            assert self.attn_mask_type == AttnMaskType.causal, (
+                "FlashAttention code path only " "supports causal mask for now"
+            )
             if rearrange is None:
-                raise ImportError('einops is not installed, please install with pip install einops')
+                raise ImportError(
+                    "einops is not installed, please install with pip install einops"
+                )
 
         projection_size = config.kv_channels * config.num_attention_heads
 
         # Per attention head and per partition values.
         world_size = parallel_state.get_tensor_model_parallel_world_size()
         self.hidden_size_per_attention_head = core.utils.divide(
-            projection_size, config.num_attention_heads)
+            projection_size, config.num_attention_heads
+        )
         self.num_attention_heads_per_partition = core.utils.divide(
-            config.num_attention_heads, world_size)
+            config.num_attention_heads, world_size
+        )
 
         # Per GQA head and per partition values
         self.num_key_value_heads_per_partition = core.utils.divide(
-            config.num_key_value_heads, world_size)
+            config.num_key_value_heads, world_size
+        )
         self.num_key_value_groups = core.utils.divide(
-            config.num_attention_heads, config.num_key_value_heads)
+            config.num_attention_heads, config.num_key_value_heads
+        )
         kv_projection_size = config.kv_channels * config.num_key_value_heads
         assert self.hidden_size_per_attention_head == core.utils.divide(
-            kv_projection_size, config.num_key_value_heads)
+            kv_projection_size, config.num_key_value_heads
+        )
 
         # Strided linear layer.
         if attention_type == AttnType.self_attn:
@@ -544,7 +672,8 @@ def __init__(self, config, layer_number,
                 config=config,
                 init_method=config.init_method,
                 bias=args.add_bias_linear,
-                gather_output=False)
+                gather_output=False,
+            )
         else:
             assert attention_type == AttnType.cross_attn
             self.query = tensor_parallel.ColumnParallelLinear(
@@ -553,8 +682,8 @@ def __init__(self, config, layer_number,
                 config=config,
                 init_method=config.init_method,
                 bias=config.add_bias_linear,
-                gather_output=False)
-
+                gather_output=False,
+            )
 
             self.key_value = tensor_parallel.ColumnParallelLinear(
                 config.hidden_size,
@@ -562,28 +691,48 @@ def __init__(self, config, layer_number,
                 config=config,
                 init_method=config.init_method,
                 bias=config.add_bias_linear,
-                gather_output=False)
+                gather_output=False,
+            )
 
         # Currently FlashAttention only works with causal mask
         if self.use_flash_attn_triton:
-            local_attn = FlashSelfAttentionTriton(causal=True, attention_dropout=args.attention_dropout)
+            local_attn = FlashSelfAttentionTriton(
+                causal=True, attention_dropout=args.attention_dropout
+            )
         elif self.use_flash_attn:
-            local_attn = FlashSelfAttention(causal=True, attention_dropout=config.attention_dropout)
+            local_attn = FlashSelfAttention(
+                causal=True, attention_dropout=config.attention_dropout
+            )
         else:
             local_attn = CoreAttention(self.layer_number, config, self.attn_mask_type)
 
-        self.enable_ds_sequence_parallel = parallel_state.get_sequence_parallel_world_size() > 1 \
-                                           or args.force_ds_sequence_parallel
+        self.enable_ds_sequence_parallel = (
+            parallel_state.get_sequence_parallel_world_size() > 1
+            or args.force_ds_sequence_parallel
+        )
         if self.enable_ds_sequence_parallel:
-            assert dist_attn_supported, 'Distributed attention is not supported in this DeepSpeed version'
-            assert args.num_attention_heads % parallel_state.get_sequence_parallel_world_size() == 0
-            self.dist_attn = DistributedAttention(local_attn, parallel_state.get_sequence_parallel_group())
+            assert (
+                dist_attn_supported
+            ), "Distributed attention is not supported in this DeepSpeed version"
+            assert (
+                args.num_attention_heads
+                % parallel_state.get_sequence_parallel_world_size()
+                == 0
+            )
+            self.dist_attn = DistributedAttention(
+                local_attn,
+                parallel_state.get_sequence_parallel_group(),
+                gather_idx=1 if args.use_flash_attn_v1 or args.use_flash_attn_v2 else 0,
+            )
+            # flash_attn_cuda assumes [b, s, nh, hd] layout, we need to make sure all2all gathers into the correct sequence dimension.
         else:
             if self.use_flash_attn:
                 self.core_attention_flash = local_attn
             else:
                 self.core_attention = local_attn
-                self.checkpoint_core_attention = config.recompute_granularity == 'selective'
+                self.checkpoint_core_attention = (
+                    config.recompute_granularity == "selective"
+                )
 
         # Output.
         self.dense = tensor_parallel.RowParallelLinear(
@@ -593,29 +742,38 @@ def __init__(self, config, layer_number,
             init_method=config.output_layer_init_method,
             bias=args.add_bias_linear,
             input_is_parallel=True,
-            skip_bias_add=True)
-
+            skip_bias_add=True,
+        )
 
-    def _checkpointed_attention_forward(self, query_layer, key_layer,
-                                        value_layer, attention_mask,
-                                        rotary_pos_emb=None):
+    def _checkpointed_attention_forward(
+        self, query_layer, key_layer, value_layer, attention_mask, rotary_pos_emb=None
+    ):
         """Forward method with activation checkpointing."""
+
         def custom_forward(*inputs):
             query_layer = inputs[0]
             key_layer = inputs[1]
             value_layer = inputs[2]
             attention_mask = inputs[3]
-            output_ = self.core_attention(query_layer, key_layer,
-                                          value_layer, attention_mask)
+            output_ = self.core_attention(
+                query_layer, key_layer, value_layer, attention_mask
+            )
             return output_
 
-        q_pos_emb, k_pos_emb = (None, None) if rotary_pos_emb is None \
-            else rotary_pos_emb
+        q_pos_emb, k_pos_emb = (
+            (None, None) if rotary_pos_emb is None else rotary_pos_emb
+        )
 
         hidden_states = tensor_parallel.checkpoint(
             custom_forward,
-            False, query_layer, key_layer, value_layer, attention_mask,
-            q_pos_emb, k_pos_emb)
+            False,
+            query_layer,
+            key_layer,
+            value_layer,
+            attention_mask,
+            q_pos_emb,
+            k_pos_emb,
+        )
 
         return hidden_states
 
@@ -626,28 +784,49 @@ def _allocate_memory(self, inference_max_sequence_len, batch_size):
             self.num_attention_heads_per_partition,
             self.hidden_size_per_attention_head,
             dtype=self.params_dtype,
-            device=get_accelerator().current_device_name())
+            device=get_accelerator().current_device_name(),
+        )
 
     def repeat_kv(self, hidden_states, n_rep):
         slen, batch, num_key_value_heads_per_partition, head_dim = hidden_states.shape
         if n_rep == 1:
             return hidden_states
-        hidden_states = hidden_states[:, :, :, None, :].expand(
-            slen, batch, num_key_value_heads_per_partition, n_rep, head_dim)
-        return hidden_states.reshape(slen, batch,
-                                     num_key_value_heads_per_partition * n_rep,
-                                     head_dim)
-                                     
+        elif num_key_value_heads_per_partition == 1:
+            # If no of KV heads is 1 then just perform expand operation
+            # instead of unsqueeze, expand and reshape to match query states.
+            return hidden_states.expand(slen, batch, n_rep, head_dim)
+        else:
+            hidden_states = hidden_states[:, :, :, None, :].expand(
+                slen, batch, num_key_value_heads_per_partition, n_rep, head_dim
+            )
+            return hidden_states.reshape(
+                slen, batch, num_key_value_heads_per_partition * n_rep, head_dim
+            )
+
     def split_tensor(self, mixed_x_layer):
-        query_layer = mixed_x_layer[:, :, :, :-2, :].reshape(mixed_x_layer.shape[:2] + (-1, self.hidden_size_per_attention_head))
-        key_layer = mixed_x_layer[:, :, :, -2, :]
-        value_layer = mixed_x_layer[:, :, :, -1, :]
+        query_layer, key_layer, value_layer = torch.split(
+            mixed_x_layer, [self.num_key_value_groups, 1, 1], dim=-2
+        )
+        query_layer = query_layer.reshape(
+            mixed_x_layer.shape[:2]
+            + (
+                self.num_attention_heads_per_partition,
+                self.hidden_size_per_attention_head,
+            )
+        )
+        key_layer = torch.squeeze(key_layer, -2)
+        value_layer = torch.squeeze(value_layer, -2)
 
         return query_layer, key_layer, value_layer
 
-    def forward(self, hidden_states, attention_mask,
-                encoder_output=None, inference_params=None,
-                rotary_pos_emb=None):
+    def forward(
+        self,
+        hidden_states,
+        attention_mask,
+        encoder_output=None,
+        inference_params=None,
+        rotary_pos_emb=None,
+    ):
         # hidden_states: [sq, b, h]
 
         # =================================================
@@ -659,15 +838,20 @@ def forward(self, hidden_states, attention_mask,
                 inf_max_seq_len = inference_params.max_sequence_len
                 inf_max_batch_size = inference_params.max_batch_size
                 inference_key_memory = self._allocate_memory(
-                    inf_max_seq_len, inf_max_batch_size)
+                    inf_max_seq_len, inf_max_batch_size
+                )
                 inference_value_memory = self._allocate_memory(
-                    inf_max_seq_len, inf_max_batch_size)
+                    inf_max_seq_len, inf_max_batch_size
+                )
                 inference_params.key_value_memory_dict[self.layer_number] = (
-                    inference_key_memory, inference_value_memory)
+                    inference_key_memory,
+                    inference_value_memory,
+                )
                 is_first_step = True
             else:
-                inference_key_memory, inference_value_memory = \
+                inference_key_memory, inference_value_memory = (
                     inference_params.key_value_memory_dict[self.layer_number]
+                )
 
         # =====================
         # Query, Key, and Value
@@ -678,43 +862,45 @@ def forward(self, hidden_states, attention_mask,
             mixed_x_layer, _ = self.query_key_value(hidden_states)
 
             # [sq, b, ((nq + 2 * nkv) * hn)] --> [sq, b, nkv, (nq // nkv + 2), hn]
-            new_tensor_shape = mixed_x_layer.size()[:-1] + \
-                (-1, (self.num_key_value_groups + 2),
-                 self.hidden_size_per_attention_head)
+            new_tensor_shape = mixed_x_layer.size()[:-1] + (
+                -1,
+                (self.num_key_value_groups + 2),
+                self.hidden_size_per_attention_head,
+            )
             mixed_x_layer = mixed_x_layer.view(*new_tensor_shape)
 
             # [sq, b, nkv, (nq // nkv + 2), hn] --> 3 [sq, b, np, hn]
-            (query_layer,
-             key_layer,
-             value_layer) = self.split_tensor(mixed_x_layer)
+            (query_layer, key_layer, value_layer) = self.split_tensor(mixed_x_layer)
 
             # Repeat kv
             if self.use_gqa:
                 key_layer = self.repeat_kv(key_layer, self.num_key_value_groups)
-                value_layer = self.repeat_kv(value_layer,
-                                             self.num_key_value_groups)
+                value_layer = self.repeat_kv(value_layer, self.num_key_value_groups)
         else:
-            assert not self.use_gqa, 'GQA + cross-attn not tested yet'
+            assert not self.use_gqa, "GQA + cross-attn not tested yet"
 
             # Attention heads [sk, b, h] --> [sk, b, (np * 2 * hn)]
             mixed_kv_layer, _ = self.key_value(encoder_output)
 
             # [sk, b, (np * 2 * hn)] --> [sk, b, np, 2 * hn]
-            new_tensor_shape = mixed_kv_layer.size()[:-1] + \
-                (self.num_attention_heads_per_partition,
-                 2 * self.hidden_size_per_attention_head)
+            new_tensor_shape = mixed_kv_layer.size()[:-1] + (
+                self.num_attention_heads_per_partition,
+                2 * self.hidden_size_per_attention_head,
+            )
             mixed_kv_layer = mixed_kv_layer.view(*new_tensor_shape)
 
             # [sk, b, np, 2 * hn] --> 2 [sk, b, np, hn]
-            (key_layer,
-             value_layer) = tensor_parallel.split_tensor_along_last_dim(mixed_kv_layer, 2)
+            (key_layer, value_layer) = tensor_parallel.split_tensor_along_last_dim(
+                mixed_kv_layer, 2
+            )
 
             # Attention head [sq, b, h] --> [sq, b, hp]
             query_layer, _ = self.query(hidden_states)
             # [sq, b, hp] --> [sq, b, np, hn]
-            new_tensor_shape = query_layer.size()[:-1] + \
-                (self.num_attention_heads_per_partition,
-                 self.hidden_size_per_attention_head)
+            new_tensor_shape = query_layer.size()[:-1] + (
+                self.num_attention_heads_per_partition,
+                self.hidden_size_per_attention_head,
+            )
             query_layer = query_layer.view(*new_tensor_shape)
 
         # ==================================
@@ -726,7 +912,7 @@ def forward(self, hidden_states, attention_mask,
             if isinstance(rotary_pos_emb, tuple):
                 rotary_pos_emb = rotary_pos_emb
             else:
-                rotary_pos_emb = ((rotary_pos_emb,) * 2)
+                rotary_pos_emb = (rotary_pos_emb,) * 2
 
         if inference_params:
             batch_start = inference_params.batch_size_offset
@@ -736,15 +922,16 @@ def forward(self, hidden_states, attention_mask,
             sequence_end = sequence_start + key_layer.size(0)
             assert sequence_end <= inference_key_memory.size(0)
             # Copy key and values.
-            inference_key_memory[sequence_start:sequence_end,
-                                 batch_start:batch_end, ...] = key_layer
-            inference_value_memory[sequence_start:sequence_end,
-                                   batch_start:batch_end, ...] = value_layer
-            key_layer = inference_key_memory[
-                :sequence_end, batch_start:batch_end, ...]
+            inference_key_memory[
+                sequence_start:sequence_end, batch_start:batch_end, ...
+            ] = key_layer
+            inference_value_memory[
+                sequence_start:sequence_end, batch_start:batch_end, ...
+            ] = value_layer
+            key_layer = inference_key_memory[:sequence_end, batch_start:batch_end, ...]
             value_layer = inference_value_memory[
-                :sequence_end, batch_start:batch_end, ...]
-
+                :sequence_end, batch_start:batch_end, ...
+            ]
 
             # adjust the key rotary positional embedding
             if rotary_pos_emb is not None:
@@ -766,7 +953,6 @@ def forward(self, hidden_states, attention_mask,
                 k_pos_emb = k_pos_emb[:sequence_end, :, :, :]
                 rotary_pos_emb = (q_pos_emb, k_pos_emb)
 
-
         # ==================================
         # core attention computation
         # ==================================
@@ -782,38 +968,58 @@ def forward(self, hidden_states, attention_mask,
             # value_layer = apply_rotary_pos_emb(value_layer, k_pos_emb)
 
         if self.enable_ds_sequence_parallel:
+            batch_dim_idx = 1
             if self.use_flash_attn:
                 if not self.use_flash_attn_triton:
-                    query_layer, key_layer, value_layer = [rearrange(x, 's b ... -> b s ...').contiguous()
-                            for x in (query_layer, key_layer, value_layer)]
-
-                context_layer = self.dist_attn(query_layer, key_layer, value_layer)
+                    query_layer, key_layer, value_layer = [
+                        rearrange(x, "s b ... -> b s ...").contiguous()
+                        for x in (query_layer, key_layer, value_layer)
+                    ]
+                    batch_dim_idx = 0
+
+                context_layer = self.dist_attn(
+                    query_layer, key_layer, value_layer, batch_dim_idx
+                )
 
                 if not self.use_flash_attn_triton:
-                    context_layer = rearrange(context_layer, 'b s h d -> s b (h d)').contiguous()
+                    context_layer = rearrange(
+                        context_layer, "b s h d -> s b (h d)"
+                    ).contiguous()
             else:
-                context_layer = self.dist_attn(query_layer, key_layer, value_layer, attention_mask)
+                context_layer = self.dist_attn(
+                    query_layer, key_layer, value_layer, attention_mask
+                )
         else:
             if self.use_flash_attn:
                 if not self.use_flash_attn_triton:
-                    query_layer, key_layer, value_layer = [rearrange(x, 's b ... -> b s ...').contiguous()
-                            for x in (query_layer, key_layer, value_layer)]
+                    query_layer, key_layer, value_layer = [
+                        rearrange(x, "s b ... -> b s ...").contiguous()
+                        for x in (query_layer, key_layer, value_layer)
+                    ]
 
                 if self.sequence_parallel:
-                    context_layer = self.core_attention_flash(query_layer, key_layer, value_layer)
+                    context_layer = self.core_attention_flash(
+                        query_layer, key_layer, value_layer
+                    )
                 else:
                     with tensor_parallel.get_cuda_rng_tracker().fork():
-                        context_layer = self.core_attention_flash(query_layer, key_layer, value_layer)
+                        context_layer = self.core_attention_flash(
+                            query_layer, key_layer, value_layer
+                        )
 
                 if not self.use_flash_attn_triton:
-                    context_layer = rearrange(context_layer, 'b s h d -> s b (h d)').contiguous()
+                    context_layer = rearrange(
+                        context_layer, "b s h d -> s b (h d)"
+                    ).contiguous()
             else:
                 if self.checkpoint_core_attention:
                     context_layer = self._checkpointed_attention_forward(
-                        query_layer, key_layer, value_layer, attention_mask)
+                        query_layer, key_layer, value_layer, attention_mask
+                    )
                 else:
                     context_layer = self.core_attention(
-                        query_layer, key_layer, value_layer, attention_mask)
+                        query_layer, key_layer, value_layer, attention_mask
+                    )
 
         # =================
         # Output. [sq, b, h]
@@ -836,22 +1042,21 @@ def bias_dropout_add(x, bias, residual, prob, training):
 def get_bias_dropout_add(training):
     def _bias_dropout_add(x, bias, residual, prob):
         return bias_dropout_add(x, bias, residual, prob, training)
+
     return _bias_dropout_add
 
 
 @torch.jit.script
-def bias_dropout_add_fused_train(x: torch.Tensor,
-                                 bias: Optional[torch.Tensor],
-                                 residual: torch.Tensor,
-                                 prob: float) -> torch.Tensor:
+def bias_dropout_add_fused_train(
+    x: torch.Tensor, bias: Optional[torch.Tensor], residual: torch.Tensor, prob: float
+) -> torch.Tensor:
     return bias_dropout_add(x, bias, residual, prob, True)
 
 
 @torch.jit.script
-def bias_dropout_add_fused_inference(x: torch.Tensor,
-                                     bias: Optional[torch.Tensor],
-                                     residual: torch.Tensor,
-                                     prob: float) -> torch.Tensor:
+def bias_dropout_add_fused_inference(
+    x: torch.Tensor, bias: Optional[torch.Tensor], residual: torch.Tensor, prob: float
+) -> torch.Tensor:
     return bias_dropout_add(x, bias, residual, prob, False)
 
 
@@ -862,10 +1067,15 @@ class ParallelTransformerLayer(MegatronModule):
     output of the same size.
     """
 
-    def __init__(self, config,
-                 layer_number, layer_type=LayerType.encoder,
-                 self_attn_mask_type=AttnMaskType.padding,
-                 drop_path_rate=0., num_experts=1):
+    def __init__(
+        self,
+        config,
+        layer_number,
+        layer_type=LayerType.encoder,
+        self_attn_mask_type=AttnMaskType.padding,
+        drop_path_rate=0.0,
+        num_experts=1,
+    ):
         # retriever=None):
         args = get_args()
 
@@ -873,106 +1083,130 @@ def __init__(self, config,
         self.layer_number = layer_number
         self.layer_type = layer_type
 
-        self.apply_residual_connection_post_layernorm \
-            = config.apply_residual_connection_post_layernorm
+        self.apply_residual_connection_post_layernorm = (
+            config.apply_residual_connection_post_layernorm
+        )
 
         self.bf16 = config.bf16
         self.fp32_residual_connection = config.fp32_residual_connection
 
         # Layernorm on the input data.
-        if args.normalization == 'layernorm':
-            if get_accelerator().device_name() == 'cuda':
+        if args.normalization == "layernorm":
+            if get_accelerator().device_name() == "cuda":
                 self.input_layernorm = LayerNorm(
                     config.hidden_size,
                     eps=config.layernorm_epsilon,
                     no_persist_layer_norm=args.no_persist_layer_norm,
                     sequence_parallel=config.sequence_parallel,
                     apply_layernorm_1p=args.apply_layernorm_1p,
-                    mem_efficient_ln=args.mem_efficient_ln)
+                    mem_efficient_ln=args.mem_efficient_ln,
+                )
             else:
                 self.input_layernorm = LayerNorm(
-                    config.hidden_size,
-                    eps=config.layernorm_epsilon)
+                    config.hidden_size, eps=config.layernorm_epsilon
+                )
         else:
-            self.input_layernorm = RMSNorm(config.hidden_size, config.layernorm_epsilon)
+            self.input_layernorm = RMSNorm(
+                config.hidden_size,
+                config.layernorm_epsilon,
+                sequence_parallel=config.sequence_parallel,
+            )
+            # self.input_layernorm = RMSNorm(config.hidden_size, config.layernorm_epsilon_
         # Self attention.
         self.self_attention = ParallelAttention(
             config,
             layer_number,
             attention_type=AttnType.self_attn,
-            attn_mask_type=self_attn_mask_type)
+            attn_mask_type=self_attn_mask_type,
+        )
         self.hidden_dropout = config.hidden_dropout
         self.bias_dropout_fusion = config.bias_dropout_fusion
         self.drop_path = DropPath(drop_path_rate) if drop_path_rate > 0.0 else None
 
         # Layernorm on the attention output
-        if args.normalization == 'layernorm':
-            if get_accelerator().device_name() == 'cuda':
+        if args.normalization == "layernorm":
+            if get_accelerator().device_name() == "cuda":
                 self.post_attention_layernorm = LayerNorm(
                     config.hidden_size,
                     eps=config.layernorm_epsilon,
                     no_persist_layer_norm=not config.persist_layer_norm,
                     sequence_parallel=config.sequence_parallel,
                     apply_layernorm_1p=args.apply_layernorm_1p,
-                    mem_efficient_ln=args.mem_efficient_ln)
+                    mem_efficient_ln=args.mem_efficient_ln,
+                )
             else:
                 self.post_attention_layernorm = LayerNorm(
-                    config.hidden_size,
-                    eps=config.layernorm_epsilon)
+                    config.hidden_size, eps=config.layernorm_epsilon
+                )
         else:
-            self.post_attention_layernorm = RMSNorm(config.hidden_size, config.layernorm_epsilon)
+            self.post_attention_layernorm = RMSNorm(
+                config.hidden_size,
+                config.layernorm_epsilon,
+                sequence_parallel=config.sequence_parallel,
+            )
             # Cross attention.
-        if self.layer_type in (LayerType.decoder,
-                               LayerType.retro_decoder,
-                               LayerType.retro_decoder_with_retriever,
-                               LayerType.retro_encoder):
+        if self.layer_type in (
+            LayerType.decoder,
+            LayerType.retro_decoder,
+            LayerType.retro_decoder_with_retriever,
+            LayerType.retro_encoder,
+        ):
             self.inter_attention = ParallelAttention(
-                config,
-                layer_number,
-                attention_type=AttnType.cross_attn)
+                config, layer_number, attention_type=AttnType.cross_attn
+            )
             # Layernorm on the attention output.
-            if args.normalization == 'layernorm':
+            if args.normalization == "layernorm":
                 self.post_inter_attention_layernorm = LayerNorm(
                     config.hidden_size,
                     eps=config.layernorm_epsilon,
                     no_persist_layer_norm=not config.persist_layer_norm,
                     sequence_parallel=config.sequence_parallel,
                     apply_layernorm_1p=args.apply_layernorm_1p,
-                    mem_efficient_ln=args.mem_efficient_ln)
+                    mem_efficient_ln=args.mem_efficient_ln,
+                )
             else:
-                self.post_inter_attention_layernorm = RMSNorm(config.hidden_size, config.layernorm_epsilon)
+                self.post_inter_attention_layernorm = RMSNorm(
+                    config.hidden_size,
+                    config.layernorm_epsilon,
+                    sequence_parallel=config.sequence_parallel,
+                )
 
         # MLP
         self.num_experts = num_experts
         if args.num_experts_switch is not None:
-            self.mlp = SwitchMLP(config) # Megatron-LM's MoE
+            self.mlp = SwitchMLP(config)  # Megatron-LM's MoE
         else:
-            if self.num_experts <= 1: # dense, not MoE
+            if self.num_experts <= 1:  # dense, not MoE
                 self.mlp = ParallelMLP(config)
-            else: # DeepSpeed's MoE
+            else:  # DeepSpeed's MoE
                 enable_expert_tensor_parallelism = args.enable_expert_tensor_parallelism
-                self.mlp = MoE(args.hidden_size,
-                               ParallelMLP(config,
-                                           moe=True,
-                                           enable_expert_tensor_parallelism=enable_expert_tensor_parallelism),
-                               num_experts=self.num_experts,
-                               ep_size=args.moe_expert_parallel_size,
-                               k=args.topk,
-                               use_residual=(args.mlp_type == 'residual'),
-                               capacity_factor=args.moe_train_capacity_factor,
-                               eval_capacity_factor=args.moe_eval_capacity_factor,
-                               min_capacity=args.moe_min_capacity,
-                               drop_tokens=args.moe_token_dropping,
-                               use_tutel=args.use_tutel,
-                               enable_expert_tensor_parallelism=enable_expert_tensor_parallelism,
-                               top2_2nd_expert_sampling=args.moe_top2_2nd_expert_sampling)
+                self.mlp = MoE(
+                    args.hidden_size,
+                    ParallelMLP(
+                        config,
+                        moe=True,
+                        enable_expert_tensor_parallelism=enable_expert_tensor_parallelism,
+                    ),
+                    num_experts=self.num_experts,
+                    ep_size=args.moe_expert_parallel_size,
+                    k=args.topk,
+                    use_residual=(args.mlp_type == "residual"),
+                    capacity_factor=args.moe_train_capacity_factor,
+                    eval_capacity_factor=args.moe_eval_capacity_factor,
+                    min_capacity=args.moe_min_capacity,
+                    drop_tokens=args.moe_token_dropping,
+                    use_tutel=args.use_tutel,
+                    enable_expert_tensor_parallelism=enable_expert_tensor_parallelism,
+                    top2_2nd_expert_sampling=args.moe_top2_2nd_expert_sampling,
+                )
 
         # Set bias+dropout+add fusion grad_enable execution handler.
-        TORCH_MAJOR = int(torch.__version__.split('.')[0])
-        TORCH_MINOR = int(torch.__version__.split('.')[1])
+        TORCH_MAJOR = int(torch.__version__.split(".")[0])
+        TORCH_MINOR = int(torch.__version__.split(".")[1])
         use_nvfuser = TORCH_MAJOR > 1 or (TORCH_MAJOR == 1 and TORCH_MINOR >= 10)
-        self.bias_dropout_add_exec_handler = \
-                nullcontext if use_nvfuser else torch.enable_grad
+        self.bias_dropout_add_exec_handler = (
+            nullcontext if use_nvfuser else torch.enable_grad
+        )
 
         if args.retro_add_retriever:
             retro_args = get_retro_args()
@@ -990,23 +1224,24 @@ def __init__(self, config,
                 pre_process=True,
                 post_process=False,
             )
-            self._retriever_key = 'retriever'
+            self._retriever_key = "retriever"
         else:
             self.retriever = None
 
-    def default_decoder_cross_attention(self,
-                                        encoder_output,
-                                        enc_dec_attn_mask,
-                                        layernorm_input,
-                                        layernorm_output,
-                                        bias_dropout_add_func):
-        '''Cross attention for a standard encoder-decoder model.'''
+    def default_decoder_cross_attention(
+        self,
+        encoder_output,
+        enc_dec_attn_mask,
+        layernorm_input,
+        layernorm_output,
+        bias_dropout_add_func,
+    ):
+        """Cross attention for a standard encoder-decoder model."""
 
         # Attention.
-        attention_output, attention_bias = \
-            self.inter_attention(layernorm_output,
-                                 enc_dec_attn_mask,
-                                 encoder_output=encoder_output)
+        attention_output, attention_bias = self.inter_attention(
+            layernorm_output, enc_dec_attn_mask, encoder_output=encoder_output
+        )
 
         # Residual connection.
         if self.apply_residual_connection_post_layernorm:
@@ -1020,21 +1255,17 @@ def default_decoder_cross_attention(self,
         # Bias-dropout-add.
         with self.bias_dropout_add_exec_handler():
             layernorm_input = bias_dropout_add_func(
-                attention_output,
-                attention_bias,
-                residual,
-                self.hidden_dropout)
+                attention_output, attention_bias, residual, self.hidden_dropout
+            )
 
         # Layer norm.
         layernorm_output = self.post_inter_attention_layernorm(layernorm_input)
 
         return layernorm_input, layernorm_output
 
-    def retro_encoder_cross_attention(self,
-                                      retriever_output,
-                                      layernorm_input,
-                                      layernorm_output,
-                                      bias_dropout_add_func):
+    def retro_encoder_cross_attention(
+        self, retriever_output, layernorm_input, layernorm_output, bias_dropout_add_func
+    ):
         """Cross attention for Retro encoder.
 
         Notation:
@@ -1046,16 +1277,15 @@ def retro_encoder_cross_attention(self,
             r  : Number of retrieved tokens (neighbors + continuation).
         """
 
-        ns, bs, d = layernorm_output.shape # [r, bs * l * k, d]
+        ns, bs, d = layernorm_output.shape  # [r, bs * l * k, d]
 
         # Divide sequence dimension into chunks.
-        chunked_outputs = layernorm_output.reshape(self.retro_retrieved_length,
-                                                   -1,
-                                                   self.retro_num_neighbors,
-                                                   d)
-        chunked_outputs_before_layer_norm = \
-            layernorm_input.reshape(self.retro_retrieved_length, -1,
-                                    self.retro_num_neighbors, d) # [r, bs*l, k, d]
+        chunked_outputs = layernorm_output.reshape(
+            self.retro_retrieved_length, -1, self.retro_num_neighbors, d
+        )
+        chunked_outputs_before_layer_norm = layernorm_input.reshape(
+            self.retro_retrieved_length, -1, self.retro_num_neighbors, d
+        )  # [r, bs*l, k, d]
 
         # Per-chunk attention.
         layernorm_inputs = []
@@ -1063,51 +1293,55 @@ def retro_encoder_cross_attention(self,
         for k in range(self.retro_num_neighbors):
 
             # Attention.
-            chunked_output = chunked_outputs[:,:,k].contiguous()
-            attention_output, attention_bias = \
-                self.inter_attention(
-                    chunked_output, # Q (neighbor embedding)
-                    None,
-                    encoder_output=retriever_output) # K, V (hidden act)
+            chunked_output = chunked_outputs[:, :, k].contiguous()
+            attention_output, attention_bias = self.inter_attention(
+                chunked_output,  # Q (neighbor embedding)
+                None,
+                encoder_output=retriever_output,
+            )  # K, V (hidden act)
 
             # Residual connection.
             if self.apply_residual_connection_post_layernorm:
                 residual = chunked_output
             else:
-                residual = chunked_outputs_before_layer_norm[:,:,k]
+                residual = chunked_outputs_before_layer_norm[:, :, k]
 
             # Re-enable torch grad to enable fused optimization.
             with torch.enable_grad():
                 layernorm_input = bias_dropout_add_func(
                     attention_output,
-                    None if attention_bias is None else attention_bias.expand_as(residual),
+                    (
+                        None
+                        if attention_bias is None
+                        else attention_bias.expand_as(residual)
+                    ),
                     residual,
-                    self.hidden_dropout)
+                    self.hidden_dropout,
+                )
                 layernorm_inputs.append(layernorm_input)
 
             # Layer norm.
-            layernorm_output = \
-                self.post_inter_attention_layernorm(layernorm_input)
+            layernorm_output = self.post_inter_attention_layernorm(layernorm_input)
             layernorm_outputs.append(layernorm_output)
 
         # Concatenate layer norms.
         # layernorm_input : [r, k * bs * l, d]
         # layernorm_output : [r, k * bs * l, d]
-        layernorm_input = \
-            torch.stack(layernorm_inputs, dim=1).reshape(ns, bs, d)
-        layernorm_output = \
-            torch.stack(layernorm_outputs, dim=1).reshape(ns, bs, d)
+        layernorm_input = torch.stack(layernorm_inputs, dim=1).reshape(ns, bs, d)
+        layernorm_output = torch.stack(layernorm_outputs, dim=1).reshape(ns, bs, d)
 
         return layernorm_input, layernorm_output
 
-    def retro_decoder_cross_attention(self,
-                                      retriever_input,
-                                      retriever_output,
-                                      retriever_attn_mask,
-                                      layernorm_input,
-                                      layernorm_output,
-                                      inference_params,
-                                      bias_dropout_add_func):
+    def retro_decoder_cross_attention(
+        self,
+        retriever_input,
+        retriever_output,
+        retriever_attn_mask,
+        layernorm_input,
+        layernorm_output,
+        inference_params,
+        bias_dropout_add_func,
+    ):
         """Cross attention for Retro decoder.
 
         Notation:
@@ -1128,22 +1362,27 @@ def retro_decoder_cross_attention(self,
             first_ns = ns % self.retro_chunk_length
             if first_ns > 0:
                 raise Exception("test this case.")
-                first_chunk, rest_chunk = \
-                    layernorm_output[:first_ns], layernorm_output[first_ns:]
+                first_chunk, rest_chunk = (
+                    layernorm_output[:first_ns],
+                    layernorm_output[first_ns:],
+                )
                 first_chunk = torch.nn.functional.pad(
                     first_chunk,
                     (0, 0, 0, 0, 0, self.retro_chunk_length - first_ns),
-                    'constant',
-                    0)
-                chunked_output = \
-                    torch.cat((first_chunk, rest_chunk), dim=0) # [l * m, bs, d]
+                    "constant",
+                    0,
+                )
+                chunked_output = torch.cat(
+                    (first_chunk, rest_chunk), dim=0
+                )  # [l * m, bs, d]
             else:
-                chunked_output = layernorm_output # [l * m, bs, d]
-            chunked_output = chunked_output \
-                .reshape(l, self.retro_chunk_length, bs, d) \
-                .permute(1, 2, 0, 3) \
-                .reshape(self.retro_chunk_length, bs * l, d) \
+                chunked_output = layernorm_output  # [l * m, bs, d]
+            chunked_output = (
+                chunked_output.reshape(l, self.retro_chunk_length, bs, d)
+                .permute(1, 2, 0, 3)
+                .reshape(self.retro_chunk_length, bs * l, d)
                 .contiguous()
+            )
 
             # Get Encoder Output
             retriever_output = self.retriever(
@@ -1151,9 +1390,11 @@ def retro_decoder_cross_attention(self,
                 attention_mask=retriever_attn_mask,
                 retriever_output=chunked_output,
                 retriever_attn_mask=retriever_attn_mask,
-                inference_params=inference_params) # [r, k * bs * l , d]
+                inference_params=inference_params,
+            )  # [r, k * bs * l , d]
             retriever_output = retriever_output.reshape(
-                self.retro_retrieved_length * self.retro_num_neighbors, bs * l, d) # [r * k, bs * l, d]
+                self.retro_retrieved_length * self.retro_num_neighbors, bs * l, d
+            )  # [r * k, bs * l, d]
 
         # Chunks.
         pad = (ns - 1) % self.retro_chunk_length
@@ -1161,18 +1402,20 @@ def retro_decoder_cross_attention(self,
         padded_chunks = torch.nn.functional.pad(
             attending_chunks,
             (0, 0, 0, 0, 0, self.retro_chunk_length - 1),
-            'constant', 0)
-        padded_chunked_output = padded_chunks \
-            .reshape(l, self.retro_chunk_length, bs, d) \
-            .permute(1, 2, 0, 3)
+            "constant",
+            0,
+        )
+        padded_chunked_output = padded_chunks.reshape(
+            l, self.retro_chunk_length, bs, d
+        ).permute(1, 2, 0, 3)
         padded_chunked_output = padded_chunked_output.reshape(
-            self.retro_chunk_length, bs * l, d).contiguous()
+            self.retro_chunk_length, bs * l, d
+        ).contiguous()
 
         # Encoder output.
-        attention_output, attention_bias = \
-            self.inter_attention(padded_chunked_output,
-                                 None,
-                                 encoder_output=retriever_output)
+        attention_output, attention_bias = self.inter_attention(
+            padded_chunked_output, None, encoder_output=retriever_output
+        )
 
         # Residual connection.
         if self.apply_residual_connection_post_layernorm:
@@ -1184,17 +1427,27 @@ def retro_decoder_cross_attention(self,
         with torch.enable_grad():
             layernorm_input = bias_dropout_add_func(
                 attention_output,
-                None if attention_bias is None else attention_bias.expand_as(attention_output),
+                (
+                    None
+                    if attention_bias is None
+                    else attention_bias.expand_as(attention_output)
+                ),
                 torch.zeros_like(attention_output),
-                self.hidden_dropout)
-            layernorm_input = layernorm_input \
-                .reshape(self.retro_chunk_length, bs, l, d) \
-                .permute(2, 0, 1, 3) # [l, m, bs, d]
-            layernorm_input = layernorm_input.reshape(self.retro_chunk_length * l, bs, d)
+                self.hidden_dropout,
+            )
+            layernorm_input = layernorm_input.reshape(
+                self.retro_chunk_length, bs, l, d
+            ).permute(
+                2, 0, 1, 3
+            )  # [l, m, bs, d]
+            layernorm_input = layernorm_input.reshape(
+                self.retro_chunk_length * l, bs, d
+            )
             layernorm_input = torch.nn.functional.pad(
-                layernorm_input,
-                (0, 0, 0, 0, pad, 0),
-                'constant', 0)[:ns] # [ns, b, d]
+                layernorm_input, (0, 0, 0, 0, pad, 0), "constant", 0
+            )[
+                :ns
+            ]  # [ns, b, d]
             layernorm_input = layernorm_input + residual
 
         # Layer norm post the decoder attention
@@ -1202,25 +1455,31 @@ def retro_decoder_cross_attention(self,
 
         return retriever_output, layernorm_input, layernorm_output
 
-    def forward(self, hidden_states, attention_mask=None,
-                encoder_output=None, enc_dec_attn_mask=None,
-                retriever_input=None,
-                retriever_output=None,
-                retriever_attn_mask=None,
-                inference_params=None,
-                rotary_pos_emb=None):
+    def forward(
+        self,
+        hidden_states,
+        attention_mask=None,
+        encoder_output=None,
+        enc_dec_attn_mask=None,
+        retriever_input=None,
+        retriever_output=None,
+        retriever_attn_mask=None,
+        inference_params=None,
+        rotary_pos_emb=None,
+        aggregated_moe_loss=None,
+    ):
         # hidden_states: [s, b, h]
 
         # Layer norm at the beginning of the transformer layer.
         layernorm_output = self.input_layernorm(hidden_states)
 
         # Self attention.
-        attention_output, attention_bias = \
-            self.self_attention(
-                layernorm_output,
-                attention_mask,
-                inference_params=inference_params,
-                rotary_pos_emb=rotary_pos_emb)
+        attention_output, attention_bias = self.self_attention(
+            layernorm_output,
+            attention_mask,
+            inference_params=inference_params,
+            rotary_pos_emb=rotary_pos_emb,
+        )
 
         # Residual connection.
         if self.apply_residual_connection_post_layernorm:
@@ -1245,14 +1504,14 @@ def forward(self, hidden_states, attention_mask=None,
                 attention_bias = attention_bias.expand_as(residual)
             with self.bias_dropout_add_exec_handler():
                 layernorm_input = bias_dropout_add_func(
-                    attention_output,
-                    attention_bias,
-                    residual,
-                    self.hidden_dropout)
+                    attention_output, attention_bias, residual, self.hidden_dropout
+                )
         else:
-            out = torch.nn.functional.dropout(attention_output + attention_bias,
-                                              p=self.hidden_dropout,
-                                              training=self.training)
+            out = torch.nn.functional.dropout(
+                attention_output + attention_bias,
+                p=self.hidden_dropout,
+                training=self.training,
+            )
             layernorm_input = residual + self.drop_path(out)
 
         # Layer norm post the self attention.
@@ -1262,23 +1521,25 @@ def forward(self, hidden_states, attention_mask=None,
         if self.layer_type == LayerType.encoder:
             pass
         elif self.layer_type == LayerType.decoder:
-            layernorm_input, layernorm_output = \
-                self.default_decoder_cross_attention(
-                    encoder_output,
-                    enc_dec_attn_mask,
-                    layernorm_input,
-                    layernorm_output,
-                    bias_dropout_add_func)
+            layernorm_input, layernorm_output = self.default_decoder_cross_attention(
+                encoder_output,
+                enc_dec_attn_mask,
+                layernorm_input,
+                layernorm_output,
+                bias_dropout_add_func,
+            )
         elif self.layer_type == LayerType.retro_encoder:
-            layernorm_input, layernorm_output = \
-                self.retro_encoder_cross_attention(
-                    retriever_output,
-                    layernorm_input,
-                    layernorm_output,
-                    bias_dropout_add_func)
-        elif self.layer_type in (LayerType.retro_decoder,
-                                 LayerType.retro_decoder_with_retriever):
-            retriever_output, layernorm_input, layernorm_output = \
+            layernorm_input, layernorm_output = self.retro_encoder_cross_attention(
+                retriever_output,
+                layernorm_input,
+                layernorm_output,
+                bias_dropout_add_func,
+            )
+        elif self.layer_type in (
+            LayerType.retro_decoder,
+            LayerType.retro_decoder_with_retriever,
+        ):
+            retriever_output, layernorm_input, layernorm_output = (
                 self.retro_decoder_cross_attention(
                     retriever_input,
                     retriever_output,
@@ -1286,20 +1547,29 @@ def forward(self, hidden_states, attention_mask=None,
                     layernorm_input,
                     layernorm_output,
                     inference_params,
-                    bias_dropout_add_func)
+                    bias_dropout_add_func,
+                )
+            )
         else:
-            raise Exception("Unsupported layer type, '%s'." %
-                            self.layer_type.name)
+            raise Exception("Unsupported layer type, '%s'." % self.layer_type.name)
 
         # MLP.
-        moe_loss = torch.tensor(0.0, device=layernorm_output.device, dtype=layernorm_output.dtype)
-        mlp_bias = torch.tensor(0.0, device=layernorm_output.device, dtype=layernorm_output.dtype)
+        moe_loss = torch.tensor(
+            0.0, device=layernorm_output.device, dtype=layernorm_output.dtype
+        )
+        mlp_bias = torch.tensor(
+            0.0, device=layernorm_output.device, dtype=layernorm_output.dtype
+        )
 
         if self.num_experts == 1:
             mlp_output, mlp_bias = self.mlp(layernorm_output)
         else:
             mlp_output, moe_loss, _ = self.mlp(layernorm_output)
 
+        # when aggregated_moe_loss received, returned moe_loss is the aggregated moe loss
+        if aggregated_moe_loss is not None:
+            moe_loss += aggregated_moe_loss
+
         # Second residual connection.
         if self.apply_residual_connection_post_layernorm:
             residual = layernorm_output
@@ -1311,10 +1581,8 @@ def forward(self, hidden_states, attention_mask=None,
                 mlp_bias = mlp_bias.expand_as(residual)
             with self.bias_dropout_add_exec_handler():
                 output = bias_dropout_add_func(
-                    mlp_output,
-                    mlp_bias,
-                    residual,
-                    self.hidden_dropout)
+                    mlp_output, mlp_bias, residual, self.hidden_dropout
+                )
 
             # Jit compiled function creates 'view' tensor. This tensor
             # potentially gets saved in the MPU checkpoint function context,
@@ -1322,16 +1590,16 @@ def forward(self, hidden_states, attention_mask=None,
             # won't result in memory savings (like the data loader, or
             # p2p_communication), it serves to document the origin of this
             # 'view' tensor.
-            output = core.utils.make_viewless_tensor(inp = output,
-                                                     requires_grad = output.requires_grad,
-                                                     keep_graph = True)
+            output = core.utils.make_viewless_tensor(
+                inp=output, requires_grad=output.requires_grad, keep_graph=True
+            )
 
         else:
             if mlp_bias is not None:
                 mlp_output = mlp_output + mlp_bias
-            out = torch.nn.functional.dropout(mlp_output,
-                                              p=self.hidden_dropout,
-                                              training=self.training)
+            out = torch.nn.functional.dropout(
+                mlp_output, p=self.hidden_dropout, training=self.training
+            )
             output = residual + self.drop_path(out)
 
         if self.layer_type == LayerType.retro_decoder_with_retriever:
@@ -1360,25 +1628,81 @@ class ParallelTransformerLayerPipe(ParallelTransformerLayer):
        If no mask is provided, the module will query `self._args.attn_mask`
        for the mask and only return `super().forward(...)`
     """
+
+    def __init__(
+        self,
+        config,
+        layer_number,
+        layer_type=LayerType.encoder,
+        self_attn_mask_type=AttnMaskType.padding,
+        drop_path_rate=0.0,
+        num_experts=1,
+        input_aggregated_moe_loss=False,
+        return_aggregated_moe_loss=False,
+    ):
+        self.input_aggregated_moe_loss = input_aggregated_moe_loss
+        self.return_aggregated_moe_loss = return_aggregated_moe_loss
+        super().__init__(
+            config,
+            layer_number,
+            layer_type,
+            self_attn_mask_type,
+            drop_path_rate,
+            num_experts,
+        )
+
     def forward(self, inputs, **kwargs):
         assert torch.is_tensor(inputs) or isinstance(inputs, tuple)
-        if not hasattr(self, '_args'):
+        if not hasattr(self, "_args"):
             self._args = get_args()
-        rotary_pos_emb = self._args.rotary_pos_emb if self._args.use_rotary_position_embeddings else None
+        rotary_pos_emb = (
+            self._args.rotary_pos_emb
+            if self._args.use_rotary_position_embeddings
+            else None
+        )
         if torch.is_tensor(inputs) or len(inputs) == 1:
+            assert (
+                not self.input_aggregated_moe_loss
+            ), f"Expecting an input tuple of size >= 2"
             # No attention mask forwarded, search for args.attn_mask
             hidden_states, attention_mask = inputs, self._args.attn_mask
-            # HACK: currently MoE model does not support pipeline parallel, so
-            # here we just ignore the moe_loss returned by forward()
-            return super().forward(hidden_states, attention_mask, **kwargs, rotary_pos_emb=rotary_pos_emb)[0]
-        elif len(inputs) == 2:
-            # Attention mask is an activation.
-            hidden_states, attention_mask = inputs[0], inputs[1]
-            # HACK: currently MoE model does not support pipeline parallel, so
-            # here we just ignore the moe_loss returned by forward()
-            return super().forward(*inputs, **kwargs, rotary_pos_emb=rotary_pos_emb)[0], attention_mask
+            output, moe_loss = super().forward(
+                hidden_states, attention_mask, **kwargs, rotary_pos_emb=rotary_pos_emb
+            )
+            return (output, moe_loss) if self.return_aggregated_moe_loss else output
+        elif len(inputs) in (2, 3):
+            # Attention mask and aggregated_moe can both be activations.
+            return_attention_mask = False
+            if len(inputs) == 2:
+                if self.input_aggregated_moe_loss:
+                    hidden_states, aggregated_moe_loss = inputs[0], inputs[1]
+                    attention_mask = self._args.attn_mask
+                else:
+                    hidden_states, attention_mask = inputs[0], inputs[1]
+                    return_attention_mask = True
+            else:
+                hidden_states, attention_mask, aggregated_moe_loss = (
+                    inputs[0],
+                    inputs[1],
+                    inputs[2],
+                )
+
+            # Forward aggregated_moe_loss to ParallelTransformerLayer for further accumulation
+            if self.input_aggregated_moe_loss:
+                kwargs.update({"aggregated_moe_loss": aggregated_moe_loss})
+
+            output, moe_loss = super().forward(
+                hidden_states, attention_mask, **kwargs, rotary_pos_emb=rotary_pos_emb
+            )
+
+            ret = (output,)
+            if return_attention_mask:
+                ret += (attention_mask,)
+            if self.return_aggregated_moe_loss:
+                ret += (moe_loss,)
+            return ret
         else:
-            raise RuntimeError('Received more inputs than understood.')
+            raise RuntimeError("Received more inputs than understood.")
 
 
 class NoopTransformerLayer(MegatronModule):
@@ -1401,15 +1725,20 @@ def __init__(self, layer_number):
         super().__init__()
         self.layer_number = layer_number
 
-    def forward(self, hidden_states, attention_mask,
-                encoder_output=None, enc_dec_attn_mask=None,
-                inference_params=None):
+    def forward(
+        self,
+        hidden_states,
+        attention_mask,
+        encoder_output=None,
+        enc_dec_attn_mask=None,
+        inference_params=None,
+    ):
         return hidden_states.clone()
 
 
 def _get_num_layers(args, model_type, is_decoder=False):
     """Compute the number of transformer layers resident on the current rank."""
-    is_encoder_and_decoder_model = (model_type == ModelType.encoder_and_decoder)
+    is_encoder_and_decoder_model = model_type == ModelType.encoder_and_decoder
     if model_type == ModelType.retro_encoder:
         num_layers = args.retro_encoder_layers
     elif parallel_state.get_pipeline_model_parallel_world_size() > 1:
@@ -1422,27 +1751,34 @@ def _get_num_layers(args, model_type, is_decoder=False):
             # the same whether or not a standalone embedding stage is used.
             num_ranks_in_encoder = (
                 args.pipeline_model_parallel_split_rank - 1
-                if args.standalone_embedding_stage else
-                args.pipeline_model_parallel_split_rank
+                if args.standalone_embedding_stage
+                else args.pipeline_model_parallel_split_rank
+            )
+            num_ranks_in_decoder = (
+                args.transformer_pipeline_model_parallel_size - num_ranks_in_encoder
+            )
+            assert args.encoder_num_layers % num_ranks_in_encoder == 0, (
+                "encoder_num_layers (%d) must be divisible by number of ranks given to encoder (%d)"
+                % (args.encoder_num_layers, num_ranks_in_encoder)
+            )
+            assert args.decoder_num_layers % num_ranks_in_decoder == 0, (
+                "decoder_num_layers (%d) must be divisible by number of ranks given to decoder (%d)"
+                % (args.decoder_num_layers, num_ranks_in_decoder)
             )
-            num_ranks_in_decoder = args.transformer_pipeline_model_parallel_size - num_ranks_in_encoder
-            assert args.encoder_num_layers % num_ranks_in_encoder == 0, \
-                    'encoder_num_layers (%d) must be divisible by number of ranks given to encoder (%d)' % (args.encoder_num_layers, num_ranks_in_encoder)
-            assert args.decoder_num_layers % num_ranks_in_decoder == 0, \
-                    'decoder_num_layers (%d) must be divisible by number of ranks given to decoder (%d)' % (args.decoder_num_layers, num_ranks_in_decoder)
             if parallel_state.is_pipeline_stage_before_split():
                 num_layers = (
                     0
                     if args.standalone_embedding_stage
-                    and parallel_state.get_pipeline_model_parallel_rank() == 0 else
-                    args.encoder_num_layers // num_ranks_in_encoder
+                    and parallel_state.get_pipeline_model_parallel_rank() == 0
+                    else args.encoder_num_layers // num_ranks_in_encoder
                 )
             else:
                 num_layers = args.decoder_num_layers // num_ranks_in_decoder
         else:
             assert args.num_layers == args.encoder_num_layers
-            assert args.num_layers % args.transformer_pipeline_model_parallel_size == 0, \
-                'num_layers must be divisible by transformer_pipeline_model_parallel_size'
+            assert (
+                args.num_layers % args.transformer_pipeline_model_parallel_size == 0
+            ), "num_layers must be divisible by transformer_pipeline_model_parallel_size"
 
             # When a standalone embedding stage is used, all transformer layers
             # are divided among pipeline rank >= 1, while on pipeline rank 0,
@@ -1451,8 +1787,8 @@ def _get_num_layers(args, model_type, is_decoder=False):
             num_layers = (
                 0
                 if args.standalone_embedding_stage
-                and parallel_state.get_pipeline_model_parallel_rank() == 0 else
-                args.num_layers // args.transformer_pipeline_model_parallel_size
+                and parallel_state.get_pipeline_model_parallel_rank() == 0
+                else args.num_layers // args.transformer_pipeline_model_parallel_size
             )
     else:
         if not is_decoder:
@@ -1462,14 +1798,15 @@ def _get_num_layers(args, model_type, is_decoder=False):
     return num_layers
 
 
-def _get_layer_type(model_type, default_layer_type, retro_layer_numbers,
-                    layer_number):
+def _get_layer_type(model_type, default_layer_type, retro_layer_numbers, layer_number):
     args = get_args()
     if args.retro_add_retriever and layer_number in retro_layer_numbers:
         if model_type == ModelType.retro_decoder:
-            return LayerType.retro_decoder_with_retriever \
-                if layer_number == retro_layer_numbers[0] \
-                   else LayerType.retro_decoder
+            return (
+                LayerType.retro_decoder_with_retriever
+                if layer_number == retro_layer_numbers[0]
+                else LayerType.retro_decoder
+            )
         elif model_type == ModelType.retro_encoder:
             return LayerType.retro_encoder
         else:
@@ -1478,17 +1815,41 @@ def _get_layer_type(model_type, default_layer_type, retro_layer_numbers,
         return default_layer_type
 
 
+def get_num_experts_per_layer(
+    num_experts: list, num_layers: int, expert_interval: int, offset: int = 0
+) -> list:
+    assert (
+        len(num_experts) == 1 or len(num_experts) == num_layers // expert_interval
+    ), "num_experts must be either a single value or a list of the same length as the number of MoE layers"
+    if len(num_experts) == 1:
+        num_experts = num_experts * (num_layers // expert_interval)
+    experts_per_layer = []
+    for i in range(num_layers):
+        layer_num = i + 1 + offset
+        n_e = (
+            num_experts[(layer_num - 1) // expert_interval]
+            if layer_num % expert_interval == 0
+            else 1
+        )
+        experts_per_layer.append(n_e)
+    return experts_per_layer
+
+
 class ParallelTransformer(MegatronModule):
     """Transformer class."""
 
-    def __init__(self, config,
-                 model_type, layer_type=LayerType.encoder,
-                 self_attn_mask_type=AttnMaskType.padding,
-                 post_layer_norm=True,
-                 pre_process=True,
-                 post_process=True,
-                 drop_path_rate=0.0,
-                 num_experts=[1]):
+    def __init__(
+        self,
+        config,
+        model_type,
+        layer_type=LayerType.encoder,
+        self_attn_mask_type=AttnMaskType.padding,
+        post_layer_norm=True,
+        pre_process=True,
+        post_process=True,
+        drop_path_rate=0.0,
+        num_experts=[1],
+    ):
         super(ParallelTransformer, self).__init__()
         args = get_args()
 
@@ -1511,14 +1872,15 @@ def __init__(self, config,
         self.recompute_granularity = config.recompute_granularity
         self.recompute_method = config.recompute_method
         self.recompute_num_layers = config.recompute_num_layers
-        self.distribute_saved_activations = \
+        self.distribute_saved_activations = (
             config.distribute_saved_activations and not config.sequence_parallel
+        )
 
         self.sequence_parallel = config.sequence_parallel
 
         # Transformer Engine Init.
         self.transformer_engine_rope_available = False
-        if self.transformer_impl == 'transformer_engine':
+        if self.transformer_impl == "transformer_engine":
             global transformer_engine
             import transformer_engine
             from importlib.metadata import version
@@ -1550,45 +1912,53 @@ def __init__(self, config,
 
         self.num_microbatches_in_previous_step = -1
         self.microbatch_count = 0
-        self.checkpoint_core_attention = config.recompute_granularity == 'selective'
+        self.checkpoint_core_attention = config.recompute_granularity == "selective"
 
         # Number of layers.
-        self.num_layers = _get_num_layers(args, model_type,
-                                          layer_type==LayerType.decoder)
+        self.num_layers = _get_num_layers(
+            args, model_type, layer_type == LayerType.decoder
+        )
 
         self.drop_path_rates = [
-            rate.item() for rate in
-            torch.linspace(0, self.drop_path_rate, config.num_layers)]
+            rate.item()
+            for rate in torch.linspace(0, self.drop_path_rate, config.num_layers)
+        ]
 
         self.retro_layer_numbers = None
         if model_type == ModelType.retro_decoder:
             retro_layer_start = 6 if config.num_layers <= 15 else 9
-            self.retro_layer_numbers = \
-                np.arange(retro_layer_start, args.num_layers + 1, 3).tolist()
+            self.retro_layer_numbers = np.arange(
+                retro_layer_start, args.num_layers + 1, 3
+            ).tolist()
         if model_type == ModelType.retro_encoder:
             self.retro_layer_numbers = [1]
 
         # Transformer layers.
         if args.retro_add_retriever:
-            assert self.recompute_granularity != 'full', \
-                "Full recompute not supported for Retro."
-            assert args.transformer_impl == 'local', \
-                "Transformer engine does not support Retro layers."
+            assert (
+                self.recompute_granularity != "full"
+            ), "Full recompute not supported for Retro."
+            assert (
+                args.transformer_impl == "local"
+            ), "Transformer engine does not support Retro layers."
+
         def build_layer(layer_number, n_e):
-            if args.transformer_impl == 'local':
+            if args.transformer_impl == "local":
                 current_layer_type = _get_layer_type(
-                    model_type, layer_type, self.retro_layer_numbers,
-                    layer_number)
+                    model_type, layer_type, self.retro_layer_numbers, layer_number
+                )
                 return ParallelTransformerLayer(
                     config,
                     layer_number,
                     layer_type=current_layer_type,
                     self_attn_mask_type=self_attn_mask_type,
                     drop_path_rate=self.drop_path_rates[layer_number - 1],
-                    num_experts=n_e)
+                    num_experts=n_e,
+                )
             else:
-                assert config.num_attention_heads == config.num_key_value_heads, \
-                        'Transformer_engine does not support GQA'
+                assert (
+                    config.num_attention_heads == config.num_key_value_heads
+                ), "Transformer_engine does not support GQA"
                 return transformer_engine.pytorch.TransformerLayer(
                     config.hidden_size,
                     config.ffn_hidden_size,
@@ -1615,16 +1985,22 @@ def build_layer(layer_number, n_e):
                     layer_type="encoder",
                     drop_path_rate=self.drop_path_rates[layer_number - 1],
                     set_parallel_mode=True,
-                    fuse_qkv_params=True)
+                    fuse_qkv_params=True,
+                )
 
         if config.virtual_pipeline_model_parallel_size is not None:
-            assert config.num_layers % config.virtual_pipeline_model_parallel_size == 0, \
-                'num_layers_per_stage must be divisible by ' \
-                'virtual_pipeline_model_parallel_size'
+            assert (
+                config.num_layers % config.virtual_pipeline_model_parallel_size == 0
+            ), (
+                "num_layers_per_stage must be divisible by "
+                "virtual_pipeline_model_parallel_size"
+            )
             assert args.model_type != ModelType.encoder_and_decoder
             # Number of layers in each model chunk is the number of layers in the stage,
             # divided by the number of model chunks in a stage.
-            self.num_layers = self.num_layers // config.virtual_pipeline_model_parallel_size
+            self.num_layers = (
+                self.num_layers // config.virtual_pipeline_model_parallel_size
+            )
             # With 8 layers, 2 stages, and 4 model chunks, we want an assignment of
             # layers to stages like (each list is a model chunk):
             # Stage 0: [0]  [2]  [4]  [6]
@@ -1634,12 +2010,14 @@ def build_layer(layer_number, n_e):
             # Stage 0: [0, 1]  [4, 5]
             # Stage 1: [2, 3]  [6, 7]
             offset = parallel_state.get_virtual_pipeline_model_parallel_rank() * (
-                config.num_layers // config.virtual_pipeline_model_parallel_size) + \
-                (parallel_state.get_pipeline_model_parallel_rank() * self.num_layers)
+                config.num_layers // config.virtual_pipeline_model_parallel_size
+            ) + (parallel_state.get_pipeline_model_parallel_rank() * self.num_layers)
         else:
             # Each stage gets a contiguous set of layers.
-            if args.model_type == ModelType.encoder_and_decoder and \
-                    parallel_state.get_pipeline_model_parallel_world_size() > 1:
+            if (
+                args.model_type == ModelType.encoder_and_decoder
+                and parallel_state.get_pipeline_model_parallel_world_size() > 1
+            ):
                 pipeline_rank = parallel_state.get_pipeline_model_parallel_rank()
                 if layer_type == LayerType.encoder:
                     offset = pipeline_rank * self.num_layers
@@ -1647,7 +2025,9 @@ def build_layer(layer_number, n_e):
                     num_ranks_in_enc = args.pipeline_model_parallel_split_rank
                     offset = (pipeline_rank - num_ranks_in_enc) * self.num_layers
             else:
-                offset = parallel_state.get_pipeline_model_parallel_rank() * self.num_layers
+                offset = (
+                    parallel_state.get_pipeline_model_parallel_rank() * self.num_layers
+                )
 
         if self.num_layers == 0:
             # When a standalone embedding stage is used (e.g.,
@@ -1659,23 +2039,16 @@ def build_layer(layer_number, n_e):
             # this, we assign a 'no-op' layer on these ranks, which will
             # disconnect the input tensor from the output tensor.
             self.num_layers = 1
-            self.layers = torch.nn.ModuleList([ NoopTransformerLayer(1) ])
+            self.layers = torch.nn.ModuleList([NoopTransformerLayer(1)])
         else:
-            assert len(num_experts) == 1 or len(num_experts) == args.num_layers // args.expert_interval, \
-            'num_experts must be either a single value or a list of the same length as the number of MoE layers'
-
-            # Create the list of MoE experts
-            if len(num_experts) == 1:
-                num_experts = num_experts * (args.num_layers // args.expert_interval)
-
             # Build the layers
             self.layers = []
+            experts_per_layer = get_num_experts_per_layer(
+                num_experts, self.num_layers, args.expert_interval, offset
+            )
             for i in range(self.num_layers):
                 layer_num = i + 1 + offset
-                if layer_num % args.expert_interval == 0:
-                    n_e = num_experts[(layer_num-1) // args.expert_interval]
-                else:
-                    n_e = 1
+                n_e = experts_per_layer[i]
                 self.layers.append(build_layer(layer_num, n_e))
             self.layers = torch.nn.ModuleList(self.layers)
 
@@ -1683,40 +2056,54 @@ def build_layer(layer_number, n_e):
             if model_type == ModelType.retro_encoder:
                 for layer in self.layers:
                     if layer.self_attention.use_flash_attn:
-                        layer.self_attention.core_attention_flash.dropout_p = \
+                        layer.self_attention.core_attention_flash.dropout_p = (
                             torch.nn.Dropout(args.retro_encoder_attention_dropout)
+                        )
                     else:
-                        layer.self_attention.core_attention.attention_dropout.p =\
+                        layer.self_attention.core_attention.attention_dropout.p = (
                             args.retro_encoder_attention_dropout
+                        )
                     layer.hidden_dropout = args.retro_encoder_hidden_dropout
 
         if self.post_process and self.post_layer_norm:
             # Final layer norm before output.
-            if args.normalization == 'layernorm':
-                if get_accelerator().device_name() == 'cuda':
+            if args.normalization == "layernorm":
+                if get_accelerator().device_name() == "cuda":
                     self.final_layernorm = LayerNorm(
                         config.hidden_size,
                         eps=config.layernorm_epsilon,
                         no_persist_layer_norm=args.no_persist_layer_norm,
                         sequence_parallel=config.sequence_parallel,
                         apply_layernorm_1p=args.apply_layernorm_1p,
-                        mem_efficient_ln=args.mem_efficient_ln)
+                        mem_efficient_ln=args.mem_efficient_ln,
+                    )
                 else:
                     self.final_layernorm = LayerNorm(
-                        config.hidden_size,
-                        eps=config.layernorm_epsilon)
+                        config.hidden_size, eps=config.layernorm_epsilon
+                    )
             else:
-                self.final_layernorm = RMSNorm(config.hidden_size, config.layernorm_epsilon)
+                self.final_layernorm = RMSNorm(
+                    config.hidden_size,
+                    config.layernorm_epsilon,
+                    sequence_parallel=config.sequence_parallel,
+                )
 
     def _get_layer(self, layer_number):
         return self.layers[layer_number]
 
-    def _checkpointed_forward(self, hidden_states, attention_mask,
-                              encoder_output, enc_dec_attn_mask,
-                              rotary_pos_emb, is_first_microbatch):
+    def _checkpointed_forward(
+        self,
+        hidden_states,
+        attention_mask,
+        encoder_output,
+        enc_dec_attn_mask,
+        rotary_pos_emb,
+        is_first_microbatch,
+    ):
         args = get_args()
 
         """Forward method with activation checkpointing."""
+
         def custom(start, end):
             def custom_forward(*args, **kwargs):
                 x_, *args = args
@@ -1728,11 +2115,14 @@ def custom_forward(*args, **kwargs):
                         x_, moe_loss = output
                     else:
                         x_ = output
-                        moe_loss = torch.tensor(0.0, device=x_.device, dtype=x_.dtype, requires_grad=True)
+                        moe_loss = torch.tensor(
+                            0.0, device=x_.device, dtype=x_.dtype, requires_grad=True
+                        )
                     moe_losses.append(moe_loss)
                 return (x_, *moe_losses)
+
             return custom_forward
-        
+
         if args.deepspeed and args.deepspeed_activation_checkpointing:
             moe_losses = []
             # Make sure memory is freed.
@@ -1740,9 +2130,18 @@ def custom_forward(*args, **kwargs):
             l = 0
             while l < self.num_layers:
                 hidden_states, *local_moe_losses = tensor_parallel.checkpoint(
-                    custom(l, l + self.checkpoint_num_layers), False,
-                    hidden_states, attention_mask, encoder_output, enc_dec_attn_mask,
-                    None, None, None, None, rotary_pos_emb)
+                    custom(l, l + self.checkpoint_num_layers),
+                    False,
+                    hidden_states,
+                    attention_mask,
+                    encoder_output,
+                    enc_dec_attn_mask,
+                    None,
+                    None,
+                    None,
+                    None,
+                    rotary_pos_emb,
+                )
                 moe_losses.extend(local_moe_losses)
                 l += self.checkpoint_num_layers
 
@@ -1750,66 +2149,105 @@ def custom_forward(*args, **kwargs):
         else:
             moe_losses = []
             te_forward_kwargs = {}
-            if self.transformer_impl == 'transformer_engine':
-                te_forward_kwargs['is_first_microbatch'] = is_first_microbatch
+            if self.transformer_impl == "transformer_engine":
+                te_forward_kwargs["is_first_microbatch"] = is_first_microbatch
                 if self.transformer_engine_rope_available:
-                    te_forward_kwargs['rotary_pos_emb'] = rotary_pos_emb
+                    te_forward_kwargs["rotary_pos_emb"] = rotary_pos_emb
 
-            if self.recompute_method == 'uniform':
+            if self.recompute_method == "uniform":
                 # Uniformly divide the total number of Transformer layers and
                 # checkpoint the input activation of each divided chunk.
                 # A method to further reduce memory usage reducing checkpoints.
                 l = 0
                 while l < self.num_layers:
-                    if self.transformer_impl == 'transformer_engine':
-                        hidden_states, *local_moe_losses = transformer_engine.pytorch.distributed.checkpoint(
-                            custom(l, l + self.recompute_num_layers),
-                            self.distribute_saved_activations,
-                            tensor_parallel.get_cuda_rng_tracker,
-                            mpu.get_tensor_model_parallel_group(),
-                            hidden_states, attention_mask, encoder_output,
-                            enc_dec_attn_mask, **te_forward_kwargs)
+                    if self.transformer_impl == "transformer_engine":
+                        hidden_states, *local_moe_losses = (
+                            transformer_engine.pytorch.distributed.checkpoint(
+                                custom(l, l + self.recompute_num_layers),
+                                self.distribute_saved_activations,
+                                tensor_parallel.get_cuda_rng_tracker,
+                                mpu.get_tensor_model_parallel_group(),
+                                hidden_states,
+                                attention_mask,
+                                encoder_output,
+                                enc_dec_attn_mask,
+                                **te_forward_kwargs,
+                            )
+                        )
                     else:
                         hidden_states, *local_moe_losses = tensor_parallel.checkpoint(
                             custom(l, l + self.recompute_num_layers),
                             self.distribute_saved_activations,
-                            hidden_states, attention_mask,
-                            encoder_output, enc_dec_attn_mask,
-                            None, None, None, None, rotary_pos_emb)
+                            hidden_states,
+                            attention_mask,
+                            encoder_output,
+                            enc_dec_attn_mask,
+                            None,
+                            None,
+                            None,
+                            None,
+                            rotary_pos_emb,
+                        )
                     moe_losses.extend(local_moe_losses)
                     l += self.recompute_num_layers
-            elif self.recompute_method == 'block':
+            elif self.recompute_method == "block":
                 # Checkpoint the input activation of only a set number of individual
                 # Transformer layers and skip the rest.
                 # A method fully use the device memory removing redundant re-computation.
                 for l in range(self.num_layers):
                     if l < self.recompute_num_layers:
-                        if self.transformer_impl == 'transformer_engine':
-                            hidden_states, *local_moe_losses = transformer_engine.pytorch.distributed.checkpoint(
-                                custom(l, l + 1),
-                                self.distribute_saved_activations,
-                                tensor_parallel.get_cuda_rng_tracker,
-                                mpu.get_tensor_model_parallel_group(),
-                                hidden_states, attention_mask, encoder_output,
-                                enc_dec_attn_mask, **te_forward_kwargs)
+                        if self.transformer_impl == "transformer_engine":
+                            hidden_states, *local_moe_losses = (
+                                transformer_engine.pytorch.distributed.checkpoint(
+                                    custom(l, l + 1),
+                                    self.distribute_saved_activations,
+                                    tensor_parallel.get_cuda_rng_tracker,
+                                    mpu.get_tensor_model_parallel_group(),
+                                    hidden_states,
+                                    attention_mask,
+                                    encoder_output,
+                                    enc_dec_attn_mask,
+                                    **te_forward_kwargs,
+                                )
+                            )
                         else:
-                            hidden_states, *local_moe_losses = tensor_parallel.checkpoint(
-                                custom(l, l + 1),
-                                self.distribute_saved_activations,
-                                hidden_states, attention_mask,
-                                encoder_output, enc_dec_attn_mask,
-                                None, None, None, None, rotary_pos_emb)
+                            hidden_states, *local_moe_losses = (
+                                tensor_parallel.checkpoint(
+                                    custom(l, l + 1),
+                                    self.distribute_saved_activations,
+                                    hidden_states,
+                                    attention_mask,
+                                    encoder_output,
+                                    enc_dec_attn_mask,
+                                    None,
+                                    None,
+                                    None,
+                                    None,
+                                    rotary_pos_emb,
+                                )
+                            )
                     else:
-                        if self.transformer_impl == 'transformer_engine':
+                        if self.transformer_impl == "transformer_engine":
                             hidden_states, *local_moe_losses = custom(l, l + 1)(
-                                hidden_states, attention_mask, encoder_output,
-                                enc_dec_attn_mask, **te_forward_kwargs)
+                                hidden_states,
+                                attention_mask,
+                                encoder_output,
+                                enc_dec_attn_mask,
+                                **te_forward_kwargs,
+                            )
                         else:
                             hidden_states, *local_moe_losses = custom(l, l + 1)(
-                                hidden_states, attention_mask,
-                                encoder_output, enc_dec_attn_mask,
-                                None, None, None, None, rotary_pos_emb)
-                            
+                                hidden_states,
+                                attention_mask,
+                                encoder_output,
+                                enc_dec_attn_mask,
+                                None,
+                                None,
+                                None,
+                                None,
+                                rotary_pos_emb,
+                            )
+
                     moe_losses.extend(local_moe_losses)
             else:
                 raise ValueError("Invalid activation recompute method.")
@@ -1825,19 +2263,25 @@ def set_input_tensor(self, input_tensor):
         forward_step_func"""
         self.input_tensor = input_tensor
 
-    def forward(self, hidden_states, attention_mask,
-                encoder_output=None, enc_dec_attn_mask=None,
-                retriever_input=None,
-                retriever_output=None,
-                retriever_attn_mask=None,
-                inference_params=None,
-                rotary_pos_emb=None):
+    def forward(
+        self,
+        hidden_states,
+        attention_mask,
+        encoder_output=None,
+        enc_dec_attn_mask=None,
+        retriever_input=None,
+        retriever_output=None,
+        retriever_attn_mask=None,
+        inference_params=None,
+        rotary_pos_emb=None,
+    ):
         # hidden_states: [s, b, h]
 
         # Checks.
         if inference_params:
-            assert self.recompute_granularity is None, \
-                'inference does not work with activation checkpointing'
+            assert (
+                self.recompute_granularity is None
+            ), "inference does not work with activation checkpointing"
 
         # TODO: Below old DeepSpeed code are commented because it's unsure whether
         # it is still relevant.
@@ -1892,64 +2336,77 @@ def forward(self, hidden_states, attention_mask,
         with rng_context:
             # The fp8_autocast context manager is a no-op when enabled=True
             # The if...else serves to short circuit name resolution for fp8_autocast
-            with transformer_engine.pytorch.fp8_autocast(
-                enabled=self.use_fp8,
-                fp8_recipe=self.fp8_recipe,
-                fp8_group=self.fp8_group
-            ) if self.use_fp8 else nullcontext():
+            with (
+                transformer_engine.pytorch.fp8_autocast(
+                    enabled=self.use_fp8,
+                    fp8_recipe=self.fp8_recipe,
+                    fp8_group=self.fp8_group,
+                )
+                if self.use_fp8
+                else nullcontext()
+            ):
                 # Determine if the current iteration is first microbatch
                 if self.num_microbatches_in_previous_step != get_num_microbatches():
-                    self.microbatch_count = 0 # Reset count on new batch size rampup interval
+                    self.microbatch_count = (
+                        0  # Reset count on new batch size rampup interval
+                    )
                 self.num_microbatches_in_previous_step = get_num_microbatches()
-                is_first_microbatch = self.microbatch_count % get_num_microbatches() == 0
+                is_first_microbatch = (
+                    self.microbatch_count % get_num_microbatches() == 0
+                )
 
                 # Forward pass.
                 moe_losses = []
                 if self.checkpoint_activations:
-                    hidden_states, moe_losses = self._checkpointed_forward(hidden_states,
-                                                               attention_mask,
-                                                               encoder_output,
-                                                               enc_dec_attn_mask,
-                                                               rotary_pos_emb,
-                                                               is_first_microbatch)
-                elif self.recompute_granularity == 'full':
-                    hidden_states, moe_losses = self._checkpointed_forward(hidden_states,
-                                                               attention_mask,
-                                                               encoder_output,
-                                                               enc_dec_attn_mask,
-                                                               rotary_pos_emb,
-                                                               is_first_microbatch)
+                    hidden_states, moe_losses = self._checkpointed_forward(
+                        hidden_states,
+                        attention_mask,
+                        encoder_output,
+                        enc_dec_attn_mask,
+                        rotary_pos_emb,
+                        is_first_microbatch,
+                    )
+                elif self.recompute_granularity == "full":
+                    hidden_states, moe_losses = self._checkpointed_forward(
+                        hidden_states,
+                        attention_mask,
+                        encoder_output,
+                        enc_dec_attn_mask,
+                        rotary_pos_emb,
+                        is_first_microbatch,
+                    )
                 else:
                     forward_kwargs = {
-                        'encoder_output': encoder_output,
-                        'enc_dec_attn_mask': enc_dec_attn_mask,
-                        'inference_params': inference_params,
+                        "encoder_output": encoder_output,
+                        "enc_dec_attn_mask": enc_dec_attn_mask,
+                        "inference_params": inference_params,
                     }
 
-                    if self.transformer_impl == 'transformer_engine':
-                        forward_kwargs['is_first_microbatch'] = is_first_microbatch
-                        forward_kwargs['checkpoint_core_attention'] = self.checkpoint_core_attention
+                    if self.transformer_impl == "transformer_engine":
+                        forward_kwargs["is_first_microbatch"] = is_first_microbatch
+                        forward_kwargs["checkpoint_core_attention"] = (
+                            self.checkpoint_core_attention
+                        )
                         if self.transformer_engine_rope_available:
-                            forward_kwargs['rotary_pos_emb'] = rotary_pos_emb
+                            forward_kwargs["rotary_pos_emb"] = rotary_pos_emb
                     else:
-                        forward_kwargs['rotary_pos_emb'] = rotary_pos_emb
-                        forward_kwargs['retriever_input'] = retriever_input
-                        forward_kwargs['retriever_output'] = retriever_output
-                        forward_kwargs['retriever_attn_mask'] = retriever_attn_mask
+                        forward_kwargs["rotary_pos_emb"] = rotary_pos_emb
+                        forward_kwargs["retriever_input"] = retriever_input
+                        forward_kwargs["retriever_output"] = retriever_output
+                        forward_kwargs["retriever_attn_mask"] = retriever_attn_mask
 
                     for index in range(self.num_layers):
                         layer = self._get_layer(index)
 
                         hidden_states = layer(
-                            hidden_states,
-                            attention_mask,
-                            **forward_kwargs)
+                            hidden_states, attention_mask, **forward_kwargs
+                        )
 
                         # First Retro decoder layer returns both hidden_states
                         # and retriever_output. Make retriever_output available
                         # to subsequence Retro layers.
                         if isinstance(hidden_states, tuple):
-                            assert (len(hidden_states) == 2 or len(hidden_states) == 3)
+                            assert len(hidden_states) == 2 or len(hidden_states) == 3
                             if len(hidden_states) == 2:
                                 if not self.ds_inference:
                                     hidden_states, moe_loss = hidden_states
@@ -1975,6 +2432,7 @@ def forward(self, hidden_states, attention_mask,
 
         return (hidden_states, *moe_losses)
 
+
 class LMHeadPipe(MegatronModule):
     """
     Arguments:
@@ -1988,11 +2446,13 @@ class LMHeadPipe(MegatronModule):
     def __init__(self, hidden_size, vocab_size, config):
         args = get_args()
         super(LMHeadPipe, self).__init__()
-        self.lm_head = tensor_parallel.ColumnParallelLinear(input_size=hidden_size,
-                                                            output_size=vocab_size,
-                                                            bias=False,
-                                                            config=config,
-                                                            init_method=config.init_method,)
+        self.lm_head = tensor_parallel.ColumnParallelLinear(
+            input_size=hidden_size,
+            output_size=vocab_size,
+            bias=False,
+            config=config,
+            init_method=config.init_method,
+        )
 
     def forward(self, inputs, **kwargs):
         assert torch.is_tensor(inputs) or isinstance(inputs, tuple)
@@ -2001,10 +2461,10 @@ def forward(self, inputs, **kwargs):
         else:
             hidden_states = inputs
 
-        if not hasattr(self, '_args'):
+        if not hasattr(self, "_args"):
             self._args = get_args()
 
-        if hasattr(self._args, 'attn_mask'):
+        if hasattr(self._args, "attn_mask"):
             attention_mask = None
         else:
             attention_mask = inputs[1]
@@ -2012,7 +2472,7 @@ def forward(self, inputs, **kwargs):
         logits, _ = self.lm_head(hidden_states)
 
         # If cmd args has attn_mask, we don't forward it as an activation.
-        if hasattr(self._args, 'attn_mask'):
+        if hasattr(self._args, "attn_mask"):
             return logits
         else:
             return logits, attention_mask
diff --git a/megatron/model/utils.py b/megatron/model/utils.py
index 6c94921c958..59d4e2b7b8f 100644
--- a/megatron/model/utils.py
+++ b/megatron/model/utils.py
@@ -10,8 +10,10 @@
 
 from deepspeed.runtime.zero import GatheredParameters
 
+
 def init_method_normal(sigma):
     """Init method based on N(0, sigma)."""
+
     def init_(tensor):
         return torch.nn.init.normal_(tensor, mean=0.0, std=sigma)
 
@@ -31,7 +33,7 @@ def init_(tensor):
 def gather_and_init(param, init_method):
     with GatheredParameters(param, modifier_rank=0):
         init_method(param)
-        
+
 
 def attention_mask_func(attention_scores, attention_mask):
     args = get_args()
@@ -40,7 +42,9 @@ def attention_mask_func(attention_scores, attention_mask):
         actual_seqlen = attention_scores.size()[2]
         if actual_seqlen != attention_mask_.size()[2]:
             # attention_mask has size [1, 1, seqlen, seqlen]
-            attention_mask_ = attention_mask_[:, :, :actual_seqlen, :actual_seqlen].contiguous()
+            attention_mask_ = attention_mask_[
+                :, :, :actual_seqlen, :actual_seqlen
+            ].contiguous()
         attention_scores.masked_fill_(attention_mask_, -10000.0)
     else:
         attention_scores.masked_fill_(attention_mask, -10000.0)
@@ -51,22 +55,38 @@ def get_linear_layer(rows, columns, init_method, gather_params_on_init=False):
     """Simple linear layer with weight initialization."""
     layer = torch.nn.Linear(rows, columns)
     if get_args().perform_initialization:
-        with GatheredParameters(layer.weight, modifier_rank=0, enabled=gather_params_on_init):
+        with GatheredParameters(
+            layer.weight, modifier_rank=0, enabled=gather_params_on_init
+        ):
             init_method(layer.weight)
     with torch.no_grad():
-        with GatheredParameters(layer.bias, modifier_rank=0, enabled=gather_params_on_init):
+        with GatheredParameters(
+            layer.bias, modifier_rank=0, enabled=gather_params_on_init
+        ):
             layer.bias.zero_()
     return layer
 
+
 @torch.jit.script
 def gelu_impl(x):
     """OpenAI's gelu implementation."""
-    return 0.5 * x * (1.0 + torch.tanh(0.7978845608028654 * x *
-                                       (1.0 + 0.044715 * x * x)))
+    return (
+        0.5 * x * (1.0 + torch.tanh(0.7978845608028654 * x * (1.0 + 0.044715 * x * x)))
+    )
+
+
 def openai_gelu(x):
     return gelu_impl(x)
 
-#This is actually Python equivalent of torch.nn.functional.gelu(), also with type hints for ONNX exporter
+
+# This is actually Python equivalent of torch.nn.functional.gelu(), also with type hints for ONNX exporter
 @torch.jit.script
 def erf_gelu(x):
-    return x * 0.5 * (torch.erf(x / 1.41421).to(dtype=x.dtype)+torch.ones_like(x).to(dtype=x.dtype))
+    return (
+        x
+        * 0.5
+        * (
+            torch.erf(x / 1.41421).to(dtype=x.dtype)
+            + torch.ones_like(x).to(dtype=x.dtype)
+        )
+    )
diff --git a/megatron/model/vision/classification.py b/megatron/model/vision/classification.py
index 2be1951eead..ee01b1f6c1e 100644
--- a/megatron/model/vision/classification.py
+++ b/megatron/model/vision/classification.py
@@ -10,11 +10,13 @@
 from megatron.model.vision.mit_backbone import mit_b3_avg
 from megatron.model.module import MegatronModule
 
+
 class VitClassificationModel(MegatronModule):
     """Vision Transformer Model."""
 
-    def __init__(self, config, num_classes, finetune=False,
-                 pre_process=True, post_process=True):
+    def __init__(
+        self, config, num_classes, finetune=False, pre_process=True, post_process=True
+    ):
         super(VitClassificationModel, self).__init__()
         args = get_args()
 
@@ -27,9 +29,9 @@ def __init__(self, config, num_classes, finetune=False,
             config=config,
             pre_process=self.pre_process,
             post_process=self.post_process,
-            single_token_output=True
+            single_token_output=True,
         )
-        
+
         if self.post_process:
             if not self.finetune:
                 self.head = VitMlpHead(self.hidden_size, self.num_classes)
@@ -38,7 +40,7 @@ def __init__(self, config, num_classes, finetune=False,
                     self.hidden_size,
                     self.num_classes,
                     torch.nn.init.zeros_,
-                    gather_params_on_init=args.zero_stage == 3
+                    gather_params_on_init=args.zero_stage == 3,
                 )
 
     def set_input_tensor(self, input_tensor):
@@ -57,8 +59,7 @@ def forward(self, input):
 class MitClassificationModel(MegatronModule):
     """Mix vision Transformer Model."""
 
-    def __init__(self, num_classes,
-                 pre_process=True, post_process=True):
+    def __init__(self, num_classes, pre_process=True, post_process=True):
         super(MitClassificationModel, self).__init__()
         args = get_args()
 
@@ -71,7 +72,7 @@ def __init__(self, num_classes,
 
     def _init_weights(self, m):
         if isinstance(m, torch.nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, torch.nn.Linear) and m.bias is not None:
                 torch.nn.init.constant_(m.bias, 0)
 
diff --git a/megatron/model/vision/dino.py b/megatron/model/vision/dino.py
index 1c577d2e199..7311f4000d0 100644
--- a/megatron/model/vision/dino.py
+++ b/megatron/model/vision/dino.py
@@ -21,9 +21,18 @@
 
 
 class DINOLoss(torch.nn.Module):
-    def __init__(self, out_dim, ncrops, warmup_teacher_temp, teacher_temp,
-                 warmup_teacher_temp_epochs, nepochs, student_temp=0.1,
-                 center_momentum=0.9):
+
+    def __init__(
+        self,
+        out_dim,
+        ncrops,
+        warmup_teacher_temp,
+        teacher_temp,
+        warmup_teacher_temp_epochs,
+        nepochs,
+        student_temp=0.1,
+        center_momentum=0.9,
+    ):
         super().__init__()
         self.student_temp = student_temp
         self.center_momentum = center_momentum
@@ -31,11 +40,14 @@ def __init__(self, out_dim, ncrops, warmup_teacher_temp, teacher_temp,
         self.register_buffer("center", torch.zeros(1, out_dim))
         # we apply a warm up for the teacher temperature because
         # a too high temperature makes the training instable at the beginning
-        self.teacher_temp_schedule = np.concatenate((
-            np.linspace(warmup_teacher_temp,
-                        teacher_temp, warmup_teacher_temp_epochs),
-            np.ones(nepochs - warmup_teacher_temp_epochs) * teacher_temp
-        ))
+        self.teacher_temp_schedule = np.concatenate(
+            (
+                np.linspace(
+                    warmup_teacher_temp, teacher_temp, warmup_teacher_temp_epochs
+                ),
+                np.ones(nepochs - warmup_teacher_temp_epochs) * teacher_temp,
+            )
+        )
         self.teacher_temp = teacher_temp
 
     def forward(self, student_output, teacher_output, iteration):
@@ -76,10 +88,16 @@ def update_center(self, teacher_output):
         """
         batch_center = torch.sum(teacher_output, dim=0, keepdim=True)
         torch.distributed.all_reduce(batch_center)
-        batch_center = batch_center / (len(teacher_output) * torch.distributed.get_world_size())
-        self.center = self.center * self.center_momentum + batch_center * (1 - self.center_momentum)
+        batch_center = batch_center / (
+            len(teacher_output) * torch.distributed.get_world_size()
+        )
+        self.center = self.center * self.center_momentum + batch_center * (
+            1 - self.center_momentum
+        )
+
 
 class DINOHead(torch.nn.Module):
+
     def __init__(self, in_dim, out_dim, norm_last_layer=True, nlayers=3):
         super().__init__()
         args = get_args()
@@ -97,14 +115,16 @@ def __init__(self, in_dim, out_dim, norm_last_layer=True, nlayers=3):
             layers.append(torch.nn.Linear(hidden_dim, bottleneck_dim))
             self.mlp = torch.nn.Sequential(*layers)
         self.apply(self._init_weights)
-        self.last_layer = torch.nn.utils.weight_norm(torch.nn.Linear(bottleneck_dim, out_dim, bias=False))
+        self.last_layer = torch.nn.utils.weight_norm(
+            torch.nn.Linear(bottleneck_dim, out_dim, bias=False)
+        )
         self.last_layer.weight_g.data.fill_(1)
         if norm_last_layer:
             self.last_layer.weight_g.requires_grad = False
 
     def _init_weights(self, m):
         if isinstance(m, torch.nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, torch.nn.Linear) and m.bias is not None:
                 torch.nn.init.constant_(m.bias, 0)
 
@@ -116,7 +136,6 @@ def forward(self, x):
 
 
 class MultiCropWrapper(MegatronModule):
-
     """
     Perform forward pass separately on each resolution input.
     The inputs corresponding to a single resolution are clubbed and single
@@ -125,10 +144,11 @@ class MultiCropWrapper(MegatronModule):
     concatenate all the output features and run the head forward on these
     concatenated features.
     """
+
     def __init__(self, backbone, head):
         super(MultiCropWrapper, self).__init__()
         # disable layers dedicated to ImageNet labels classification
-        #backbone.fc, backbone.head = torch.nn.Identity(), torch.nn.Identity()
+        # backbone.fc, backbone.head = torch.nn.Identity(), torch.nn.Identity()
         self.backbone = backbone
         self.head = head
 
@@ -136,14 +156,17 @@ def forward(self, x):
         # convert to list
         if not isinstance(x, list):
             x = [x]
-        idx_crops = torch.cumsum(torch.unique_consecutive(
-            torch.tensor([inp.shape[-1] for inp in x]),
-            return_counts=True,
-        )[1], 0)
+        idx_crops = torch.cumsum(
+            torch.unique_consecutive(
+                torch.tensor([inp.shape[-1] for inp in x]),
+                return_counts=True,
+            )[1],
+            0,
+        )
 
         start_idx = 0
         for end_idx in idx_crops:
-            _out = self.backbone(torch.cat(x[start_idx: end_idx]))
+            _out = self.backbone(torch.cat(x[start_idx:end_idx]))
             if start_idx == 0:
                 output = _out
             else:
@@ -156,17 +179,18 @@ def forward(self, x):
             return output
 
 
-def cosine_scheduler(base_value, final_value, epochs, niter_per_ep,
-                     warmup_epochs=0, start_warmup_value=0):
+def cosine_scheduler(
+    base_value, final_value, epochs, niter_per_ep, warmup_epochs=0, start_warmup_value=0
+):
     warmup_schedule = np.array([])
     warmup_iters = warmup_epochs * niter_per_ep
     if warmup_epochs > 0:
-        warmup_schedule = \
-                np.linspace(start_warmup_value, base_value, warmup_iters)
+        warmup_schedule = np.linspace(start_warmup_value, base_value, warmup_iters)
 
     iters = np.arange(epochs * niter_per_ep - warmup_iters)
-    schedule = final_value + 0.5 * (base_value - final_value) \
-        * (1 + np.cos(np.pi * iters / len(iters)))
+    schedule = final_value + 0.5 * (base_value - final_value) * (
+        1 + np.cos(np.pi * iters / len(iters))
+    )
 
     schedule = np.concatenate((warmup_schedule, schedule))
     assert len(schedule) == epochs * niter_per_ep
@@ -176,47 +200,55 @@ def cosine_scheduler(base_value, final_value, epochs, niter_per_ep,
 def get_student_backbone_and_num_features(config, pre_process=True, post_process=True):
     args = get_args()
 
-    if args.vision_backbone_type == 'vit':
-        student = VitBackbone(config,
-                              pre_process=pre_process,
-                              post_process=post_process,
-                              drop_path_rate=0.1,
-                              single_token_output=True)
+    if args.vision_backbone_type == "vit":
+        student = VitBackbone(
+            config,
+            pre_process=pre_process,
+            post_process=post_process,
+            drop_path_rate=0.1,
+            single_token_output=True,
+        )
         num_features = args.hidden_size
-    elif args.vision_backbone_type == 'mit':
+    elif args.vision_backbone_type == "mit":
         student = mit_b5_avg(drop_path_rate=0.1)
         num_features = 512
-    elif args.vision_backbone_type == 'swin':
+    elif args.vision_backbone_type == "swin":
         student = get_swin()
         num_features = student.num_features
     else:
-        raise Exception('{} vision backbone is not supported.'.format(
-                              args.vision_backbone_type))
- 
+        raise Exception(
+            "{} vision backbone is not supported.".format(args.vision_backbone_type)
+        )
+
     return student, num_features
 
+
 def get_teacher_backbone_and_num_features(config, pre_process=True, post_process=True):
     args = get_args()
 
-    if args.vision_backbone_type == 'vit':
-        teacher = VitBackbone(config,
-                              pre_process=pre_process,
-                              post_process=post_process,
-                              single_token_output=True)
+    if args.vision_backbone_type == "vit":
+        teacher = VitBackbone(
+            config,
+            pre_process=pre_process,
+            post_process=post_process,
+            single_token_output=True,
+        )
         num_features = args.hidden_size
-    elif args.vision_backbone_type == 'mit':
+    elif args.vision_backbone_type == "mit":
         teacher = mit_b5_avg(drop_path_rate=0.0)
         num_features = 512
-    elif args.vision_backbone_type == 'swin':
+    elif args.vision_backbone_type == "swin":
         teacher = get_swin(is_teacher=True)
         num_features = teacher.num_features
     else:
-        raise Exception('{} vision backbone is not supported.'.format(
-                              args.vision_backbone_type))
+        raise Exception(
+            "{} vision backbone is not supported.".format(args.vision_backbone_type)
+        )
     return teacher, num_features
 
 
 class DINOPretrainModel(MegatronModule):
+
     def __init__(self, config, pre_process=True, post_process=True):
         super(DINOPretrainModel, self).__init__()
         args = get_args()
@@ -235,26 +267,29 @@ def __init__(self, config, pre_process=True, post_process=True):
         self.post_process = post_process
         self.momentum_teacher = 0.996
 
-        student_backbone, num_features = \
-            get_student_backbone_and_num_features(config, pre_process, post_process)
+        student_backbone, num_features = get_student_backbone_and_num_features(
+            config, pre_process, post_process
+        )
 
         self.student = MultiCropWrapper(
             student_backbone,
-            DINOHead(num_features, self.out_dim,
-                     norm_last_layer=args.dino_norm_last_layer)
+            DINOHead(
+                num_features, self.out_dim, norm_last_layer=args.dino_norm_last_layer
+            ),
         )
 
         self.momentum_schedule = cosine_scheduler(
-            self.momentum_teacher, 1,
+            self.momentum_teacher,
+            1,
             args.train_iters // args.iter_per_epoch,
-            args.iter_per_epoch
+            args.iter_per_epoch,
         )
 
-        teacher_backbone, num_features = \
-            get_teacher_backbone_and_num_features(config, pre_process, post_process)
+        teacher_backbone, num_features = get_teacher_backbone_and_num_features(
+            config, pre_process, post_process
+        )
         self.teacher = MultiCropWrapper(
-            teacher_backbone,
-            DINOHead(num_features, self.out_dim)
+            teacher_backbone, DINOHead(num_features, self.out_dim)
         )
         self.teacher.load_state_dict(self.student.state_dict())
 
@@ -285,6 +320,7 @@ def cancel_gradients_last_layer(self, iteration):
     def update_momentum(self, iteration):
         with torch.no_grad():
             m = self.momentum_schedule[iteration]
-            for param_q, param_k in zip(self.student.parameters(), self.teacher.parameters()):
+            for param_q, param_k in zip(
+                self.student.parameters(), self.teacher.parameters()
+            ):
                 param_k.data.mul_(m).add_((1 - m) * param_q.detach().data)
-
diff --git a/megatron/model/vision/esvit_swin_backbone.py b/megatron/model/vision/esvit_swin_backbone.py
index 70aee3db429..d5d167ce86f 100644
--- a/megatron/model/vision/esvit_swin_backbone.py
+++ b/megatron/model/vision/esvit_swin_backbone.py
@@ -23,8 +23,15 @@
 
 
 class Mlp(nn.Module):
-    def __init__(self, in_features, hidden_features=None,
-                 out_features=None, act_layer=nn.GELU, drop=0.):
+
+    def __init__(
+        self,
+        in_features,
+        hidden_features=None,
+        out_features=None,
+        act_layer=nn.GELU,
+        drop=0.0,
+    ):
         super(Mlp, self).__init__()
         out_features = out_features or in_features
         hidden_features = hidden_features or in_features
@@ -52,7 +59,9 @@ def window_partition(x, window_size):
     """
     B, H, W, C = x.shape
     x = x.view(B, H // window_size, window_size, W // window_size, window_size, C)
-    windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
+    windows = (
+        x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
+    )
     return windows
 
 
@@ -67,7 +76,9 @@ def window_reverse(windows, window_size, H, W):
         x: (B, H, W, C)
     """
     B = int(windows.shape[0] / (H * W / window_size / window_size))
-    x = windows.view(B, H // window_size, W // window_size, window_size, window_size, -1)
+    x = windows.view(
+        B, H // window_size, W // window_size, window_size, window_size, -1
+    )
     x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(B, H, W, -1)
     return x
 
@@ -85,26 +96,40 @@ class WindowAttention(nn.Module):
         proj_drop (float, optional): Dropout ratio of output. Default: 0.0
     """
 
-    def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.):
+    def __init__(
+        self,
+        dim,
+        window_size,
+        num_heads,
+        qkv_bias=True,
+        qk_scale=None,
+        attn_drop=0.0,
+        proj_drop=0.0,
+    ):
 
         super(WindowAttention, self).__init__()
         self.dim = dim
         self.window_size = window_size  # Wh, Ww
         self.num_heads = num_heads
         head_dim = dim // num_heads
-        self.scale = qk_scale or head_dim ** -0.5
+        self.scale = qk_scale or head_dim**-0.5
 
         # define a parameter table of relative position bias
         self.relative_position_bias_table = nn.Parameter(
-            torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))  # 2*Wh-1 * 2*Ww-1, nH
+            torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads)
+        )  # 2*Wh-1 * 2*Ww-1, nH
 
         # get pair-wise relative position index for each token inside the window
         coords_h = torch.arange(self.window_size[0])
         coords_w = torch.arange(self.window_size[1])
         coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww
         coords_flatten = torch.flatten(coords, 1)  # 2 Wh*Ww
-        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww
-        relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
+        relative_coords = (
+            coords_flatten[:, :, None] - coords_flatten[:, None, :]
+        )  # 2, Wh*Ww, Wh*Ww
+        relative_coords = relative_coords.permute(
+            1, 2, 0
+        ).contiguous()  # Wh*Ww, Wh*Ww, 2
         relative_coords[:, :, 0] += self.window_size[0] - 1  # shift to start from 0
         relative_coords[:, :, 1] += self.window_size[1] - 1
         relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
@@ -116,7 +141,7 @@ def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, at
         self.proj = nn.Linear(dim, dim)
         self.proj_drop = nn.Dropout(proj_drop)
 
-        trunc_normal_(self.relative_position_bias_table, std=.02)
+        trunc_normal_(self.relative_position_bias_table, std=0.02)
         self.softmax = nn.Softmax(dim=-1)
 
     def forward(self, x, mask=None):
@@ -126,20 +151,37 @@ def forward(self, x, mask=None):
             mask: (0/-inf) mask with shape of (num_windows, Wh*Ww, Wh*Ww) or None
         """
         B_, N, C = x.shape
-        qkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
-        q, k, v = qkv[0], qkv[1], qkv[2]  # make torchscript happy (cannot use tensor as tuple)
+        qkv = (
+            self.qkv(x)
+            .reshape(B_, N, 3, self.num_heads, C // self.num_heads)
+            .permute(2, 0, 3, 1, 4)
+        )
+        q, k, v = (
+            qkv[0],
+            qkv[1],
+            qkv[2],
+        )  # make torchscript happy (cannot use tensor as tuple)
 
         q = q * self.scale
-        attn = (q @ k.transpose(-2, -1))
-
-        relative_position_bias = self.relative_position_bias_table[self.relative_position_index.view(-1)].view(
-            self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)  # Wh*Ww,Wh*Ww,nH
-        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww
+        attn = q @ k.transpose(-2, -1)
+
+        relative_position_bias = self.relative_position_bias_table[
+            self.relative_position_index.view(-1)
+        ].view(
+            self.window_size[0] * self.window_size[1],
+            self.window_size[0] * self.window_size[1],
+            -1,
+        )  # Wh*Ww,Wh*Ww,nH
+        relative_position_bias = relative_position_bias.permute(
+            2, 0, 1
+        ).contiguous()  # nH, Wh*Ww, Wh*Ww
         attn = attn + relative_position_bias.unsqueeze(0)
 
         if mask is not None:
             nW = mask.shape[0]
-            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0).type(attn.type())
+            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(
+                1
+            ).unsqueeze(0).type(attn.type())
             attn = attn.view(-1, self.num_heads, N, N)
             attn = self.softmax(attn)
         else:
@@ -154,7 +196,7 @@ def forward(self, x, mask=None):
         return x, attn_out
 
     def extra_repr(self) -> str:
-        return f'dim={self.dim}, window_size={self.window_size}, num_heads={self.num_heads}'
+        return f"dim={self.dim}, window_size={self.window_size}, num_heads={self.num_heads}"
 
     def flops(self, N):
         # calculate flops for 1 window with token length of N
@@ -194,9 +236,22 @@ class SwinTransformerBlock(nn.Module):
         norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
     """
 
-    def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0,
-                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0., drop_path=0.,
-                 act_layer=nn.GELU, norm_layer=nn.LayerNorm):
+    def __init__(
+        self,
+        dim,
+        input_resolution,
+        num_heads,
+        window_size=7,
+        shift_size=0,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop=0.0,
+        attn_drop=0.0,
+        drop_path=0.0,
+        act_layer=nn.GELU,
+        norm_layer=nn.LayerNorm,
+    ):
         super().__init__()
         self.dim = dim
         self.input_resolution = input_resolution
@@ -208,50 +263,69 @@ def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0
             # if window size is larger than input resolution, we don't partition windows
             self.shift_size = 0
             self.window_size = min(self.input_resolution)
-        assert 0 <= self.shift_size < self.window_size, "shift_size must in 0-window_size"
+        assert (
+            0 <= self.shift_size < self.window_size
+        ), "shift_size must in 0-window_size"
 
         self.norm1 = norm_layer(dim)
         self.attn = WindowAttention(
-            dim, window_size=(self.window_size, self.window_size), num_heads=num_heads,
-            qkv_bias=qkv_bias, qk_scale=qk_scale, attn_drop=attn_drop, proj_drop=drop)
-
-        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
+            dim,
+            window_size=(self.window_size, self.window_size),
+            num_heads=num_heads,
+            qkv_bias=qkv_bias,
+            qk_scale=qk_scale,
+            attn_drop=attn_drop,
+            proj_drop=drop,
+        )
+
+        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()
         self.norm2 = norm_layer(dim)
         mlp_hidden_dim = int(dim * mlp_ratio)
-        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
+        self.mlp = Mlp(
+            in_features=dim,
+            hidden_features=mlp_hidden_dim,
+            act_layer=act_layer,
+            drop=drop,
+        )
 
         self.H = input_resolution[0]
         self.W = input_resolution[1]
 
         self.attn_mask_dict = {}
 
-
     def create_attn_mask(self, H, W):
         # calculate attention mask for SW-MSA
 
         Hp = int(np.ceil(H / self.window_size)) * self.window_size
         Wp = int(np.ceil(W / self.window_size)) * self.window_size
         img_mask = torch.zeros((1, Hp, Wp, 1))  # 1 Hp Wp 1
-        h_slices = (slice(0, -self.window_size),
-                    slice(-self.window_size, -self.shift_size),
-                    slice(-self.shift_size, None))
-        w_slices = (slice(0, -self.window_size),
-                    slice(-self.window_size, -self.shift_size),
-                    slice(-self.shift_size, None))
+        h_slices = (
+            slice(0, -self.window_size),
+            slice(-self.window_size, -self.shift_size),
+            slice(-self.shift_size, None),
+        )
+        w_slices = (
+            slice(0, -self.window_size),
+            slice(-self.window_size, -self.shift_size),
+            slice(-self.shift_size, None),
+        )
         cnt = 0
         for h in h_slices:
             for w in w_slices:
                 img_mask[:, h, w, :] = cnt
                 cnt += 1
 
-        mask_windows = window_partition(img_mask, self.window_size)  # nW, window_size, window_size, 1
+        mask_windows = window_partition(
+            img_mask, self.window_size
+        )  # nW, window_size, window_size, 1
         mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
         attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
-        attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))
+        attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(
+            attn_mask == 0, float(0.0)
+        )
 
         return attn_mask
 
-
     def forward(self, x):
         B, L, C = x.shape
         H = int(sqrt(L))
@@ -270,12 +344,16 @@ def forward(self, x):
 
         # cyclic shift
         if self.shift_size > 0:
-            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
+            shifted_x = torch.roll(
+                x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2)
+            )
 
             if H in self.attn_mask_dict.keys():
                 attn_mask = self.attn_mask_dict[H]
             else:
-                self.attn_mask_dict[H] = self.create_attn_mask(self.H, self.W).to(x.device)
+                self.attn_mask_dict[H] = self.create_attn_mask(self.H, self.W).to(
+                    x.device
+                )
                 attn_mask = self.attn_mask_dict[H]
 
         else:
@@ -283,11 +361,17 @@ def forward(self, x):
             attn_mask = None
 
         # partition windows
-        x_windows = window_partition(shifted_x, self.window_size)  # nW*B, window_size, window_size, C
-        x_windows = x_windows.view(-1, self.window_size * self.window_size, C)  # nW*B, window_size*window_size, C
+        x_windows = window_partition(
+            shifted_x, self.window_size
+        )  # nW*B, window_size, window_size, C
+        x_windows = x_windows.view(
+            -1, self.window_size * self.window_size, C
+        )  # nW*B, window_size*window_size, C
 
         # W-MSA/SW-MSA
-        attn_windows, attn = self.attn(x_windows, attn_mask)  # nW*B, window_size*window_size, C
+        attn_windows, attn = self.attn(
+            x_windows, attn_mask
+        )  # nW*B, window_size*window_size, C
 
         # merge windows
         attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C)
@@ -295,7 +379,9 @@ def forward(self, x):
 
         # reverse cyclic shift
         if self.shift_size > 0:
-            x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
+            x = torch.roll(
+                shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2)
+            )
         else:
             x = shifted_x
 
@@ -311,8 +397,10 @@ def forward(self, x):
         return x, attn
 
     def extra_repr(self) -> str:
-        return f"dim={self.dim}, input_resolution={self.input_resolution}, num_heads={self.num_heads}, " \
-               f"window_size={self.window_size}, shift_size={self.shift_size} mlp_ratio={self.mlp_ratio}"
+        return (
+            f"dim={self.dim}, input_resolution={self.input_resolution}, num_heads={self.num_heads}, "
+            f"window_size={self.window_size}, shift_size={self.shift_size} mlp_ratio={self.mlp_ratio}"
+        )
 
     def flops(self):
         flops = 0
@@ -345,7 +433,7 @@ def __init__(self, input_resolution, dim, norm_layer=nn.LayerNorm):
         self.norm = norm_layer(4 * dim)
 
     def forward(self, x):
-        """ Forward function.
+        """Forward function.
         Args:
             x: Input feature, tensor size (B, H*W, C).
             H, W: Spatial resolution of the input feature.
@@ -373,7 +461,6 @@ def forward(self, x):
 
         return x
 
-
     def extra_repr(self) -> str:
         return f"input_resolution={self.input_resolution}, dim={self.dim}"
 
@@ -402,27 +489,53 @@ class BasicLayer(nn.Module):
         downsample (nn.Module | None, optional): Downsample layer at the end of the layer. Default: None
     """
 
-    def __init__(self, dim, input_resolution, depth, num_heads, window_size,
-                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0.,
-                 drop_path=0., norm_layer=nn.LayerNorm, downsample=None):
+    def __init__(
+        self,
+        dim,
+        input_resolution,
+        depth,
+        num_heads,
+        window_size,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop=0.0,
+        attn_drop=0.0,
+        drop_path=0.0,
+        norm_layer=nn.LayerNorm,
+        downsample=None,
+    ):
 
         super().__init__()
         self.dim = dim
         self.input_resolution = input_resolution
         self.depth = depth
 
-        self.blocks = nn.ModuleList([
-            SwinTransformerBlock(dim=dim, input_resolution=input_resolution,
-                                 num_heads=num_heads, window_size=window_size,
-                                 shift_size=0 if (i % 2 == 0) else window_size // 2,
-                                 mlp_ratio=mlp_ratio,
-                                 qkv_bias=qkv_bias, qk_scale=qk_scale,
-                                 drop=drop, attn_drop=attn_drop,
-                                 drop_path=drop_path[i] if isinstance(drop_path, list) else drop_path,
-                                 norm_layer=norm_layer)
-            for i in range(depth)])
+        self.blocks = nn.ModuleList(
+            [
+                SwinTransformerBlock(
+                    dim=dim,
+                    input_resolution=input_resolution,
+                    num_heads=num_heads,
+                    window_size=window_size,
+                    shift_size=0 if (i % 2 == 0) else window_size // 2,
+                    mlp_ratio=mlp_ratio,
+                    qkv_bias=qkv_bias,
+                    qk_scale=qk_scale,
+                    drop=drop,
+                    attn_drop=attn_drop,
+                    drop_path=drop_path[i]
+                    if isinstance(drop_path, list)
+                    else drop_path,
+                    norm_layer=norm_layer,
+                )
+                for i in range(depth)
+            ]
+        )
         if downsample is not None:
-            self.downsample = downsample(input_resolution, dim=dim, norm_layer=norm_layer)
+            self.downsample = downsample(
+                input_resolution, dim=dim, norm_layer=norm_layer
+            )
         else:
             self.downsample = None
 
@@ -451,7 +564,6 @@ def forward_with_attention(self, x):
             x = self.downsample(x)
         return x, attns
 
-
     def extra_repr(self) -> str:
         return f"dim={self.dim}, input_resolution={self.input_resolution}, depth={self.depth}"
 
@@ -465,14 +577,18 @@ def flops(self):
 
 
 class PatchEmbed(nn.Module):
-    """ Image to Patch Embedding
-    """
+    """Image to Patch Embedding"""
 
-    def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768, norm_layer=None):
+    def __init__(
+        self, img_size=224, patch_size=16, in_chans=3, embed_dim=768, norm_layer=None
+    ):
         super().__init__()
         img_size = (img_size, img_size)
         patch_size = (patch_size, patch_size)
-        patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]
+        patches_resolution = [
+            img_size[0] // patch_size[0],
+            img_size[1] // patch_size[1],
+        ]
         self.img_size = img_size
         self.patch_size = patch_size
         self.patches_resolution = patches_resolution
@@ -481,7 +597,9 @@ def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768, norm_
         self.in_chans = in_chans
         self.embed_dim = embed_dim
 
-        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
+        self.proj = nn.Conv2d(
+            in_chans, embed_dim, kernel_size=patch_size, stride=patch_size
+        )
         if norm_layer is not None:
             self.norm = norm_layer(embed_dim)
         else:
@@ -495,16 +613,22 @@ def forward(self, x):
             x = self.norm(x)
         return x
 
-
     def flops(self):
         Ho, Wo = self.patches_resolution
-        flops = Ho * Wo * self.embed_dim * self.in_chans * (self.patch_size[0] * self.patch_size[1])
+        flops = (
+            Ho
+            * Wo
+            * self.embed_dim
+            * self.in_chans
+            * (self.patch_size[0] * self.patch_size[1])
+        )
         if self.norm is not None:
             flops += Ho * Wo * self.embed_dim
         return flops
 
+
 class SwinTransformer(nn.Module):
-    r""" Swin Transformer
+    r"""Swin Transformer
         A PyTorch impl of : `Swin Transformer: Hierarchical Vision Transformer using Shifted Windows`  -
           https://arxiv.org/pdf/2103.14030
     Args:
@@ -527,11 +651,27 @@ class SwinTransformer(nn.Module):
         patch_norm (bool): If True, add normalization after patch embedding.
     """
 
-    def __init__(self, img_size=224, patch_size=4, in_chans=3, num_classes=1000,
-                 embed_dim=96, depths=[2, 2, 6, 2], num_heads=[3, 6, 12, 24],
-                 window_size=7, mlp_ratio=4., qkv_bias=True, qk_scale=None,
-                 drop_rate=0., attn_drop_rate=0., drop_path_rate=0.1,
-                 norm_layer=nn.LayerNorm, ape=False, patch_norm=True, **kwargs):
+    def __init__(
+        self,
+        img_size=224,
+        patch_size=4,
+        in_chans=3,
+        num_classes=1000,
+        embed_dim=96,
+        depths=[2, 2, 6, 2],
+        num_heads=[3, 6, 12, 24],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.1,
+        norm_layer=nn.LayerNorm,
+        ape=False,
+        patch_norm=True,
+        **kwargs,
+    ):
         super().__init__()
 
         self.num_classes = num_classes
@@ -543,33 +683,47 @@ def __init__(self, img_size=224, patch_size=4, in_chans=3, num_classes=1000,
         self.mlp_ratio = mlp_ratio
 
         self.patch_embed = PatchEmbed(
-            img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim,
-            norm_layer=norm_layer if self.patch_norm else None)
+            img_size=img_size,
+            patch_size=patch_size,
+            in_chans=in_chans,
+            embed_dim=embed_dim,
+            norm_layer=norm_layer if self.patch_norm else None,
+        )
         num_patches = self.patch_embed.num_patches
         patches_resolution = self.patch_embed.patches_resolution
         self.patches_resolution = patches_resolution
 
         if self.ape:
-            self.absolute_pos_embed = nn.Parameter(torch.zeros(1, num_patches, embed_dim))
-            trunc_normal_(self.absolute_pos_embed, std=.02)
+            self.absolute_pos_embed = nn.Parameter(
+                torch.zeros(1, num_patches, embed_dim)
+            )
+            trunc_normal_(self.absolute_pos_embed, std=0.02)
 
         self.pos_drop = nn.Dropout(p=drop_rate)
 
-        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # stochastic depth decay rule
+        dpr = [
+            x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))
+        ]  # stochastic depth decay rule
         self.layers = nn.ModuleList()
         for i_layer in range(self.num_layers):
-            layer = BasicLayer(dim=int(embed_dim * 2 ** i_layer),
-                               input_resolution=(patches_resolution[0] // (2 ** i_layer),
-                                                 patches_resolution[1] // (2 ** i_layer)),
-                               depth=depths[i_layer],
-                               num_heads=num_heads[i_layer],
-                               window_size=window_size,
-                               mlp_ratio=self.mlp_ratio,
-                               qkv_bias=qkv_bias, qk_scale=qk_scale,
-                               drop=drop_rate, attn_drop=attn_drop_rate,
-                               drop_path=dpr[sum(depths[:i_layer]):sum(depths[:i_layer + 1])],
-                               norm_layer=norm_layer,
-                               downsample=PatchMerging if (i_layer < self.num_layers - 1) else None)
+            layer = BasicLayer(
+                dim=int(embed_dim * 2**i_layer),
+                input_resolution=(
+                    patches_resolution[0] // (2**i_layer),
+                    patches_resolution[1] // (2**i_layer),
+                ),
+                depth=depths[i_layer],
+                num_heads=num_heads[i_layer],
+                window_size=window_size,
+                mlp_ratio=self.mlp_ratio,
+                qkv_bias=qkv_bias,
+                qk_scale=qk_scale,
+                drop=drop_rate,
+                attn_drop=attn_drop_rate,
+                drop_path=dpr[sum(depths[:i_layer]) : sum(depths[: i_layer + 1])],
+                norm_layer=norm_layer,
+                downsample=PatchMerging if (i_layer < self.num_layers - 1) else None,
+            )
             self.layers.append(layer)
 
         self.norm = norm_layer(self.num_features)
@@ -579,7 +733,7 @@ def __init__(self, img_size=224, patch_size=4, in_chans=3, num_classes=1000,
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -588,12 +742,12 @@ def _init_weights(self, m):
 
     @torch.jit.ignore
     def no_weight_decay(self):
-        return {'absolute_pos_embed'}
+        return {"absolute_pos_embed"}
 
     @torch.jit.ignore
     def no_weight_decay_keywords(self):
         # todo: to be implemented
-        return {'relative_position_bias_table'}
+        return {"relative_position_bias_table"}
 
     def forward(self, x):
         x = self.patch_embed(x)
@@ -610,7 +764,6 @@ def forward(self, x):
 
         return x
 
-
     def forward_feature_maps(self, x):
         x = self.patch_embed(x)
         if self.ape:
@@ -626,17 +779,15 @@ def forward_feature_maps(self, x):
 
         return x, x_grid
 
-
     def forward_selfattention(self, x, n=1):
         # n=1 return the last layer attn map; otherwise return attn maps in all layers
 
-        
         x = self.patch_embed(x)
         if self.ape:
             x = x + self.absolute_pos_embed
         x = self.pos_drop(x)
 
-        if n==1:
+        if n == 1:
             return self.forward_last_selfattention(x)
         else:
             return self.forward_all_selfattention(x)
@@ -659,8 +810,9 @@ def forward_all_selfattention(self, x):
 
         return attn_out
 
-
-    def forward_return_n_last_blocks(self, x, n=1, return_patch_avgpool=False, depth=[]):
+    def forward_return_n_last_blocks(
+        self, x, n=1, return_patch_avgpool=False, depth=[]
+    ):
 
         num_blks = sum(depth)
         start_idx = num_blks - n
@@ -673,7 +825,6 @@ def forward_return_n_last_blocks(self, x, n=1, return_patch_avgpool=False, depth
                 start_blk = start_idx - sum_cur
             sum_cur = sum_cur_new
 
-
         x = self.patch_embed(x)
         if self.ape:
             x = x + self.absolute_pos_embed
@@ -689,19 +840,17 @@ def forward_return_n_last_blocks(self, x, n=1, return_patch_avgpool=False, depth
             if i >= start_stage:
                 for x_ in fea[start_blk:]:
 
-                    if i == len(self.layers)-1: # use the norm in the last stage
+                    if i == len(self.layers) - 1:  # use the norm in the last stage
                         x_ = self.norm(x_)
 
-                    x_avg = torch.flatten(self.avgpool(x_.transpose(1, 2)), 1)  # B C     
-                    # print(f'Stage {i},  x_avg {x_avg.shape}')          
+                    x_avg = torch.flatten(self.avgpool(x_.transpose(1, 2)), 1)  # B C
+                    # print(f'Stage {i},  x_avg {x_avg.shape}')
                     output.append(x_avg)
 
                 start_blk = 0
 
         return torch.cat(output, dim=-1)
 
-
-
     def flops(self):
         flops = 0
         flops += self.patch_embed.flops()
@@ -709,33 +858,40 @@ def flops(self):
             flops += layer.flops()
             if dist.get_rank() == 0:
                 print(f"GFLOPs layer_{i}: {layer.flops() / 1e9}")
-        flops += self.num_features * self.patches_resolution[0] * self.patches_resolution[1] // (2 ** self.num_layers)
+        flops += (
+            self.num_features
+            * self.patches_resolution[0]
+            * self.patches_resolution[1]
+            // (2**self.num_layers)
+        )
         flops += self.num_features * self.num_classes
         return flops
 
-    def init_weights(self, pretrained='', pretrained_layers=[], verbose=True):
+    def init_weights(self, pretrained="", pretrained_layers=[], verbose=True):
         if os.path.isfile(pretrained):
-            pretrained_dict = torch.load(pretrained, map_location='cpu')
-            logging.info(f'=> loading pretrained model {pretrained}')
+            pretrained_dict = torch.load(pretrained, map_location="cpu")
+            logging.info(f"=> loading pretrained model {pretrained}")
             model_dict = self.state_dict()
             pretrained_dict = {
-                k: v for k, v in pretrained_dict.items()
-                if k in model_dict.keys()
+                k: v for k, v in pretrained_dict.items() if k in model_dict.keys()
             }
             need_init_state_dict = {}
             for k, v in pretrained_dict.items():
                 need_init = (
-                        k.split('.')[0] in pretrained_layers
-                        or pretrained_layers[0] is '*'
-                        or 'relative_position_index' not in k
-                        or 'attn_mask' not in k
+                    k.split(".")[0] in pretrained_layers
+                    or pretrained_layers[0] is "*"
+                    or "relative_position_index" not in k
+                    or "attn_mask" not in k
                 )
 
                 if need_init:
                     if verbose:
-                        logging.info(f'=> init {k} from {pretrained}')
+                        logging.info(f"=> init {k} from {pretrained}")
 
-                    if 'relative_position_bias_table' in k and v.size() != model_dict[k].size():
+                    if (
+                        "relative_position_bias_table" in k
+                        and v.size() != model_dict[k].size()
+                    ):
                         relative_position_bias_table_pretrained = v
                         relative_position_bias_table_current = model_dict[k]
                         L1, nH1 = relative_position_bias_table_pretrained.size()
@@ -745,18 +901,28 @@ def init_weights(self, pretrained='', pretrained_layers=[], verbose=True):
                         else:
                             if L1 != L2:
                                 logging.info(
-                                    '=> load_pretrained: resized variant: {} to {}'
-                                        .format((L1, nH1), (L2, nH2))
+                                    "=> load_pretrained: resized variant: {} to {}".format(
+                                        (L1, nH1), (L2, nH2)
+                                    )
+                                )
+                                S1 = int(L1**0.5)
+                                S2 = int(L2**0.5)
+                                relative_position_bias_table_pretrained_resized = (
+                                    torch.nn.functional.interpolate(
+                                        relative_position_bias_table_pretrained.permute(
+                                            1, 0
+                                        ).view(1, nH1, S1, S1),
+                                        size=(S2, S2),
+                                        mode="bicubic",
+                                    )
+                                )
+                                v = relative_position_bias_table_pretrained_resized.view(
+                                    nH2, L2
+                                ).permute(
+                                    1, 0
                                 )
-                                S1 = int(L1 ** 0.5)
-                                S2 = int(L2 ** 0.5)
-                                relative_position_bias_table_pretrained_resized = torch.nn.functional.interpolate(
-                                    relative_position_bias_table_pretrained.permute(1, 0).view(1, nH1, S1, S1),
-                                    size=(S2, S2),
-                                    mode='bicubic')
-                                v = relative_position_bias_table_pretrained_resized.view(nH2, L2).permute(1, 0)
-
-                    if 'absolute_pos_embed' in k and v.size() != model_dict[k].size():
+
+                    if "absolute_pos_embed" in k and v.size() != model_dict[k].size():
                         absolute_pos_embed_pretrained = v
                         absolute_pos_embed_current = model_dict[k]
                         _, L1, C1 = absolute_pos_embed_pretrained.size()
@@ -766,16 +932,30 @@ def init_weights(self, pretrained='', pretrained_layers=[], verbose=True):
                         else:
                             if L1 != L2:
                                 logging.info(
-                                    '=> load_pretrained: resized variant: {} to {}'
-                                        .format((1, L1, C1), (1, L2, C2))
+                                    "=> load_pretrained: resized variant: {} to {}".format(
+                                        (1, L1, C1), (1, L2, C2)
+                                    )
+                                )
+                                S1 = int(L1**0.5)
+                                S2 = int(L2**0.5)
+                                absolute_pos_embed_pretrained = (
+                                    absolute_pos_embed_pretrained.reshape(
+                                        -1, S1, S1, C1
+                                    )
                                 )
-                                S1 = int(L1 ** 0.5)
-                                S2 = int(L2 ** 0.5)
-                                absolute_pos_embed_pretrained = absolute_pos_embed_pretrained.reshape(-1, S1, S1, C1)
-                                absolute_pos_embed_pretrained = absolute_pos_embed_pretrained.permute(0, 3, 1, 2)
-                                absolute_pos_embed_pretrained_resized = torch.nn.functional.interpolate(
-                                    absolute_pos_embed_pretrained, size=(S2, S2), mode='bicubic')
-                                v = absolute_pos_embed_pretrained_resized.permute(0, 2, 3, 1).flatten(1, 2)
+                                absolute_pos_embed_pretrained = (
+                                    absolute_pos_embed_pretrained.permute(0, 3, 1, 2)
+                                )
+                                absolute_pos_embed_pretrained_resized = (
+                                    torch.nn.functional.interpolate(
+                                        absolute_pos_embed_pretrained,
+                                        size=(S2, S2),
+                                        mode="bicubic",
+                                    )
+                                )
+                                v = absolute_pos_embed_pretrained_resized.permute(
+                                    0, 2, 3, 1
+                                ).flatten(1, 2)
 
                     need_init_state_dict[k] = v
             self.load_state_dict(need_init_state_dict, strict=False)
@@ -783,27 +963,21 @@ def init_weights(self, pretrained='', pretrained_layers=[], verbose=True):
     def freeze_pretrained_layers(self, frozen_layers=[]):
         for name, module in self.named_modules():
             if (
-                    name.split('.')[0] in frozen_layers
-                    or '.'.join(name.split('.')[0:2]) in frozen_layers
-                    or (len(frozen_layers) > 0 and frozen_layers[0] is '*')
+                name.split(".")[0] in frozen_layers
+                or ".".join(name.split(".")[0:2]) in frozen_layers
+                or (len(frozen_layers) > 0 and frozen_layers[0] is "*")
             ):
                 for _name, param in module.named_parameters():
                     param.requires_grad = False
-                logging.info(
-                    '=> set param {} requires grad to False'
-                        .format(name)
-                )
+                logging.info("=> set param {} requires grad to False".format(name))
         for name, param in self.named_parameters():
             if (
-                    name.split('.')[0] in frozen_layers
-                    or (len(frozen_layers) > 0 and frozen_layers[0] is '*')
-                    and param.requires_grad is True
+                name.split(".")[0] in frozen_layers
+                or (len(frozen_layers) > 0 and frozen_layers[0] is "*")
+                and param.requires_grad is True
             ):
                 param.requires_grad = False
-                logging.info(
-                    '=> set param {} requires grad to False'
-                        .format(name)
-                )
+                logging.info("=> set param {} requires grad to False".format(name))
         return self
 
 
@@ -815,7 +989,7 @@ def get_swin(is_teacher=False):
         depths = [2, 2, 6, 2]
         num_heads = [3, 6, 12, 24]
         drop_path_rate = 0.1
-    elif args.swin_backbone_type == 'h3':
+    elif args.swin_backbone_type == "h3":
         embed_dim = 384
         depths = [2, 2, 18, 2]
         num_heads = [6, 12, 24, 48]
@@ -846,4 +1020,3 @@ def get_swin(is_teacher=False):
     )
 
     return swin
-
diff --git a/megatron/model/vision/inpainting.py b/megatron/model/vision/inpainting.py
index 3d7a6da415e..b01ace72f28 100644
--- a/megatron/model/vision/inpainting.py
+++ b/megatron/model/vision/inpainting.py
@@ -42,7 +42,7 @@ def __init__(self, config, pre_process=True, post_process=True):
                 self.hidden_size,
                 self.backbone.flatten_dim,
                 torch.nn.init.zeros_,
-                gather_params_on_init=args.zero_stage == 3
+                gather_params_on_init=args.zero_stage == 3,
             )
 
     def set_input_tensor(self, input_tensor):
@@ -56,13 +56,13 @@ def forward(self, input):
             return hidden_states
         decoded_output = self.linear_decoder(hidden_states)
         output = einops.rearrange(
-                decoded_output,
-                "b (h w) (p1 p2 c) -> b c (h p1) (w p2)",
-                p1=self.patch_dim,
-                p2=self.patch_dim,
-                h=self.img_h//self.patch_dim,
-                w=self.img_w//self.patch_dim,
-            )
+            decoded_output,
+            "b (h w) (p1 p2 c) -> b c (h p1) (w p2)",
+            p1=self.patch_dim,
+            p2=self.patch_dim,
+            h=self.img_h // self.patch_dim,
+            w=self.img_w // self.patch_dim,
+        )
 
         return output
 
@@ -71,6 +71,7 @@ class MLP(torch.nn.Module):
     """
     Linear Embedding
     """
+
     def __init__(self, input_dim=2048, embed_dim=768):
         super().__init__()
         self.proj = torch.nn.Linear(input_dim, embed_dim)
@@ -99,19 +100,25 @@ def __init__(self, pre_process=True, post_process=True):
         self.in_channels = [64, 128, 320, 512]
         self.embedding_dim = 768
 
-        c1_in_channels, c2_in_channels, c3_in_channels, c4_in_channels = self.in_channels
+        c1_in_channels, c2_in_channels, c3_in_channels, c4_in_channels = (
+            self.in_channels
+        )
 
         self.linear_c4 = MLP(input_dim=c4_in_channels, embed_dim=self.embedding_dim)
         self.linear_c3 = MLP(input_dim=c3_in_channels, embed_dim=self.embedding_dim)
         self.linear_c2 = MLP(input_dim=c2_in_channels, embed_dim=self.embedding_dim)
         self.linear_c1 = MLP(input_dim=c1_in_channels, embed_dim=self.embedding_dim)
 
-        self.conv_fuse = torch.nn.Conv2d(self.embedding_dim*4, self.embedding_dim, 1, 1, bias=False)
+        self.conv_fuse = torch.nn.Conv2d(
+            self.embedding_dim * 4, self.embedding_dim, 1, 1, bias=False
+        )
         self.norm = apex.parallel.SyncBatchNorm(self.embedding_dim)
         self.dropout = torch.nn.Dropout2d(0.1)
-        
-        self.linear_pred = torch.nn.Conv2d(self.embedding_dim, self.flatten_dim, kernel_size=1)
-    
+
+        self.linear_pred = torch.nn.Conv2d(
+            self.embedding_dim, self.flatten_dim, kernel_size=1
+        )
+
     def set_input_tensor(self, input_tensor):
         """See megatron.model.transformer.set_input_tensor()"""
         pass
@@ -120,20 +127,28 @@ def forward(self, input):
         c1, c2, c3, c4 = self.backbone(input)
 
         n, _, h, w = c4.shape
-        _c4 = self.linear_c4(c4).permute(0, 2, 1).reshape(n, -1, c4.shape[2], c4.shape[3])
-        _c4 = resize(_c4, size=c1.size()[2:], mode='bilinear', align_corners=False)
-    
-        _c3 = self.linear_c3(c3).permute(0, 2, 1).reshape(n, -1, c3.shape[2], c3.shape[3])
-        _c3 = resize(_c3, size=c1.size()[2:], mode='bilinear', align_corners=False)
+        _c4 = (
+            self.linear_c4(c4).permute(0, 2, 1).reshape(n, -1, c4.shape[2], c4.shape[3])
+        )
+        _c4 = resize(_c4, size=c1.size()[2:], mode="bilinear", align_corners=False)
+
+        _c3 = (
+            self.linear_c3(c3).permute(0, 2, 1).reshape(n, -1, c3.shape[2], c3.shape[3])
+        )
+        _c3 = resize(_c3, size=c1.size()[2:], mode="bilinear", align_corners=False)
 
-        _c2 = self.linear_c2(c2).permute(0, 2, 1).reshape(n, -1, c2.shape[2], c2.shape[3])
-        _c2 = resize(_c2, size=c1.size()[2:], mode='bilinear', align_corners=False)
+        _c2 = (
+            self.linear_c2(c2).permute(0, 2, 1).reshape(n, -1, c2.shape[2], c2.shape[3])
+        )
+        _c2 = resize(_c2, size=c1.size()[2:], mode="bilinear", align_corners=False)
 
-        _c1 = self.linear_c1(c1).permute(0, 2, 1).reshape(n, -1, c1.shape[2], c1.shape[3])
+        _c1 = (
+            self.linear_c1(c1).permute(0, 2, 1).reshape(n, -1, c1.shape[2], c1.shape[3])
+        )
 
         _c = torch.cat([_c4, _c3, _c2, _c1], dim=1)
         _c = self.conv_fuse(_c)
- 
+
         x = self.norm(_c)
         x = F.relu(x, inplace=True)
         x = self.dropout(x)
@@ -145,8 +160,8 @@ def forward(self, input):
             "b (c p1 p2) h w -> b c (h p1) (w p2)",
             p1=self.patch_dim,
             p2=self.patch_dim,
-            h=self.img_h//self.patch_dim,
-            w=self.img_w//self.patch_dim,
+            h=self.img_h // self.patch_dim,
+            w=self.img_w // self.patch_dim,
         )
 
         return output
diff --git a/megatron/model/vision/knn_monitor.py b/megatron/model/vision/knn_monitor.py
index a7d79854eb5..18ec61e7b65 100644
--- a/megatron/model/vision/knn_monitor.py
+++ b/megatron/model/vision/knn_monitor.py
@@ -17,8 +17,11 @@ def build_data_loader(dataset, drop_last=True, shuffle=False):
     world_size = mpu.get_data_parallel_world_size()
     rank = mpu.get_data_parallel_rank()
     sampler = torch.utils.data.distributed.DistributedSampler(
-        dataset, num_replicas=world_size, rank=rank,
-        drop_last=drop_last, shuffle=shuffle
+        dataset,
+        num_replicas=world_size,
+        rank=rank,
+        drop_last=drop_last,
+        shuffle=shuffle,
     )
 
     # Data loader. Note that batch size is the per GPU batch size.
@@ -43,11 +46,11 @@ def compute_feature_bank(model):
     train_ds = ImageFolder(
         root=args.data_path[0],
         transform=ClassificationTransform((args.img_h, args.img_w), train=False),
-        data_per_class_fraction=1.0
+        data_per_class_fraction=1.0,
     )
     classes = len(train_ds.classes)
     dataloader = build_data_loader(train_ds)
-     
+
     for m in model:
         m.eval()
 
@@ -59,7 +62,7 @@ def compute_feature_bank(model):
             feature = F.normalize(teacher_feature.float(), dim=1)
             feature_bank.append(feature)
             feature_label.append(labels)
-    
+
     for m in model:
         m.train()
 
@@ -67,20 +70,25 @@ def compute_feature_bank(model):
     feature_bank = torch.cat(feature_bank, dim=0).contiguous()
     feature_label = torch.cat(feature_label, dim=0).contiguous()
 
-    feature_banks = [torch.zeros_like(feature_bank)
-                     for i in range(mpu.get_data_parallel_world_size())]
-    torch.distributed.all_gather(feature_banks,
-                                 feature_bank,
-                                 group=mpu.get_data_parallel_group())
+    feature_banks = [
+        torch.zeros_like(feature_bank)
+        for i in range(mpu.get_data_parallel_world_size())
+    ]
+    torch.distributed.all_gather(
+        feature_banks, feature_bank, group=mpu.get_data_parallel_group()
+    )
 
-    assert torch.all(torch.eq(feature_banks[mpu.get_data_parallel_rank()],
-                              feature_bank))
+    assert torch.all(
+        torch.eq(feature_banks[mpu.get_data_parallel_rank()], feature_bank)
+    )
 
-    feature_labels = [torch.zeros_like(feature_label)
-                      for i in range(mpu.get_data_parallel_world_size())]
-    torch.distributed.all_gather(feature_labels,
-                                 feature_label,
-                                 group=mpu.get_data_parallel_group())
+    feature_labels = [
+        torch.zeros_like(feature_label)
+        for i in range(mpu.get_data_parallel_world_size())
+    ]
+    torch.distributed.all_gather(
+        feature_labels, feature_label, group=mpu.get_data_parallel_group()
+    )
 
     # [D, N]
     feature_banks = torch.cat(feature_banks, dim=0).t().contiguous()
@@ -107,23 +115,24 @@ def knn_predict(feature, feature_bank, feature_labels, classes, knn_k, knn_t):
     # [B, K]
     sim_weight, sim_indices = sim_matrix.topk(k=knn_k, dim=-1)
     # [B, K]
-    sim_labels = torch.gather(feature_labels.expand(feature.size(0), -1),
-                              dim=-1,
-                              index=sim_indices)
+    sim_labels = torch.gather(
+        feature_labels.expand(feature.size(0), -1), dim=-1, index=sim_indices
+    )
     sim_weight = (sim_weight / knn_t).exp()
 
     # counts for each class
-    one_hot_label = torch.zeros(feature.size(0) * knn_k,
-                                classes,
-                                device=sim_labels.device)
+    one_hot_label = torch.zeros(
+        feature.size(0) * knn_k, classes, device=sim_labels.device
+    )
     # [B*K, C]
-    one_hot_label = one_hot_label.scatter(dim=-1,
-                                          index=sim_labels.view(-1, 1),
-                                          value=1.0)
+    one_hot_label = one_hot_label.scatter(
+        dim=-1, index=sim_labels.view(-1, 1), value=1.0
+    )
     # weighted score ---> [B, C]
     pred_scores = torch.sum(
-            one_hot_label.view(feature.size(0), -1, classes) * sim_weight.unsqueeze(dim=-1),
-            dim=1)
+        one_hot_label.view(feature.size(0), -1, classes) * sim_weight.unsqueeze(dim=-1),
+        dim=1,
+    )
 
     pred_labels = pred_scores.argsort(dim=-1, descending=True)
     return pred_labels
diff --git a/megatron/model/vision/mit_backbone.py b/megatron/model/vision/mit_backbone.py
index c67ca2c62bb..d238aab264a 100644
--- a/megatron/model/vision/mit_backbone.py
+++ b/megatron/model/vision/mit_backbone.py
@@ -2,7 +2,7 @@
 # Copyright (c) 2021, NVIDIA Corporation. All rights reserved.
 #
 # This work is licensed under the NVIDIA Source Code License
-# found in the LICENSE file in the root directory of this 
+# found in the LICENSE file in the root directory of this
 # source tree.
 # ---------------------------------------------------------------
 import math
@@ -16,12 +16,15 @@
 
 
 class Mlp(nn.Module):
-    def __init__(self,
-                 in_features,
-                 hidden_features=None,
-                 out_features=None,
-                 act_layer=nn.GELU,
-                 drop=0.):
+
+    def __init__(
+        self,
+        in_features,
+        hidden_features=None,
+        out_features=None,
+        act_layer=nn.GELU,
+        drop=0.0,
+    ):
         super().__init__()
         out_features = out_features or in_features
         hidden_features = hidden_features or in_features
@@ -35,7 +38,7 @@ def __init__(self,
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -59,21 +62,26 @@ def forward(self, x, H, W):
 
 
 class Attention(nn.Module):
-    def __init__(self,
-                 dim,
-                 num_heads=8,
-                 qkv_bias=False,
-                 qk_scale=None,
-                 attn_drop=0.,
-                 proj_drop=0.,
-                 sr_ratio=1):
+
+    def __init__(
+        self,
+        dim,
+        num_heads=8,
+        qkv_bias=False,
+        qk_scale=None,
+        attn_drop=0.0,
+        proj_drop=0.0,
+        sr_ratio=1,
+    ):
         super().__init__()
-        assert dim % num_heads == 0, f"dim {dim} should be divided by num_heads {num_heads}."
+        assert (
+            dim % num_heads == 0
+        ), f"dim {dim} should be divided by num_heads {num_heads}."
 
         self.dim = dim
         self.num_heads = num_heads
         head_dim = dim // num_heads
-        self.scale = qk_scale or head_dim ** -0.5
+        self.scale = qk_scale or head_dim**-0.5
 
         self.q = nn.Linear(dim, dim, bias=qkv_bias)
         self.kv = nn.Linear(dim, dim * 2, bias=qkv_bias)
@@ -90,7 +98,7 @@ def __init__(self,
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -105,15 +113,27 @@ def _init_weights(self, m):
 
     def forward(self, x, H, W):
         B, N, C = x.shape
-        q = self.q(x).reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
+        q = (
+            self.q(x)
+            .reshape(B, N, self.num_heads, C // self.num_heads)
+            .permute(0, 2, 1, 3)
+        )
 
         if self.sr_ratio > 1:
             x_ = x.permute(0, 2, 1).reshape(B, C, H, W)
             x_ = self.sr(x_).reshape(B, C, -1).permute(0, 2, 1)
             x_ = self.norm(x_)
-            kv = self.kv(x_).reshape(B, -1, 2, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
+            kv = (
+                self.kv(x_)
+                .reshape(B, -1, 2, self.num_heads, C // self.num_heads)
+                .permute(2, 0, 3, 1, 4)
+            )
         else:
-            kv = self.kv(x).reshape(B, -1, 2, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
+            kv = (
+                self.kv(x)
+                .reshape(B, -1, 2, self.num_heads, C // self.num_heads)
+                .permute(2, 0, 3, 1, 4)
+            )
         k, v = kv[0], kv[1]
 
         attn = (q @ k.transpose(-2, -1)) * self.scale
@@ -129,25 +149,47 @@ def forward(self, x, H, W):
 
 class Block(nn.Module):
 
-    def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False, qk_scale=None, drop=0., attn_drop=0.,
-                 drop_path=0., act_layer=nn.GELU, norm_layer=LayerNorm, sr_ratio=1):
+    def __init__(
+        self,
+        dim,
+        num_heads,
+        mlp_ratio=4.0,
+        qkv_bias=False,
+        qk_scale=None,
+        drop=0.0,
+        attn_drop=0.0,
+        drop_path=0.0,
+        act_layer=nn.GELU,
+        norm_layer=LayerNorm,
+        sr_ratio=1,
+    ):
         super().__init__()
         self.norm1 = norm_layer(dim)
         self.attn = Attention(
             dim,
-            num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale,
-            attn_drop=attn_drop, proj_drop=drop, sr_ratio=sr_ratio)
+            num_heads=num_heads,
+            qkv_bias=qkv_bias,
+            qk_scale=qk_scale,
+            attn_drop=attn_drop,
+            proj_drop=drop,
+            sr_ratio=sr_ratio,
+        )
         # NOTE: drop path for stochastic depth, we shall see if this is better than dropout here
-        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
+        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()
         self.norm2 = norm_layer(dim)
         mlp_hidden_dim = int(dim * mlp_ratio)
-        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
+        self.mlp = Mlp(
+            in_features=dim,
+            hidden_features=mlp_hidden_dim,
+            act_layer=act_layer,
+            drop=drop,
+        )
 
         self.apply(self._init_weights)
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -168,23 +210,27 @@ def forward(self, x, H, W):
 
 
 class OverlapPatchEmbed(nn.Module):
-    """ Image to Patch Embedding
-    """
+    """Image to Patch Embedding"""
 
     def __init__(self, img_size=224, patch_size=7, stride=4, in_chans=3, embed_dim=768):
         super().__init__()
         img_size = (img_size, img_size)
         patch_size = (patch_size, patch_size)
 
-        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=stride,
-                              padding=(patch_size[0] // 2, patch_size[1] // 2))
+        self.proj = nn.Conv2d(
+            in_chans,
+            embed_dim,
+            kernel_size=patch_size,
+            stride=stride,
+            padding=(patch_size[0] // 2, patch_size[1] // 2),
+        )
         self.norm = LayerNorm(embed_dim)
 
         self.apply(self._init_weights)
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -207,64 +253,150 @@ def forward(self, x):
 
 
 class MixVisionTransformer(nn.Module):
-    def __init__(self, img_size=224, patch_size=16, in_chans=3, num_classes=1000, embed_dims=[64, 128, 256, 512],
-                 num_heads=[1, 2, 4, 8], mlp_ratios=[4, 4, 4, 4], qkv_bias=False, qk_scale=None, drop_rate=0.,
-                 attn_drop_rate=0., drop_path_rate=0., norm_layer=LayerNorm,
-                 depths=[3, 4, 6, 3], sr_ratios=[8, 4, 2, 1], output_avg=False):
+
+    def __init__(
+        self,
+        img_size=224,
+        patch_size=16,
+        in_chans=3,
+        num_classes=1000,
+        embed_dims=[64, 128, 256, 512],
+        num_heads=[1, 2, 4, 8],
+        mlp_ratios=[4, 4, 4, 4],
+        qkv_bias=False,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.0,
+        norm_layer=LayerNorm,
+        depths=[3, 4, 6, 3],
+        sr_ratios=[8, 4, 2, 1],
+        output_avg=False,
+    ):
         super().__init__()
         self.num_classes = num_classes
         self.depths = depths
         self.output_avg = output_avg
 
         # patch_embed
-        self.patch_embed1 = OverlapPatchEmbed(img_size=img_size, patch_size=7, stride=4, in_chans=in_chans,
-                                              embed_dim=embed_dims[0])
-        self.patch_embed2 = OverlapPatchEmbed(img_size=img_size // 4, patch_size=3, stride=2, in_chans=embed_dims[0],
-                                              embed_dim=embed_dims[1])
-        self.patch_embed3 = OverlapPatchEmbed(img_size=img_size // 8, patch_size=3, stride=2, in_chans=embed_dims[1],
-                                              embed_dim=embed_dims[2])
-        self.patch_embed4 = OverlapPatchEmbed(img_size=img_size // 16, patch_size=3, stride=2, in_chans=embed_dims[2],
-                                              embed_dim=embed_dims[3])
+        self.patch_embed1 = OverlapPatchEmbed(
+            img_size=img_size,
+            patch_size=7,
+            stride=4,
+            in_chans=in_chans,
+            embed_dim=embed_dims[0],
+        )
+        self.patch_embed2 = OverlapPatchEmbed(
+            img_size=img_size // 4,
+            patch_size=3,
+            stride=2,
+            in_chans=embed_dims[0],
+            embed_dim=embed_dims[1],
+        )
+        self.patch_embed3 = OverlapPatchEmbed(
+            img_size=img_size // 8,
+            patch_size=3,
+            stride=2,
+            in_chans=embed_dims[1],
+            embed_dim=embed_dims[2],
+        )
+        self.patch_embed4 = OverlapPatchEmbed(
+            img_size=img_size // 16,
+            patch_size=3,
+            stride=2,
+            in_chans=embed_dims[2],
+            embed_dim=embed_dims[3],
+        )
 
         # transformer encoder
-        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # stochastic depth decay rule
+        dpr = [
+            x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))
+        ]  # stochastic depth decay rule
         cur = 0
-        self.block1 = nn.ModuleList([Block(
-            dim=embed_dims[0], num_heads=num_heads[0], mlp_ratio=mlp_ratios[0], qkv_bias=qkv_bias, qk_scale=qk_scale,
-            drop=drop_rate, attn_drop=attn_drop_rate, drop_path=dpr[cur + i], norm_layer=norm_layer,
-            sr_ratio=sr_ratios[0])
-            for i in range(depths[0])])
+        self.block1 = nn.ModuleList(
+            [
+                Block(
+                    dim=embed_dims[0],
+                    num_heads=num_heads[0],
+                    mlp_ratio=mlp_ratios[0],
+                    qkv_bias=qkv_bias,
+                    qk_scale=qk_scale,
+                    drop=drop_rate,
+                    attn_drop=attn_drop_rate,
+                    drop_path=dpr[cur + i],
+                    norm_layer=norm_layer,
+                    sr_ratio=sr_ratios[0],
+                )
+                for i in range(depths[0])
+            ]
+        )
         self.norm1 = norm_layer(embed_dims[0])
 
         cur += depths[0]
-        self.block2 = nn.ModuleList([Block(
-            dim=embed_dims[1], num_heads=num_heads[1], mlp_ratio=mlp_ratios[1], qkv_bias=qkv_bias, qk_scale=qk_scale,
-            drop=drop_rate, attn_drop=attn_drop_rate, drop_path=dpr[cur + i], norm_layer=norm_layer,
-            sr_ratio=sr_ratios[1])
-            for i in range(depths[1])])
+        self.block2 = nn.ModuleList(
+            [
+                Block(
+                    dim=embed_dims[1],
+                    num_heads=num_heads[1],
+                    mlp_ratio=mlp_ratios[1],
+                    qkv_bias=qkv_bias,
+                    qk_scale=qk_scale,
+                    drop=drop_rate,
+                    attn_drop=attn_drop_rate,
+                    drop_path=dpr[cur + i],
+                    norm_layer=norm_layer,
+                    sr_ratio=sr_ratios[1],
+                )
+                for i in range(depths[1])
+            ]
+        )
         self.norm2 = norm_layer(embed_dims[1])
 
         cur += depths[1]
-        self.block3 = nn.ModuleList([Block(
-            dim=embed_dims[2], num_heads=num_heads[2], mlp_ratio=mlp_ratios[2], qkv_bias=qkv_bias, qk_scale=qk_scale,
-            drop=drop_rate, attn_drop=attn_drop_rate, drop_path=dpr[cur + i], norm_layer=norm_layer,
-            sr_ratio=sr_ratios[2])
-            for i in range(depths[2])])
+        self.block3 = nn.ModuleList(
+            [
+                Block(
+                    dim=embed_dims[2],
+                    num_heads=num_heads[2],
+                    mlp_ratio=mlp_ratios[2],
+                    qkv_bias=qkv_bias,
+                    qk_scale=qk_scale,
+                    drop=drop_rate,
+                    attn_drop=attn_drop_rate,
+                    drop_path=dpr[cur + i],
+                    norm_layer=norm_layer,
+                    sr_ratio=sr_ratios[2],
+                )
+                for i in range(depths[2])
+            ]
+        )
         self.norm3 = norm_layer(embed_dims[2])
 
         cur += depths[2]
-        self.block4 = nn.ModuleList([Block(
-            dim=embed_dims[3], num_heads=num_heads[3], mlp_ratio=mlp_ratios[3], qkv_bias=qkv_bias, qk_scale=qk_scale,
-            drop=drop_rate, attn_drop=attn_drop_rate, drop_path=dpr[cur + i], norm_layer=norm_layer,
-            sr_ratio=sr_ratios[3])
-            for i in range(depths[3])])
+        self.block4 = nn.ModuleList(
+            [
+                Block(
+                    dim=embed_dims[3],
+                    num_heads=num_heads[3],
+                    mlp_ratio=mlp_ratios[3],
+                    qkv_bias=qkv_bias,
+                    qk_scale=qk_scale,
+                    drop=drop_rate,
+                    attn_drop=attn_drop_rate,
+                    drop_path=dpr[cur + i],
+                    norm_layer=norm_layer,
+                    sr_ratio=sr_ratios[3],
+                )
+                for i in range(depths[3])
+            ]
+        )
         self.norm4 = norm_layer(embed_dims[3])
 
         self.apply(self._init_weights)
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -339,7 +471,7 @@ def forward_features(self, x):
 
     def forward(self, x):
         x = self.forward_features(x)
-    
+
         if self.output_avg:
             x = x[3].mean(dim=1)
 
@@ -347,6 +479,7 @@ def forward(self, x):
 
 
 class DWConv(nn.Module):
+
     def __init__(self, dim=768):
         super(DWConv, self).__init__()
         self.dwconv = nn.Conv2d(dim, dim, 3, 1, 1, bias=True, groups=dim)
@@ -359,62 +492,140 @@ def forward(self, x, H, W):
 
         return x
 
+
 class mit_b0(MixVisionTransformer):
+
     def __init__(self, **kwargs):
         super(mit_b0, self).__init__(
-            patch_size=4, embed_dims=[32, 64, 160, 256], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[2, 2, 2, 2], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=0.1)
+            patch_size=4,
+            embed_dims=[32, 64, 160, 256],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[2, 2, 2, 2],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=0.1,
+        )
 
 
 class mit_b1(MixVisionTransformer):
+
     def __init__(self, **kwargs):
         super(mit_b1, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[2, 2, 2, 2], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=0.1)
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[2, 2, 2, 2],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=0.1,
+        )
 
 
 class mit_b2(MixVisionTransformer):
+
     def __init__(self, **kwargs):
         super(mit_b2, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[3, 4, 6, 3], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=0.1)
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[3, 4, 6, 3],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=0.1,
+        )
+
 
- 
 class mit_b3(MixVisionTransformer):
+
     def __init__(self, **kwargs):
         super(mit_b3, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[3, 4, 18, 3], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=0.1)
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[3, 4, 18, 3],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=0.1,
+        )
+
 
 class mit_b3_avg(MixVisionTransformer):
+
     def __init__(self, drop_path_rate=0.1, **kwargs):
         super(mit_b3_avg, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[3, 4, 18, 3], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=drop_path_rate, output_avg=True)
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[3, 4, 18, 3],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=drop_path_rate,
+            output_avg=True,
+        )
+
 
 class mit_b4(MixVisionTransformer):
+
     def __init__(self, **kwargs):
         super(mit_b4, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[3, 8, 27, 3], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=0.1)
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[3, 8, 27, 3],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=0.1,
+        )
+
 
 class mit_b5(MixVisionTransformer):
+
     def __init__(self, **kwargs):
         super(mit_b5, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[3, 6, 40, 3], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=0.1)
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[3, 6, 40, 3],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=0.1,
+        )
+
 
 class mit_b5_avg(MixVisionTransformer):
+
     def __init__(self, drop_path_rate=0.1, **kwargs):
         super(mit_b5_avg, self).__init__(
-            patch_size=4, embed_dims=[64, 128, 320, 512], num_heads=[1, 2, 5, 8], mlp_ratios=[4, 4, 4, 4],
-            qkv_bias=True, norm_layer=partial(LayerNorm, eps=1e-6), depths=[3, 6, 40, 3], sr_ratios=[8, 4, 2, 1],
-            drop_rate=0.0, drop_path_rate=drop_path_rate, output_avg=True)
-
+            patch_size=4,
+            embed_dims=[64, 128, 320, 512],
+            num_heads=[1, 2, 5, 8],
+            mlp_ratios=[4, 4, 4, 4],
+            qkv_bias=True,
+            norm_layer=partial(LayerNorm, eps=1e-6),
+            depths=[3, 6, 40, 3],
+            sr_ratios=[8, 4, 2, 1],
+            drop_rate=0.0,
+            drop_path_rate=drop_path_rate,
+            output_avg=True,
+        )
diff --git a/megatron/model/vision/swin_backbone.py b/megatron/model/vision/swin_backbone.py
index 9a622c7070f..cec11f26928 100644
--- a/megatron/model/vision/swin_backbone.py
+++ b/megatron/model/vision/swin_backbone.py
@@ -17,8 +17,15 @@
 
 
 class Mlp(nn.Module):
-    def __init__(self, in_features, hidden_features=None,
-                 out_features=None, act_layer=nn.GELU, drop=0.):
+
+    def __init__(
+        self,
+        in_features,
+        hidden_features=None,
+        out_features=None,
+        act_layer=nn.GELU,
+        drop=0.0,
+    ):
         super().__init__()
         out_features = out_features or in_features
         hidden_features = hidden_features or in_features
@@ -47,7 +54,9 @@ def window_partition(x, window_size):
     """
     B, H, W, C = x.shape
     x = x.view(B, H // window_size, window_size, W // window_size, window_size, C)
-    windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
+    windows = (
+        x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
+    )
     return windows
 
 
@@ -63,13 +72,15 @@ def window_reverse(windows, window_size, H, W):
         x: (B, H, W, C)
     """
     B = int(windows.shape[0] / (H * W / window_size / window_size))
-    x = windows.view(B, H // window_size, W // window_size, window_size, window_size, -1)
+    x = windows.view(
+        B, H // window_size, W // window_size, window_size, window_size, -1
+    )
     x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(B, H, W, -1)
     return x
 
 
 class WindowAttention(nn.Module):
-    r""" Window based multi-head self attention (W-MSA) module with relative position bias.
+    r"""Window based multi-head self attention (W-MSA) module with relative position bias.
     It supports both of shifted and non-shifted window.
 
     Args:
@@ -82,26 +93,40 @@ class WindowAttention(nn.Module):
         proj_drop (float, optional): Dropout ratio of output. Default: 0.0
     """
 
-    def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.):
+    def __init__(
+        self,
+        dim,
+        window_size,
+        num_heads,
+        qkv_bias=True,
+        qk_scale=None,
+        attn_drop=0.0,
+        proj_drop=0.0,
+    ):
 
         super().__init__()
         self.dim = dim
         self.window_size = window_size  # Wh, Ww
         self.num_heads = num_heads
         head_dim = dim // num_heads
-        self.scale = qk_scale or head_dim ** -0.5
+        self.scale = qk_scale or head_dim**-0.5
 
         # define a parameter table of relative position bias
         self.relative_position_bias_table = nn.Parameter(
-            torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))  # 2*Wh-1 * 2*Ww-1, nH
+            torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads)
+        )  # 2*Wh-1 * 2*Ww-1, nH
 
         # get pair-wise relative position index for each token inside the window
         coords_h = torch.arange(self.window_size[0])
         coords_w = torch.arange(self.window_size[1])
         coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww
         coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww
-        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww
-        relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
+        relative_coords = (
+            coords_flatten[:, :, None] - coords_flatten[:, None, :]
+        )  # 2, Wh*Ww, Wh*Ww
+        relative_coords = relative_coords.permute(
+            1, 2, 0
+        ).contiguous()  # Wh*Ww, Wh*Ww, 2
         relative_coords[:, :, 0] += self.window_size[0] - 1  # shift to start from 0
         relative_coords[:, :, 1] += self.window_size[1] - 1
         relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
@@ -113,7 +138,7 @@ def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, at
         self.proj = nn.Linear(dim, dim)
         self.proj_drop = nn.Dropout(proj_drop)
 
-        trunc_normal_(self.relative_position_bias_table, std=.02)
+        trunc_normal_(self.relative_position_bias_table, std=0.02)
         self.softmax = nn.Softmax(dim=-1)
 
     def forward(self, x, mask=None):
@@ -123,20 +148,37 @@ def forward(self, x, mask=None):
             mask: (0/-inf) mask with shape of (num_windows, Wh*Ww, Wh*Ww) or None
         """
         B_, N, C = x.shape
-        qkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
-        q, k, v = qkv[0], qkv[1], qkv[2]  # make torchscript happy (cannot use tensor as tuple)
+        qkv = (
+            self.qkv(x)
+            .reshape(B_, N, 3, self.num_heads, C // self.num_heads)
+            .permute(2, 0, 3, 1, 4)
+        )
+        q, k, v = (
+            qkv[0],
+            qkv[1],
+            qkv[2],
+        )  # make torchscript happy (cannot use tensor as tuple)
 
         q = q * self.scale
-        attn = (q @ k.transpose(-2, -1))
-
-        relative_position_bias = self.relative_position_bias_table[self.relative_position_index.view(-1)].view(
-            self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)  # Wh*Ww,Wh*Ww,nH
-        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww
+        attn = q @ k.transpose(-2, -1)
+
+        relative_position_bias = self.relative_position_bias_table[
+            self.relative_position_index.view(-1)
+        ].view(
+            self.window_size[0] * self.window_size[1],
+            self.window_size[0] * self.window_size[1],
+            -1,
+        )  # Wh*Ww,Wh*Ww,nH
+        relative_position_bias = relative_position_bias.permute(
+            2, 0, 1
+        ).contiguous()  # nH, Wh*Ww, Wh*Ww
         attn = attn + relative_position_bias.unsqueeze(0)
 
         if mask is not None:
             nW = mask.shape[0]
-            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)
+            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(
+                1
+            ).unsqueeze(0)
             attn = attn.view(-1, self.num_heads, N, N)
             attn = self.softmax(attn)
         else:
@@ -150,7 +192,7 @@ def forward(self, x, mask=None):
         return x
 
     def extra_repr(self) -> str:
-        return f'dim={self.dim}, window_size={self.window_size}, num_heads={self.num_heads}'
+        return f"dim={self.dim}, window_size={self.window_size}, num_heads={self.num_heads}"
 
     def flops(self, N):
         # calculate flops for 1 window with token length of N
@@ -167,7 +209,7 @@ def flops(self, N):
 
 
 class SwinTransformerBlock(nn.Module):
-    r""" Swin Transformer Block.
+    r"""Swin Transformer Block.
 
     Args:
         dim (int): Number of input channels.
@@ -185,9 +227,22 @@ class SwinTransformerBlock(nn.Module):
         norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
     """
 
-    def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0,
-                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0., drop_path=0.,
-                 act_layer=nn.GELU, norm_layer=nn.LayerNorm):
+    def __init__(
+        self,
+        dim,
+        input_resolution,
+        num_heads,
+        window_size=7,
+        shift_size=0,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop=0.0,
+        attn_drop=0.0,
+        drop_path=0.0,
+        act_layer=nn.GELU,
+        norm_layer=nn.LayerNorm,
+    ):
         super().__init__()
         self.dim = dim
         self.input_resolution = input_resolution
@@ -199,22 +254,35 @@ def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0
             # if window size is larger than input resolution, we don't partition windows
             self.shift_size = 0
             self.window_size = min(self.input_resolution)
-        assert 0 <= self.shift_size < self.window_size, "shift_size must in 0-window_size"
+        assert (
+            0 <= self.shift_size < self.window_size
+        ), "shift_size must in 0-window_size"
 
         self.norm1 = norm_layer(dim)
         self.attn = WindowAttention(
-            dim, window_size=to_2tuple(self.window_size), num_heads=num_heads,
-            qkv_bias=qkv_bias, qk_scale=qk_scale, attn_drop=attn_drop, proj_drop=drop)
-
-        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
+            dim,
+            window_size=to_2tuple(self.window_size),
+            num_heads=num_heads,
+            qkv_bias=qkv_bias,
+            qk_scale=qk_scale,
+            attn_drop=attn_drop,
+            proj_drop=drop,
+        )
+
+        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()
         self.norm2 = norm_layer(dim)
         mlp_hidden_dim = int(dim * mlp_ratio)
-        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
+        self.mlp = Mlp(
+            in_features=dim,
+            hidden_features=mlp_hidden_dim,
+            act_layer=act_layer,
+            drop=drop,
+        )
 
         self.H = input_resolution[0]
         self.W = input_resolution[1]
 
-        self.attn_mask_dict = {} 
+        self.attn_mask_dict = {}
 
     def create_attn_mask(self, H, W):
         # calculate attention mask for SW-MSA
@@ -222,26 +290,33 @@ def create_attn_mask(self, H, W):
         Hp = int(np.ceil(H / self.window_size)) * self.window_size
         Wp = int(np.ceil(W / self.window_size)) * self.window_size
         img_mask = torch.zeros((1, Hp, Wp, 1))  # 1 Hp Wp 1
-        h_slices = (slice(0, -self.window_size),
-                    slice(-self.window_size, -self.shift_size),
-                    slice(-self.shift_size, None))
-        w_slices = (slice(0, -self.window_size),
-                    slice(-self.window_size, -self.shift_size),
-                    slice(-self.shift_size, None))
+        h_slices = (
+            slice(0, -self.window_size),
+            slice(-self.window_size, -self.shift_size),
+            slice(-self.shift_size, None),
+        )
+        w_slices = (
+            slice(0, -self.window_size),
+            slice(-self.window_size, -self.shift_size),
+            slice(-self.shift_size, None),
+        )
         cnt = 0
         for h in h_slices:
             for w in w_slices:
                 img_mask[:, h, w, :] = cnt
                 cnt += 1
 
-        mask_windows = window_partition(img_mask, self.window_size)  # nW, window_size, window_size, 1
+        mask_windows = window_partition(
+            img_mask, self.window_size
+        )  # nW, window_size, window_size, 1
         mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
         attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
-        attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))
+        attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(
+            attn_mask == 0, float(0.0)
+        )
 
         return attn_mask
 
-
     def forward(self, x):
         B, L, C = x.shape
         H = int(sqrt(L))
@@ -253,16 +328,24 @@ def forward(self, x):
 
         # cyclic shift
         if self.shift_size > 0:
-            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
+            shifted_x = torch.roll(
+                x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2)
+            )
         else:
             shifted_x = x
 
         # partition windows
-        x_windows = window_partition(shifted_x, self.window_size)  # nW*B, window_size, window_size, C
-        x_windows = x_windows.view(-1, self.window_size * self.window_size, C)  # nW*B, window_size*window_size, C
+        x_windows = window_partition(
+            shifted_x, self.window_size
+        )  # nW*B, window_size, window_size, C
+        x_windows = x_windows.view(
+            -1, self.window_size * self.window_size, C
+        )  # nW*B, window_size*window_size, C
 
         # W-MSA/SW-MSA
-        attn_windows = self.attn(x_windows, mask=self.attn_mask)  # nW*B, window_size*window_size, C
+        attn_windows = self.attn(
+            x_windows, mask=self.attn_mask
+        )  # nW*B, window_size*window_size, C
 
         # merge windows
         attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C)
@@ -270,7 +353,9 @@ def forward(self, x):
 
         # reverse cyclic shift
         if self.shift_size > 0:
-            x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
+            x = torch.roll(
+                shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2)
+            )
         else:
             x = shifted_x
         x = x.view(B, H * W, C)
@@ -282,8 +367,10 @@ def forward(self, x):
         return x
 
     def extra_repr(self) -> str:
-        return f"dim={self.dim}, input_resolution={self.input_resolution}, num_heads={self.num_heads}, " \
-               f"window_size={self.window_size}, shift_size={self.shift_size}, mlp_ratio={self.mlp_ratio}"
+        return (
+            f"dim={self.dim}, input_resolution={self.input_resolution}, num_heads={self.num_heads}, "
+            f"window_size={self.window_size}, shift_size={self.shift_size}, mlp_ratio={self.mlp_ratio}"
+        )
 
     def flops(self):
         flops = 0
@@ -301,7 +388,7 @@ def flops(self):
 
 
 class PatchMerging(nn.Module):
-    r""" Patch Merging Layer.
+    r"""Patch Merging Layer.
 
     Args:
         input_resolution (tuple[int]): Resolution of input feature.
@@ -350,7 +437,7 @@ def flops(self):
 
 
 class BasicLayer(nn.Module):
-    """ A basic Swin Transformer layer for one stage.
+    """A basic Swin Transformer layer for one stage.
 
     Args:
         dim (int): Number of input channels.
@@ -369,9 +456,23 @@ class BasicLayer(nn.Module):
         use_checkpoint (bool): Whether to use checkpointing to save memory. Default: False.
     """
 
-    def __init__(self, dim, input_resolution, depth, num_heads, window_size,
-                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0.,
-                 drop_path=0., norm_layer=nn.LayerNorm, downsample=None, use_checkpoint=False):
+    def __init__(
+        self,
+        dim,
+        input_resolution,
+        depth,
+        num_heads,
+        window_size,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop=0.0,
+        attn_drop=0.0,
+        drop_path=0.0,
+        norm_layer=nn.LayerNorm,
+        downsample=None,
+        use_checkpoint=False,
+    ):
 
         super().__init__()
         self.dim = dim
@@ -380,20 +481,33 @@ def __init__(self, dim, input_resolution, depth, num_heads, window_size,
         self.use_checkpoint = use_checkpoint
 
         # build blocks
-        self.blocks = nn.ModuleList([
-            SwinTransformerBlock(dim=dim, input_resolution=input_resolution,
-                                 num_heads=num_heads, window_size=window_size,
-                                 shift_size=0 if (i % 2 == 0) else window_size // 2,
-                                 mlp_ratio=mlp_ratio,
-                                 qkv_bias=qkv_bias, qk_scale=qk_scale,
-                                 drop=drop, attn_drop=attn_drop,
-                                 drop_path=drop_path[i] if isinstance(drop_path, list) else drop_path,
-                                 norm_layer=norm_layer)
-            for i in range(depth)])
+        self.blocks = nn.ModuleList(
+            [
+                SwinTransformerBlock(
+                    dim=dim,
+                    input_resolution=input_resolution,
+                    num_heads=num_heads,
+                    window_size=window_size,
+                    shift_size=0 if (i % 2 == 0) else window_size // 2,
+                    mlp_ratio=mlp_ratio,
+                    qkv_bias=qkv_bias,
+                    qk_scale=qk_scale,
+                    drop=drop,
+                    attn_drop=attn_drop,
+                    drop_path=drop_path[i]
+                    if isinstance(drop_path, list)
+                    else drop_path,
+                    norm_layer=norm_layer,
+                )
+                for i in range(depth)
+            ]
+        )
 
         # patch merging layer
         if downsample is not None:
-            self.downsample = downsample(input_resolution, dim=dim, norm_layer=norm_layer)
+            self.downsample = downsample(
+                input_resolution, dim=dim, norm_layer=norm_layer
+            )
         else:
             self.downsample = None
 
@@ -421,7 +535,7 @@ def flops(self):
 
 
 class PatchEmbed(nn.Module):
-    r""" Image to Patch Embedding
+    r"""Image to Patch Embedding
 
     Args:
         img_size (int): Image size.  Default: 224.
@@ -431,11 +545,16 @@ class PatchEmbed(nn.Module):
         norm_layer (nn.Module, optional): Normalization layer. Default: None
     """
 
-    def __init__(self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_layer=None):
+    def __init__(
+        self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_layer=None
+    ):
         super().__init__()
         img_size = to_2tuple(img_size)
         patch_size = to_2tuple(patch_size)
-        patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]
+        patches_resolution = [
+            img_size[0] // patch_size[0],
+            img_size[1] // patch_size[1],
+        ]
         self.img_size = img_size
         self.patch_size = patch_size
         self.patches_resolution = patches_resolution
@@ -444,7 +563,9 @@ def __init__(self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_la
         self.in_chans = in_chans
         self.embed_dim = embed_dim
 
-        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
+        self.proj = nn.Conv2d(
+            in_chans, embed_dim, kernel_size=patch_size, stride=patch_size
+        )
         if norm_layer is not None:
             self.norm = norm_layer(embed_dim)
         else:
@@ -453,8 +574,9 @@ def __init__(self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_la
     def forward(self, x):
         B, C, H, W = x.shape
         # FIXME look at relaxing size constraints
-        assert H == self.img_size[0] and W == self.img_size[1], \
-            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
+        assert (
+            H == self.img_size[0] and W == self.img_size[1]
+        ), f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
         x = self.proj(x).flatten(2).transpose(1, 2)  # B Ph*Pw C
         if self.norm is not None:
             x = self.norm(x)
@@ -462,14 +584,20 @@ def forward(self, x):
 
     def flops(self):
         Ho, Wo = self.patches_resolution
-        flops = Ho * Wo * self.embed_dim * self.in_chans * (self.patch_size[0] * self.patch_size[1])
+        flops = (
+            Ho
+            * Wo
+            * self.embed_dim
+            * self.in_chans
+            * (self.patch_size[0] * self.patch_size[1])
+        )
         if self.norm is not None:
             flops += Ho * Wo * self.embed_dim
         return flops
 
 
 class SwinTransformer(nn.Module):
-    r""" Swin Transformer
+    r"""Swin Transformer
         A PyTorch impl of : `Swin Transformer: Hierarchical Vision Transformer using Shifted Windows`  -
           https://arxiv.org/pdf/2103.14030
 
@@ -493,12 +621,28 @@ class SwinTransformer(nn.Module):
         use_checkpoint (bool): Whether to use checkpointing to save memory. Default: False
     """
 
-    def __init__(self, img_size=224, patch_size=4, in_chans=3,
-                 embed_dim=96, depths=[2, 2, 6, 2], num_heads=[3, 6, 12, 24],
-                 window_size=7, mlp_ratio=4., qkv_bias=True, qk_scale=None,
-                 drop_rate=0., attn_drop_rate=0., drop_path_rate=0.3,
-                 norm_layer=partial(nn.LayerNorm, eps=1e-6), ape=False, patch_norm=True,
-                 use_checkpoint=False, output_avg=False, **kwargs):
+    def __init__(
+        self,
+        img_size=224,
+        patch_size=4,
+        in_chans=3,
+        embed_dim=96,
+        depths=[2, 2, 6, 2],
+        num_heads=[3, 6, 12, 24],
+        window_size=7,
+        mlp_ratio=4.0,
+        qkv_bias=True,
+        qk_scale=None,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.3,
+        norm_layer=partial(nn.LayerNorm, eps=1e-6),
+        ape=False,
+        patch_norm=True,
+        use_checkpoint=False,
+        output_avg=False,
+        **kwargs,
+    ):
         super().__init__()
 
         self.num_layers = len(depths)
@@ -510,48 +654,62 @@ def __init__(self, img_size=224, patch_size=4, in_chans=3,
         self.img_size = to_2tuple(img_size)
         self.patch_size = to_2tuple(patch_size)
         self.output_avg = output_avg
-        
+
         # split image into non-overlapping patches
         self.patch_embed = PatchEmbed(
-            img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim,
-            norm_layer=norm_layer if self.patch_norm else None)
+            img_size=img_size,
+            patch_size=patch_size,
+            in_chans=in_chans,
+            embed_dim=embed_dim,
+            norm_layer=norm_layer if self.patch_norm else None,
+        )
         num_patches = self.patch_embed.num_patches
         patches_resolution = self.patch_embed.patches_resolution
         self.patches_resolution = patches_resolution
 
         # absolute position embedding
         if self.ape:
-            self.absolute_pos_embed = nn.Parameter(torch.zeros(1, num_patches, embed_dim))
-            trunc_normal_(self.absolute_pos_embed, std=.02)
+            self.absolute_pos_embed = nn.Parameter(
+                torch.zeros(1, num_patches, embed_dim)
+            )
+            trunc_normal_(self.absolute_pos_embed, std=0.02)
 
         self.pos_drop = nn.Dropout(p=drop_rate)
 
         # stochastic depth
-        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # stochastic depth decay rule
+        dpr = [
+            x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))
+        ]  # stochastic depth decay rule
 
         # build layers
         self.layers = nn.ModuleList()
         for i_layer in range(self.num_layers):
-            layer = BasicLayer(dim=int(embed_dim * 2 ** i_layer),
-                               input_resolution=(patches_resolution[0] // (2 ** i_layer),
-                                                 patches_resolution[1] // (2 ** i_layer)),
-                               depth=depths[i_layer],
-                               num_heads=num_heads[i_layer],
-                               window_size=window_size,
-                               mlp_ratio=self.mlp_ratio,
-                               qkv_bias=qkv_bias, qk_scale=qk_scale,
-                               drop=drop_rate, attn_drop=attn_drop_rate,
-                               drop_path=dpr[sum(depths[:i_layer]):sum(depths[:i_layer + 1])],
-                               norm_layer=norm_layer,
-                               downsample=PatchMerging if (i_layer < self.num_layers - 1) else None,
-                               use_checkpoint=use_checkpoint)
+            layer = BasicLayer(
+                dim=int(embed_dim * 2**i_layer),
+                input_resolution=(
+                    patches_resolution[0] // (2**i_layer),
+                    patches_resolution[1] // (2**i_layer),
+                ),
+                depth=depths[i_layer],
+                num_heads=num_heads[i_layer],
+                window_size=window_size,
+                mlp_ratio=self.mlp_ratio,
+                qkv_bias=qkv_bias,
+                qk_scale=qk_scale,
+                drop=drop_rate,
+                attn_drop=attn_drop_rate,
+                drop_path=dpr[sum(depths[:i_layer]) : sum(depths[: i_layer + 1])],
+                norm_layer=norm_layer,
+                downsample=PatchMerging if (i_layer < self.num_layers - 1) else None,
+                use_checkpoint=use_checkpoint,
+            )
             self.layers.append(layer)
 
         self.apply(self._init_weights)
 
     def _init_weights(self, m):
         if isinstance(m, nn.Linear):
-            trunc_normal_(m.weight, std=.02)
+            trunc_normal_(m.weight, std=0.02)
             if isinstance(m, nn.Linear) and m.bias is not None:
                 nn.init.constant_(m.bias, 0)
         elif isinstance(m, nn.LayerNorm):
@@ -560,11 +718,11 @@ def _init_weights(self, m):
 
     @torch.jit.ignore
     def no_weight_decay(self):
-        return {'absolute_pos_embed'}
+        return {"absolute_pos_embed"}
 
     @torch.jit.ignore
     def no_weight_decay_keywords(self):
-        return {'relative_position_bias_table'}
+        return {"relative_position_bias_table"}
 
     def forward(self, x):
         x = self.patch_embed(x)
@@ -584,7 +742,7 @@ def forward(self, x):
                 px = px.permute(0, 2, 1).contiguous()
                 px = px.reshape(b, c, h, w)
             # is this a fair assumption ?? i think it's baked into the architecture
-            h, w = h//2, w//2
+            h, w = h // 2, w // 2
             outs.append(px)
 
         if self.output_avg:
@@ -597,7 +755,12 @@ def flops(self):
         flops += self.patch_embed.flops()
         for i, layer in enumerate(self.layers):
             flops += layer.flops()
-        flops += self.num_features * self.patches_resolution[0] * self.patches_resolution[1] // (2 ** self.num_layers)
+        flops += (
+            self.num_features
+            * self.patches_resolution[0]
+            * self.patches_resolution[1]
+            // (2**self.num_layers)
+        )
         flops += self.num_features * self.num_classes
         return flops
 
@@ -610,7 +773,10 @@ def get_swin(drop_path_rate=0.3, output_avg=False):
     depths = [2, 2, 18, 2]
     num_heads = [4, 8, 16, 32]
     swin = SwinTransformer(
-        img_size=(args.img_h, args.img_w,),
+        img_size=(
+            args.img_h,
+            args.img_w,
+        ),
         in_chans=3,
         patch_size=args.patch_dim,
         embed_dim=embed_dim,
@@ -622,4 +788,3 @@ def get_swin(drop_path_rate=0.3, output_avg=False):
     )
 
     return swin
-
diff --git a/megatron/model/vision/utils.py b/megatron/model/vision/utils.py
index b4068912c8b..d40b5e5fa7c 100644
--- a/megatron/model/vision/utils.py
+++ b/megatron/model/vision/utils.py
@@ -3,25 +3,30 @@
 import torch.nn.functional as F
 
 
-def resize(input,
-           size=None,
-           scale_factor=None,
-           mode='nearest',
-           align_corners=None,
-           warning=True):
+def resize(
+    input,
+    size=None,
+    scale_factor=None,
+    mode="nearest",
+    align_corners=None,
+    warning=True,
+):
     if warning:
         if size is not None and align_corners:
             input_h, input_w = tuple(int(x) for x in input.shape[2:])
             output_h, output_w = tuple(int(x) for x in size)
             if output_h > input_h or output_w > output_h:
-                if ((output_h > 1 and output_w > 1 and input_h > 1
-                     and input_w > 1) and (output_h - 1) % (input_h - 1)
-                        and (output_w - 1) % (input_w - 1)):
+                if (
+                    (output_h > 1 and output_w > 1 and input_h > 1 and input_w > 1)
+                    and (output_h - 1) % (input_h - 1)
+                    and (output_w - 1) % (input_w - 1)
+                ):
                     warnings.warn(
-                        f'When align_corners={align_corners}, '
-                        'the output would more aligned if '
-                        f'input size {(input_h, input_w)} is `x+1` and '
-                        f'out size {(output_h, output_w)} is `nx+1`')
+                        f"When align_corners={align_corners}, "
+                        "the output would more aligned if "
+                        f"input size {(input_h, input_w)} is `x+1` and "
+                        f"out size {(output_h, output_w)} is `nx+1`"
+                    )
     if isinstance(size, torch.Size):
         size = tuple(int(x) for x in size)
     return F.interpolate(input, size, scale_factor, mode, align_corners)
diff --git a/megatron/model/vision/vit_backbone.py b/megatron/model/vision/vit_backbone.py
index 1efef9c17a8..cadeb8faccb 100644
--- a/megatron/model/vision/vit_backbone.py
+++ b/megatron/model/vision/vit_backbone.py
@@ -18,6 +18,7 @@
 
 CLASS_TOKEN_LENGTH = 8
 
+
 class VitMlpHead(MegatronModule):
     """Pooler layer.
 
@@ -47,9 +48,9 @@ def forward(self, hidden_states):
 
 
 def isPerfectSquare(x):
-    if(x >= 0):
+    if x >= 0:
         sr = math.sqrt(x)
-        return (int(sr) * int(sr) == x)
+        return int(sr) * int(sr) == x
     return False
 
 
@@ -76,9 +77,15 @@ def twod_interpolate_position_embeddings_hook(
         input_param = state_dict[key]
 
         input_seq_len = input_param.shape[0]
-        assert(isPerfectSquare(input_seq_len) or isPerfectSquare(input_seq_len - CLASS_TOKEN_LENGTH))
+        assert isPerfectSquare(input_seq_len) or isPerfectSquare(
+            input_seq_len - CLASS_TOKEN_LENGTH
+        )
         input_has_class_token = not isPerfectSquare(input_seq_len)
-        num_tok_input = input_seq_len - CLASS_TOKEN_LENGTH if input_has_class_token else input_seq_len
+        num_tok_input = (
+            input_seq_len - CLASS_TOKEN_LENGTH
+            if input_has_class_token
+            else input_seq_len
+        )
         num_tok_output = num_patches
         output_has_class_token = args.class_token_present
 
@@ -98,9 +105,7 @@ def twod_interpolate_position_embeddings_hook(
             gs_new = (num_patches_per_dim_h, num_patches_per_dim_w)
 
             input_param_grid = input_param_grid.transpose(0, 1).contiguous()
-            input_param_grid = input_param_grid.reshape(
-                (1, -1, gs_input, gs_input)
-            )
+            input_param_grid = input_param_grid.reshape((1, -1, gs_input, gs_input))
             input_param_grid = input_param_grid.float()
             scale_factor = (gs_new[0] / gs_input, gs_new[1] / gs_input)
 
@@ -129,14 +134,16 @@ def twod_interpolate_position_embeddings_hook(
 class VitBackbone(MegatronModule):
     """Vision Transformer Model."""
 
-    def __init__(self,
-                 config,
-                 pre_process=True,
-                 post_process=True,
-                 class_token=True,
-                 single_token_output=False,
-                 post_layer_norm=True,
-                 drop_path_rate=0.0):
+    def __init__(
+        self,
+        config,
+        pre_process=True,
+        post_process=True,
+        class_token=True,
+        single_token_output=False,
+        post_layer_norm=True,
+        drop_path_rate=0.0,
+    ):
         super(VitBackbone, self).__init__(share_embeddings_and_output_weights=False)
         args = get_args()
 
@@ -159,7 +166,9 @@ def __init__(self,
         self.num_patches_per_dim_h = self.img_h // self.patch_dim
         self.num_patches_per_dim_w = self.img_w // self.patch_dim
         self.num_patches = self.num_patches_per_dim_h * self.num_patches_per_dim_w
-        self.seq_length = self.num_patches + (CLASS_TOKEN_LENGTH if self.class_token else 0)
+        self.seq_length = self.num_patches + (
+            CLASS_TOKEN_LENGTH if self.class_token else 0
+        )
         self.flatten_dim = self.patch_dim * self.patch_dim * args.num_channels
         self.input_tensor = None
         self.position_ids = None
@@ -172,19 +181,15 @@ def __init__(self,
                 )
                 torch.nn.init.zeros_(self.cls_token)
             self.position_ids = torch.arange(self.seq_length).expand(1, -1).cuda()
-            
+
             # Linear encoder
-            self.linear_encoder = torch.nn.Linear(
-                self.flatten_dim, self.hidden_size
-            )
+            self.linear_encoder = torch.nn.Linear(self.flatten_dim, self.hidden_size)
 
             # embedding
             self.position_embeddings = torch.nn.Embedding(
                 self.seq_length, self.hidden_size
             )
-            init_method_normal(args.init_method_std)(
-                self.position_embeddings.weight
-            )
+            init_method_normal(args.init_method_std)(self.position_embeddings.weight)
 
             args.class_token_present = self.class_token
             self.position_embeddings._register_load_state_dict_pre_hook(
@@ -199,7 +204,7 @@ def __init__(self,
             pre_process=self.pre_process,
             post_process=self.post_process,
             post_layer_norm=self.post_layer_norm,
-            drop_path_rate=self.drop_path_rate
+            drop_path_rate=self.drop_path_rate,
         )
 
     def set_input_tensor(self, input_tensor):
@@ -224,8 +229,9 @@ def forward(self, input):
                 cls_tokens = self.cls_token.expand(encoder_output.shape[0], -1, -1)
                 concatenated_tokens = torch.cat((cls_tokens, encoder_output), dim=1)
 
-            token_embeddings = concatenated_tokens + \
-                    self.position_embeddings(self.position_ids[:, :concatenated_tokens.shape[1]])
+            token_embeddings = concatenated_tokens + self.position_embeddings(
+                self.position_ids[:, : concatenated_tokens.shape[1]]
+            )
             # [b, s, h] => [s, b, h]
             token_embeddings = token_embeddings.transpose(0, 1).contiguous()
             hidden_states = self.embedding_dropout(token_embeddings)
@@ -242,4 +248,3 @@ def forward(self, input):
                 hidden_states = hidden_states.transpose(0, 1).contiguous()
 
         return hidden_states
-
diff --git a/megatron/mpu/tests/commons.py b/megatron/mpu/tests/commons.py
index 0fdb5ab0fc8..20b3789ac15 100644
--- a/megatron/mpu/tests/commons.py
+++ b/megatron/mpu/tests/commons.py
@@ -9,7 +9,9 @@
 import mpu
 from deepspeed.accelerator import get_accelerator
 
+
 class IdentityLayer(torch.nn.Module):
+
     def __init__(self, size, scale=1.0):
         super(IdentityLayer, self).__init__()
         self.weight = torch.nn.Parameter(scale * torch.randn(size))
@@ -26,21 +28,27 @@ def set_random_seed(seed):
     mpu.model_parallel_cuda_manual_seed(seed)
 
 
-def initialize_distributed(backend='nccl'):
+def initialize_distributed(backend="nccl"):
     """Initialize torch.distributed."""
     # Get local rank in case it is provided.
     parser = argparse.ArgumentParser()
-    parser.add_argument('--local_rank', type=int, default=None,
-                        help='local rank passed from distributed launcher')
+    parser.add_argument(
+        "--local_rank",
+        type=int,
+        default=None,
+        help="local rank passed from distributed launcher",
+    )
     args = parser.parse_args()
     local_rank = args.local_rank
 
     # Get rank and world size.
-    rank = int(os.getenv('RANK', '0'))
-    world_size = int(os.getenv("WORLD_SIZE", '1'))
+    rank = int(os.getenv("RANK", "0"))
+    world_size = int(os.getenv("WORLD_SIZE", "1"))
 
-    print('> initializing torch.distributed with local rank: {}, '
-          'rank: {}, world size: {}'.format(local_rank, rank, world_size))
+    print(
+        "> initializing torch.distributed with local rank: {}, "
+        "rank: {}, world size: {}".format(local_rank, rank, world_size)
+    )
 
     # Set the device id.
     device = rank % get_accelerator().device_count()
@@ -49,22 +57,20 @@ def initialize_distributed(backend='nccl'):
     get_accelerator().set_device(device)
 
     # Call the init process.
-    init_method = 'tcp://'
-    master_ip = os.getenv('MASTER_ADDR', 'localhost')
-    master_port = os.getenv('MASTER_PORT', '6000')
-    init_method += master_ip + ':' + master_port
+    init_method = "tcp://"
+    master_ip = os.getenv("MASTER_ADDR", "localhost")
+    master_port = os.getenv("MASTER_PORT", "6000")
+    init_method += master_ip + ":" + master_port
     torch.distributed.init_process_group(
-        backend=backend,
-        world_size=world_size,
-        rank=rank,
-        init_method=init_method)
+        backend=backend, world_size=world_size, rank=rank, init_method=init_method
+    )
 
 
 def print_separator(message):
     torch.distributed.barrier()
     filler_len = (78 - len(message)) // 2
-    filler = '-' * filler_len
-    string = '\n' + filler + ' {} '.format(message) + filler
+    filler = "-" * filler_len
+    string = "\n" + filler + " {} ".format(message) + filler
     if torch.distributed.get_rank() == 0:
         print(string, flush=True)
     torch.distributed.barrier()
diff --git a/megatron/mpu/tests/test_cross_entropy.py b/megatron/mpu/tests/test_cross_entropy.py
index 7f161348ce6..86b4300cb74 100644
--- a/megatron/mpu/tests/test_cross_entropy.py
+++ b/megatron/mpu/tests/test_cross_entropy.py
@@ -11,33 +11,44 @@
 import random
 import sys
 from deepspeed.accelerator import get_accelerator
+
 sys.path.append("../..")
 
 
-def torch_cross_entropy(batch_size, seq_length, vocab_size,
-                        logits_scale, seed):
+def torch_cross_entropy(batch_size, seq_length, vocab_size, logits_scale, seed):
     set_random_seed(seed)
-    identity = IdentityLayer((batch_size, seq_length, vocab_size),
-                             scale=logits_scale).to(get_accelerator().device_name())
+    identity = IdentityLayer(
+        (batch_size, seq_length, vocab_size), scale=logits_scale
+    ).to(get_accelerator().device_name())
     logits = identity()
-    target = get_accelerator().LongTensor(
-        size=(batch_size, seq_length)).random_(0, vocab_size)
-    loss = F.cross_entropy(logits.view(-1, logits.size()[-1]),
-                           target.view(-1),
-                           reduction='none').view_as(target).mean()
+    target = (
+        get_accelerator()
+        .LongTensor(size=(batch_size, seq_length))
+        .random_(0, vocab_size)
+    )
+    loss = (
+        F.cross_entropy(
+            logits.view(-1, logits.size()[-1]), target.view(-1), reduction="none"
+        )
+        .view_as(target)
+        .mean()
+    )
     loss.backward()
     return loss, identity.weight.grad
 
 
-def mpu_cross_entropy(batch_size, seq_length, vocab_size,
-                      logits_scale, seed):
+def mpu_cross_entropy(batch_size, seq_length, vocab_size, logits_scale, seed):
     set_random_seed(seed)
-    identity = IdentityLayer((batch_size, seq_length, vocab_size),
-                             scale=logits_scale).to(get_accelerator().device_name())
+    identity = IdentityLayer(
+        (batch_size, seq_length, vocab_size), scale=logits_scale
+    ).to(get_accelerator().device_name())
     logits = identity()
     logits_parallel = mpu.scatter_to_tensor_model_parallel_region(logits)
-    target = get_accelerator().LongTensor(
-        size=(batch_size, seq_length)).random_(0, vocab_size)
+    target = (
+        get_accelerator()
+        .LongTensor(size=(batch_size, seq_length))
+        .random_(0, vocab_size)
+    )
     loss = vocab_parallel_cross_entropy(logits_parallel, target).mean()
     loss.backward()
     return loss, identity.weight.grad
@@ -46,8 +57,11 @@ def mpu_cross_entropy(batch_size, seq_length, vocab_size,
 def test_cross_entropy(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing cross entropy with model parallel size {} ...'.
-              format(tensor_model_parallel_size))
+        print(
+            "> testing cross entropy with model parallel size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
@@ -59,21 +73,27 @@ def test_cross_entropy(tensor_model_parallel_size):
     vocab_size = vocab_size_per_partition * tensor_model_parallel_size
     seed = 1234
 
-    loss_torch, grad_torch = torch_cross_entropy(batch_size, seq_length,
-                                                 vocab_size, logits_scale,
-                                                 seed)
-    loss_mpu, grad_mpu = mpu_cross_entropy(batch_size, seq_length,
-                                           vocab_size, logits_scale,
-                                           seed)
+    loss_torch, grad_torch = torch_cross_entropy(
+        batch_size, seq_length, vocab_size, logits_scale, seed
+    )
+    loss_mpu, grad_mpu = mpu_cross_entropy(
+        batch_size, seq_length, vocab_size, logits_scale, seed
+    )
 
     error = loss_torch.sub_(loss_mpu).abs().max()
-    print('   max error in loss on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   max error in loss on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     error = grad_torch.sub_(grad_mpu).abs().max()
-    print('   max error in grad on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   max error in grad on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     # Reset groups
@@ -81,16 +101,16 @@ def test_cross_entropy(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     initialize_distributed()
     world_size = torch.distributed.get_world_size()
 
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test cross entropy')
+        print_separator("test cross entropy")
         test_cross_entropy(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
diff --git a/megatron/mpu/tests/test_data.py b/megatron/mpu/tests/test_data.py
index 1e95447099f..2637bd7bdd5 100644
--- a/megatron/mpu/tests/test_data.py
+++ b/megatron/mpu/tests/test_data.py
@@ -9,24 +9,30 @@
 import functools
 import operator
 import sys
+
 sys.path.append("../..")
 
 
 def test_broadcast_data(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing broadcast_data with model parallel size {} ...'.
-              format(tensor_model_parallel_size))
+        print(
+            "> testing broadcast_data with model parallel size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     torch.manual_seed(1234 + mpu.get_data_parallel_rank())
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
 
-    key_size_t = {'key1': [7, 11],
-                  'key2': [8, 2, 1],
-                  'key3': [13],
-                  'key4': [5, 1, 2],
-                  'key5': [5, 12]}
+    key_size_t = {
+        "key1": [7, 11],
+        "key2": [8, 2, 1],
+        "key3": [13],
+        "key4": [5, 1, 2],
+        "key5": [5, 12],
+    }
     keys = list(key_size_t.keys())
 
     data = {}
@@ -34,14 +40,15 @@ def test_broadcast_data(tensor_model_parallel_size):
     for key in key_size_t:
         data[key] = torch.LongTensor(size=key_size_t[key]).random_(0, 1000)
         data_t[key] = data[key].clone()
-    data['keyX'] = torch.FloatTensor(size=(5, )).random_(0, 1000)
-    data_t['keyX'] = data['keyX'].clone()
+    data["keyX"] = torch.FloatTensor(size=(5,)).random_(0, 1000)
+    data_t["keyX"] = data["keyX"].clone()
     if mpu.get_tensor_model_parallel_rank() != 0:
         data = None
 
     data_utils._check_data_types(keys, data_t, torch.int64)
-    key_size, key_numel, \
-        total_numel = data_utils._build_key_size_numel_dictionaries(keys, data)
+    key_size, key_numel, total_numel = data_utils._build_key_size_numel_dictionaries(
+        keys, data
+    )
     for key in keys:
         assert key_size[key] == key_size_t[key]
     total_numel_t = 0
@@ -61,16 +68,16 @@ def test_broadcast_data(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     initialize_distributed()
     world_size = torch.distributed.get_world_size()
 
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test test broadcast data')
+        print_separator("test test broadcast data")
         test_broadcast_data(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
diff --git a/megatron/mpu/tests/test_initialize.py b/megatron/mpu/tests/test_initialize.py
index e5d2be37e26..35b7608c48d 100644
--- a/megatron/mpu/tests/test_initialize.py
+++ b/megatron/mpu/tests/test_initialize.py
@@ -5,16 +5,21 @@
 import mpu
 import torch
 import sys
+
 sys.path.append("../..")
 
 
 def test_initialize_model_parallel(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing initialize_model_parallel with size {} ...'.format(
-            tensor_model_parallel_size))
-    tensor_model_parallel_size_ = min(tensor_model_parallel_size,
-                               torch.distributed.get_world_size())
+        print(
+            "> testing initialize_model_parallel with size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
+    tensor_model_parallel_size_ = min(
+        tensor_model_parallel_size, torch.distributed.get_world_size()
+    )
     assert not mpu.model_parallel_is_initialized()
     mpu.initialize_model_parallel(tensor_model_parallel_size_)
     assert mpu.model_parallel_is_initialized()
@@ -43,16 +48,20 @@ def check(group, world_size, rank):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
 def test_get_tensor_model_parallel_src_rank(tensor_model_parallel_size_):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing get_tensor_model_parallel_src_rank with size {} ...'.format(
-            tensor_model_parallel_size_))
-    tensor_model_parallel_size = min(tensor_model_parallel_size_,
-                              torch.distributed.get_world_size())
+        print(
+            "> testing get_tensor_model_parallel_src_rank with size {} ...".format(
+                tensor_model_parallel_size_
+            )
+        )
+    tensor_model_parallel_size = min(
+        tensor_model_parallel_size_, torch.distributed.get_world_size()
+    )
     assert not mpu.model_parallel_is_initialized()
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     assert mpu.model_parallel_is_initialized()
@@ -66,17 +75,17 @@ def test_get_tensor_model_parallel_src_rank(tensor_model_parallel_size_):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     initialize_distributed()
     world_size = torch.distributed.get_world_size()
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test initialize model parallel')
+        print_separator("test initialize model parallel")
         test_initialize_model_parallel(tensor_model_parallel_size)
-        print_separator('test model parallel source rank')
+        print_separator("test model parallel source rank")
         test_get_tensor_model_parallel_src_rank(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
diff --git a/megatron/mpu/tests/test_layers.py b/megatron/mpu/tests/test_layers.py
index f524f944412..26f456dabf4 100644
--- a/megatron/mpu/tests/test_layers.py
+++ b/megatron/mpu/tests/test_layers.py
@@ -10,14 +10,20 @@
 import torch
 import random
 import sys
+
 sys.path.append("../..")
 
 device_name = get_accelerator().device_name()
+
+
 def test_parallel_embedding(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing parallel embedding with model parallel size {} ...'.
-              format(tensor_model_parallel_size))
+        print(
+            "> testing parallel embedding with model parallel size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
@@ -29,8 +35,11 @@ def test_parallel_embedding(tensor_model_parallel_size):
     seed = 1236
 
     set_random_seed(123)
-    input_data = torch.LongTensor(
-        size=(batch_size, seq_length)).random_(0, vocab_size).to(device_name)
+    input_data = (
+        torch.LongTensor(size=(batch_size, seq_length))
+        .random_(0, vocab_size)
+        .to(device_name)
+    )
     loss_weight = torch.randn([batch_size, seq_length, hidden_size]).to(device_name)
 
     set_random_seed(seed)
@@ -42,61 +51,76 @@ def test_parallel_embedding(tensor_model_parallel_size):
 
     set_random_seed(seed)
     embedding_parallel = layers.ParallelEmbedding(
-        vocab_size, hidden_size, init_method=init.normal_).to(device_name)
+        vocab_size, hidden_size, init_method=init.normal_
+    ).to(device_name)
     output = embedding_parallel(input_data)
     loss_parallel = torch.mul(output, loss_weight).sum()
     loss_parallel.backward()
 
     set_random_seed(seed)
     embedding_vocab_parallel = layers.VocabParallelEmbedding(
-        vocab_size, hidden_size, init_method=init.normal_).to(device_name)
+        vocab_size, hidden_size, init_method=init.normal_
+    ).to(device_name)
     output = embedding_vocab_parallel(input_data)
     loss_vocab_parallel = torch.mul(output, loss_weight).sum()
     loss_vocab_parallel.backward()
 
     torch.distributed.barrier()
     error = loss_parallel.sub(loss_original).abs()
-    print('   error in loss (parallel) on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
-    assert error < 1.0e-12, 'error: {}'.format(error)
+    print(
+        "   error in loss (parallel) on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
+    assert error < 1.0e-12, "error: {}".format(error)
 
     torch.distributed.barrier()
     error = loss_vocab_parallel.sub(loss_original).abs()
-    print('   error in loss (vocab parallel) on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
-    assert error < 1.0e-12, 'error: {}'.format(error)
-
-    weight_grad_orig = torch.split(embedding_original.weight.grad,
-                                   hidden_size // tensor_model_parallel_size,
-                                   1)[mpu.get_tensor_model_parallel_rank()]
+    print(
+        "   error in loss (vocab parallel) on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
+    assert error < 1.0e-12, "error: {}".format(error)
+
+    weight_grad_orig = torch.split(
+        embedding_original.weight.grad, hidden_size // tensor_model_parallel_size, 1
+    )[mpu.get_tensor_model_parallel_rank()]
     error = embedding_parallel.weight.grad.sub(weight_grad_orig).abs().max()
-    print('   error in grad (parallel) on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
-    assert error < 1.0e-12, 'error: {}'.format(error)
-
-    weight_grad_orig = torch.split(embedding_original.weight.grad,
-                                   vocab_size // tensor_model_parallel_size,
-                                   0)[mpu.get_tensor_model_parallel_rank()]
-    error = embedding_vocab_parallel.weight.grad.sub(
-        weight_grad_orig).abs().max()
-    print('   error in grad (vocab parallel) on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
-    assert error < 1.0e-12, 'error: {}'.format(error)
+    print(
+        "   error in grad (parallel) on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
+    assert error < 1.0e-12, "error: {}".format(error)
+
+    weight_grad_orig = torch.split(
+        embedding_original.weight.grad, vocab_size // tensor_model_parallel_size, 0
+    )[mpu.get_tensor_model_parallel_rank()]
+    error = embedding_vocab_parallel.weight.grad.sub(weight_grad_orig).abs().max()
+    print(
+        "   error in grad (vocab parallel) on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
+    assert error < 1.0e-12, "error: {}".format(error)
 
     # Reset groups
     mpu.destroy_model_parallel()
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
 def test_initialize_affine_weight(tensor_model_parallel_size):
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     if torch.distributed.get_rank() == 0:
-        print('> testing initialize_affine_weight with model parallel '
-              'size: {}'.format(tensor_model_parallel_size))
+        print(
+            "> testing initialize_affine_weight with model parallel "
+            "size: {}".format(tensor_model_parallel_size)
+        )
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
 
     seed = 12345
@@ -110,23 +134,25 @@ def test_initialize_affine_weight(tensor_model_parallel_size):
     # ---------------
     weight = torch.empty(output_size_coeff, input_size)
     set_random_seed(seed)
-    layers._initialize_affine_weight(weight, output_size, input_size,
-
-                                     output_size_coeff, 0,
-                                     torch.nn.init.normal_)
+    layers._initialize_affine_weight(
+        weight, output_size, input_size, output_size_coeff, 0, torch.nn.init.normal_
+    )
     # Target.
     set_random_seed(seed)
     master_weight = torch.empty(output_size, input_size)
     torch.nn.init.normal_(master_weight)
     rank = mpu.get_tensor_model_parallel_rank()
-    my_weight = torch.split(master_weight, output_size_coeff,
-                            dim=0)[rank].contiguous().clone()
+    my_weight = (
+        torch.split(master_weight, output_size_coeff, dim=0)[rank].contiguous().clone()
+    )
 
     # Compare.
     error = weight.sub(my_weight).abs().max()
     torch.distributed.barrier()
-    print('   column parallel max error (should be zero) on global rank '
-          '{}: {}'.format(torch.distributed.get_rank(), error))
+    print(
+        "   column parallel max error (should be zero) on global rank "
+        "{}: {}".format(torch.distributed.get_rank(), error)
+    )
     assert error < 1.0e-6
 
     # ------------
@@ -134,22 +160,25 @@ def test_initialize_affine_weight(tensor_model_parallel_size):
     # ------------
     weight = torch.empty(output_size, input_size_coeff)
     set_random_seed(seed)
-    mpu.layers._initialize_affine_weight(weight, output_size, input_size,
-                                         input_size_coeff, 1,
-                                         torch.nn.init.normal_)
+    mpu.layers._initialize_affine_weight(
+        weight, output_size, input_size, input_size_coeff, 1, torch.nn.init.normal_
+    )
     # Target.
     set_random_seed(seed)
     master_weight = torch.empty(output_size, input_size)
     torch.nn.init.normal_(master_weight)
     rank = mpu.get_tensor_model_parallel_rank()
-    my_weight = torch.split(master_weight, input_size_coeff,
-                            dim=1)[rank].contiguous().clone()
+    my_weight = (
+        torch.split(master_weight, input_size_coeff, dim=1)[rank].contiguous().clone()
+    )
 
     # Compare.
     error = weight.sub(my_weight).abs().max()
     torch.distributed.barrier()
-    print('   row parallel max error (should be zero) on global rank '
-          '{}: {}'.format(torch.distributed.get_rank(), error))
+    print(
+        "   row parallel max error (should be zero) on global rank "
+        "{}: {}".format(torch.distributed.get_rank(), error)
+    )
     assert error < 1.0e-6
 
     # Reset groups
@@ -157,10 +186,11 @@ def test_initialize_affine_weight(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print(' >> passed the test :-)')
+        print(" >> passed the test :-)")
 
 
 class IdentityLayer2D(torch.nn.Module):
+
     def __init__(self, m, n):
         super(IdentityLayer2D, self).__init__()
         self.weight = Parameter(torch.Tensor(m, n))
@@ -174,8 +204,10 @@ def test_column_parallel_linear(tensor_model_parallel_size):
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     if torch.distributed.get_rank() == 0:
-        print('> testing ColumnParallelLinear with model parallel '
-              'size: {}'.format(tensor_model_parallel_size))
+        print(
+            "> testing ColumnParallelLinear with model parallel "
+            "size: {}".format(tensor_model_parallel_size)
+        )
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
 
     seed = 12345
@@ -189,7 +221,8 @@ def test_column_parallel_linear(tensor_model_parallel_size):
     # Network
     identity_layer = IdentityLayer2D(batch_size, input_size).to(device_name)
     linear_layer = mpu.ColumnParallelLinear(
-        input_size, output_size, keep_master_weight_for_test=True).to(device_name)
+        input_size, output_size, keep_master_weight_for_test=True
+    ).to(device_name)
     loss_weight = torch.randn([batch_size, output_size]).to(device_name)
     # Forward
     input_ = identity_layer()
@@ -207,26 +240,33 @@ def test_column_parallel_linear(tensor_model_parallel_size):
     dLdX = torch.matmul(dLdY, A)
 
     rank = mpu.get_tensor_model_parallel_rank()
-    my_dLdA = torch.split(dLdA, output_size_coeff,
-                          dim=0)[rank].contiguous().clone()
+    my_dLdA = torch.split(dLdA, output_size_coeff, dim=0)[rank].contiguous().clone()
     error = my_dLdA.sub(linear_layer.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   error in dLdA on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   error in dLdA on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
-    my_dLdb = torch.split(dLdb, output_size_coeff,
-                          dim=0)[rank].contiguous().clone()
+    my_dLdb = torch.split(dLdb, output_size_coeff, dim=0)[rank].contiguous().clone()
     error = my_dLdb.sub(linear_layer.bias.grad).abs().max()
     torch.distributed.barrier()
-    print('   error in dLdb on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   error in dLdb on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     error = dLdX.sub(identity_layer.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   error in dLdX on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   error in dLdX on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     # Reset groups
@@ -234,15 +274,17 @@ def test_column_parallel_linear(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print(' >> passed the test :-)')
+        print(" >> passed the test :-)")
 
 
 def test_row_parallel_linear(tensor_model_parallel_size):
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     if torch.distributed.get_rank() == 0:
-        print('> testing RowParallelLinear with model parallel '
-              'size: {}'.format(tensor_model_parallel_size))
+        print(
+            "> testing RowParallelLinear with model parallel "
+            "size: {}".format(tensor_model_parallel_size)
+        )
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
 
     seed = 12345
@@ -256,7 +298,8 @@ def test_row_parallel_linear(tensor_model_parallel_size):
     # Network
     identity_layer = IdentityLayer2D(batch_size, input_size).to(device_name)
     linear_layer = mpu.RowParallelLinear(
-        input_size, output_size, keep_master_weight_for_test=True).to(device_name)
+        input_size, output_size, keep_master_weight_for_test=True
+    ).to(device_name)
     loss_weight = torch.randn([batch_size, output_size]).to(device_name)
     # Forward
     input_ = identity_layer()
@@ -274,24 +317,32 @@ def test_row_parallel_linear(tensor_model_parallel_size):
     dLdX = torch.matmul(dLdY, A)
 
     rank = mpu.get_tensor_model_parallel_rank()
-    my_dLdA = torch.split(dLdA, input_size_coeff,
-                          dim=1)[rank].contiguous().clone()
+    my_dLdA = torch.split(dLdA, input_size_coeff, dim=1)[rank].contiguous().clone()
     error = my_dLdA.sub(linear_layer.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   error in dLdA on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   error in dLdA on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     error = dLdb.sub(linear_layer.bias.grad).abs().max()
     torch.distributed.barrier()
-    print('   error in dLdb on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   error in dLdb on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     error = dLdX.sub(identity_layer.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   error in dLdX on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   error in dLdX on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 1.0e-6
 
     # Reset groups
@@ -299,10 +350,11 @@ def test_row_parallel_linear(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print(' >> passed the test :-)')
+        print(" >> passed the test :-)")
 
 
 class IdentityLayer3D(torch.nn.Module):
+
     def __init__(self, m, n, k):
         super(IdentityLayer3D, self).__init__()
         self.weight = Parameter(torch.Tensor(m, n, k))
@@ -312,25 +364,33 @@ def forward(self):
         return self.weight
 
 
-def parallel_self_attention(tensor_model_parallel_size, num_att_heads_per_partition,
-                            hidden_size_per_att_head, dropout_prob, batch_size,
-                            sequence_length):
+def parallel_self_attention(
+    tensor_model_parallel_size,
+    num_att_heads_per_partition,
+    hidden_size_per_att_head,
+    dropout_prob,
+    batch_size,
+    sequence_length,
+):
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
 
     seed = 12345
     set_random_seed(seed)
 
-    num_att_heads = num_att_heads_per_partition * \
-        torch.distributed.get_world_size()
+    num_att_heads = num_att_heads_per_partition * torch.distributed.get_world_size()
     hidden_size = hidden_size_per_att_head * num_att_heads
 
     # Network
-    identity_layer = IdentityLayer3D(batch_size, sequence_length,
-                                     hidden_size).to(device_name)
-    attention_layer = mpu.BertParallelSelfAttention(hidden_size, num_att_heads,
-                                                    dropout_prob).to(device_name)
-    loss_weight = torch.randn([batch_size, sequence_length, hidden_size]).to(device_name)
+    identity_layer = IdentityLayer3D(batch_size, sequence_length, hidden_size).to(
+        device_name
+    )
+    attention_layer = mpu.BertParallelSelfAttention(
+        hidden_size, num_att_heads, dropout_prob
+    ).to(device_name)
+    loss_weight = torch.randn([batch_size, sequence_length, hidden_size]).to(
+        device_name
+    )
     attention_mask = torch.randn([batch_size, 1, 1, sequence_length]).to(device_name)
     # Forward
     input_ = identity_layer()
@@ -341,15 +401,23 @@ def parallel_self_attention(tensor_model_parallel_size, num_att_heads_per_partit
 
     rank = mpu.get_tensor_model_parallel_rank()
     mpu.destroy_model_parallel()
-    return rank, hidden_size, tensor_model_parallel_size, loss, \
-        attention_layer, identity_layer
+    return (
+        rank,
+        hidden_size,
+        tensor_model_parallel_size,
+        loss,
+        attention_layer,
+        identity_layer,
+    )
 
 
 def test_parallel_self_attention(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing ParallelSelfAttention with model parallel '
-              'size: {}'.format(tensor_model_parallel_size))
+        print(
+            "> testing ParallelSelfAttention with model parallel "
+            "size: {}".format(tensor_model_parallel_size)
+        )
 
     num_att_heads_per_partition = 3
     hidden_size_per_att_head = 7
@@ -357,48 +425,84 @@ def test_parallel_self_attention(tensor_model_parallel_size):
     batch_size = 5
     sequence_length = 13
 
-    rank_1, hideen_size_1, tensor_model_parallel_size_1, loss_1, \
-        attention_layer_1, identity_layer_1 = parallel_self_attention(
-            1, num_att_heads_per_partition,
-            hidden_size_per_att_head, dropout_prob, batch_size, sequence_length)
-
-    rank, hidden_size, tensor_model_parallel_size, loss, \
-        attention_layer, identity_layer = parallel_self_attention(
-            tensor_model_parallel_size, num_att_heads_per_partition,
-            hidden_size_per_att_head, dropout_prob, batch_size, sequence_length)
+    (
+        rank_1,
+        hideen_size_1,
+        tensor_model_parallel_size_1,
+        loss_1,
+        attention_layer_1,
+        identity_layer_1,
+    ) = parallel_self_attention(
+        1,
+        num_att_heads_per_partition,
+        hidden_size_per_att_head,
+        dropout_prob,
+        batch_size,
+        sequence_length,
+    )
+
+    (
+        rank,
+        hidden_size,
+        tensor_model_parallel_size,
+        loss,
+        attention_layer,
+        identity_layer,
+    ) = parallel_self_attention(
+        tensor_model_parallel_size,
+        num_att_heads_per_partition,
+        hidden_size_per_att_head,
+        dropout_prob,
+        batch_size,
+        sequence_length,
+    )
     assert hideen_size_1 == hidden_size
 
     error = loss_1.sub(loss).abs().max()
     torch.distributed.barrier()
-    print('   loss error on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   loss error on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 5.0e-6
 
     my_lin_grad_list = torch.split(
         attention_layer_1.query_key_value.weight.grad,
-        hidden_size // tensor_model_parallel_size, 0)[rank::tensor_model_parallel_size]
+        hidden_size // tensor_model_parallel_size,
+        0,
+    )[rank::tensor_model_parallel_size]
     my_lin_grad = torch.cat(my_lin_grad_list, dim=0)
-    error = my_lin_grad.sub(
-        attention_layer.query_key_value.weight.grad).abs().max()
+    error = my_lin_grad.sub(attention_layer.query_key_value.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   weight gradient error on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   weight gradient error on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 5.0e-6
 
-    error = identity_layer_1.weight.grad.sub(
-        identity_layer.weight.grad).abs().max()
+    error = identity_layer_1.weight.grad.sub(identity_layer.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   input gradient error on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
+    print(
+        "   input gradient error on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error < 5.0e-6
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print(' >> passed the test :-)')
+        print(" >> passed the test :-)")
 
 
-def parallel_transformer(tensor_model_parallel_size, num_att_heads_per_partition,
-                         hidden_size_per_att_head, batch_size, sequence_length):
+def parallel_transformer(
+    tensor_model_parallel_size,
+    num_att_heads_per_partition,
+    hidden_size_per_att_head,
+    batch_size,
+    sequence_length,
+):
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
@@ -406,19 +510,27 @@ def parallel_transformer(tensor_model_parallel_size, num_att_heads_per_partition
     seed = 12345
     set_random_seed(seed)
 
-    num_att_heads = num_att_heads_per_partition * \
-        torch.distributed.get_world_size()
+    num_att_heads = num_att_heads_per_partition * torch.distributed.get_world_size()
     hidden_size = hidden_size_per_att_head * num_att_heads
     intermediate_size = 4 * hidden_size
 
     # Network
-    identity_layer = IdentityLayer3D(batch_size, sequence_length,
-                                     hidden_size).to(device_name)
+    identity_layer = IdentityLayer3D(batch_size, sequence_length, hidden_size).to(
+        device_name
+    )
     transformer_layer = mpu.BertParallelTransformerLayer(
-        hidden_size, intermediate_size, num_att_heads, 0.0, 0.0,
-        torch.nn.functional.relu, 1.0e-5).to(device_name)
-
-    loss_weight = torch.randn([batch_size, sequence_length, hidden_size]).to(device_name)
+        hidden_size,
+        intermediate_size,
+        num_att_heads,
+        0.0,
+        0.0,
+        torch.nn.functional.relu,
+        1.0e-5,
+    ).to(device_name)
+
+    loss_weight = torch.randn([batch_size, sequence_length, hidden_size]).to(
+        device_name
+    )
     attention_mask = torch.randn([batch_size, 1, 1, sequence_length]).to(device_name)
     # Forward
     input_ = identity_layer()
@@ -429,50 +541,83 @@ def parallel_transformer(tensor_model_parallel_size, num_att_heads_per_partition
 
     rank = mpu.get_tensor_model_parallel_rank()
     mpu.destroy_model_parallel()
-    return rank, hidden_size, tensor_model_parallel_size, loss, \
-        transformer_layer, identity_layer
+    return (
+        rank,
+        hidden_size,
+        tensor_model_parallel_size,
+        loss,
+        transformer_layer,
+        identity_layer,
+    )
 
 
 def test_parallel_transformer_layer(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing ParallelTransformerLayer with model parallel '
-              'size: {}'.format(tensor_model_parallel_size))
+        print(
+            "> testing ParallelTransformerLayer with model parallel "
+            "size: {}".format(tensor_model_parallel_size)
+        )
 
     num_att_heads_per_partition = 3
     hidden_size_per_att_head = 7
     batch_size = 5
     sequence_length = 13
 
-    rank_1, hidden_size_1, tensor_model_parallel_size_1, loss_1, \
-        transformer_layer_1, identity_layer_1 = parallel_transformer(
-            1, num_att_heads_per_partition,
-            hidden_size_per_att_head, batch_size, sequence_length)
-
-    rank, hidden_size, tensor_model_parallel_size, loss, \
-        transformer_layer, identity_layer = parallel_transformer(
-            tensor_model_parallel_size, num_att_heads_per_partition,
-            hidden_size_per_att_head, batch_size, sequence_length)
+    (
+        rank_1,
+        hidden_size_1,
+        tensor_model_parallel_size_1,
+        loss_1,
+        transformer_layer_1,
+        identity_layer_1,
+    ) = parallel_transformer(
+        1,
+        num_att_heads_per_partition,
+        hidden_size_per_att_head,
+        batch_size,
+        sequence_length,
+    )
+
+    (
+        rank,
+        hidden_size,
+        tensor_model_parallel_size,
+        loss,
+        transformer_layer,
+        identity_layer,
+    ) = parallel_transformer(
+        tensor_model_parallel_size,
+        num_att_heads_per_partition,
+        hidden_size_per_att_head,
+        batch_size,
+        sequence_length,
+    )
 
     error = loss_1.sub(loss).abs().max()
     torch.distributed.barrier()
-    print('   loss error on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
-    assert error < 5.0e-5, 'error: {}'.format(error)
-
-    error = identity_layer_1.weight.grad.sub(
-        identity_layer.weight.grad).abs().max()
+    print(
+        "   loss error on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
+    assert error < 5.0e-5, "error: {}".format(error)
+
+    error = identity_layer_1.weight.grad.sub(identity_layer.weight.grad).abs().max()
     torch.distributed.barrier()
-    print('   input gradient error on global rank {}: {}'.format(
-        torch.distributed.get_rank(), error))
-    assert error < 5.0e-5, 'error: {}'.format(error)
+    print(
+        "   input gradient error on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
+    assert error < 5.0e-5, "error: {}".format(error)
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print(' >> passed the test :-)')
+        print(" >> passed the test :-)")
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     torch.backends.cudnn.deterministic = True
     torch.backends.cudnn.benchmark = False
@@ -480,7 +625,7 @@ def test_parallel_transformer_layer(tensor_model_parallel_size):
     initialize_distributed()
     world_size = torch.distributed.get_world_size()
 
-    print_separator('test initialize affine weight')
+    print_separator("test initialize affine weight")
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
         test_initialize_affine_weight(tensor_model_parallel_size)
@@ -488,29 +633,29 @@ def test_parallel_transformer_layer(tensor_model_parallel_size):
 
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test parallel embedding')
+        print_separator("test parallel embedding")
         test_parallel_embedding(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
 
-    print_separator('test column-parallel linear')
+    print_separator("test column-parallel linear")
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
         test_column_parallel_linear(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
 
-    print_separator('test row-parallel linear')
+    print_separator("test row-parallel linear")
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
         test_row_parallel_linear(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
 
-    print_separator('test parallel self-attention')
+    print_separator("test parallel self-attention")
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
         test_parallel_self_attention(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
 
-    print_separator('test parallel transformer')
+    print_separator("test parallel transformer")
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
         test_parallel_transformer_layer(tensor_model_parallel_size)
diff --git a/megatron/mpu/tests/test_random.py b/megatron/mpu/tests/test_random.py
index 21dcd109078..90b23d72867 100644
--- a/megatron/mpu/tests/test_random.py
+++ b/megatron/mpu/tests/test_random.py
@@ -5,14 +5,18 @@
 import mpu
 import torch
 import sys
+
 sys.path.append("../..")
 
 
 def test_set_cuda_rng_state(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing set_rng_state with size {} ...'.
-              format(tensor_model_parallel_size))
+        print(
+            "> testing set_rng_state with size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
@@ -37,8 +41,11 @@ def test_set_cuda_rng_state(tensor_model_parallel_size):
     # State should be different.
     new_rng_state = get_accelerator().get_rng_state()
     max_diff = new_rng_state.sub(rng_state).max()
-    print('   max diff in rng state (should be non-zero) on global rank {}: {}'.
-          format(torch.distributed.get_rank(), max_diff))
+    print(
+        "   max diff in rng state (should be non-zero) on global rank {}: {}".format(
+            torch.distributed.get_rank(), max_diff
+        )
+    )
     assert max_diff > 0
 
     # Reset the rng state and do the same stuff.
@@ -52,14 +59,19 @@ def test_set_cuda_rng_state(tensor_model_parallel_size):
 
     # Results should be the same
     error = result_2.sub(result_1).abs().max()
-    print('   max error in generated tensors (should be zero) on '
-          'global rank {}: {}'.format(torch.distributed.get_rank(), error))
+    print(
+        "   max error in generated tensors (should be zero) on "
+        "global rank {}: {}".format(torch.distributed.get_rank(), error)
+    )
     assert error < 1.0e-6
 
     # Input state should have remained intact.
     error = rng_state.sub(rng_state_copy).max()
-    print('   max error in rng state (should be zero) on global rank {}: {}'.
-          format(torch.distributed.get_rank(), error))
+    print(
+        "   max error in rng state (should be zero) on global rank {}: {}".format(
+            torch.distributed.get_rank(), error
+        )
+    )
     assert error == 0
 
     # Reset groups
@@ -67,14 +79,17 @@ def test_set_cuda_rng_state(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
 def test_cuda_rng_tracker(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing cuda rng tracker with size {} ...'.
-              format(tensor_model_parallel_size))
+        print(
+            "> testing cuda rng tracker with size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
@@ -101,33 +116,38 @@ def test_cuda_rng_tracker(tensor_model_parallel_size):
     # Now if we interleave seed_1 and seed_2,
     # we should still get the same tensors
     get_accelerator().manual_seed(seed_1)
-    mpu.get_cuda_rng_tracker().add('test', seed_2)
+    mpu.get_cuda_rng_tracker().add("test", seed_2)
 
     torch.randn(size, out=tensor)
     result_11 = tensor.clone()
 
-    with mpu.get_cuda_rng_tracker().fork('test'):
+    with mpu.get_cuda_rng_tracker().fork("test"):
         torch.randn(size, out=tensor)
         result_21 = tensor.clone()
 
     torch.randn(size, out=tensor)
     result_12 = tensor.clone()
 
-    with mpu.get_cuda_rng_tracker().fork('test'):
+    with mpu.get_cuda_rng_tracker().fork("test"):
         torch.randn(size, out=tensor)
         result_22 = tensor.clone()
 
     diff = result_11.sub(result_21).abs().max()
     diff = min(diff, result_12.sub(result_22).abs().max())
-    print('   max diff in generated tensors (should be non-zero) on '
-          'global rank {}: {}'.format(torch.distributed.get_rank(), diff))
+    print(
+        "   max diff in generated tensors (should be non-zero) on "
+        "global rank {}: {}".format(torch.distributed.get_rank(), diff)
+    )
     assert diff > 1.0e-6
-    error = max(result_11.sub(target_11).abs().max(),
-                result_12.sub(target_12).abs().max())
+    error = max(
+        result_11.sub(target_11).abs().max(), result_12.sub(target_12).abs().max()
+    )
     error = max(error, result_21.sub(target_21).abs().max())
     error = max(error, result_22.sub(target_22).abs().max())
-    print('   max error in generated tensors (should be zero) on '
-          'global rank {}: {}'.format(torch.distributed.get_rank(), error))
+    print(
+        "   max error in generated tensors (should be zero) on "
+        "global rank {}: {}".format(torch.distributed.get_rank(), error)
+    )
     assert error < 1.0e-6
 
     # Reset the tracker
@@ -138,14 +158,17 @@ def test_cuda_rng_tracker(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
 def test_model_parallel_cuda_manual_seed(tensor_model_parallel_size):
 
     if torch.distributed.get_rank() == 0:
-        print('> testing model parallel cuda manual seed with size {} ...'.
-              format(tensor_model_parallel_size))
+        print(
+            "> testing model parallel cuda manual seed with size {} ...".format(
+                tensor_model_parallel_size
+            )
+        )
 
     mpu.initialize_model_parallel(tensor_model_parallel_size)
     tensor_model_parallel_size = mpu.get_tensor_model_parallel_world_size()
@@ -153,8 +176,9 @@ def test_model_parallel_cuda_manual_seed(tensor_model_parallel_size):
     mpu.model_parallel_cuda_manual_seed(12345)
     assert get_accelerator().initial_seed() == 12345
     with mpu.get_cuda_rng_tracker().fork():
-        assert get_accelerator().initial_seed() == (12345 + 2718 +
-                                             mpu.get_tensor_model_parallel_rank())
+        assert get_accelerator().initial_seed() == (
+            12345 + 2718 + mpu.get_tensor_model_parallel_rank()
+        )
 
     # Reset the tracker
     mpu.get_cuda_rng_tracker().reset()
@@ -164,28 +188,28 @@ def test_model_parallel_cuda_manual_seed(tensor_model_parallel_size):
 
     torch.distributed.barrier()
     if torch.distributed.get_rank() == 0:
-        print('>> passed the test :-)')
+        print(">> passed the test :-)")
 
 
-if __name__ == '__main__':
+if __name__ == "__main__":
 
     initialize_distributed()
     world_size = torch.distributed.get_world_size()
 
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test set rng state')
+        print_separator("test set rng state")
         test_set_cuda_rng_state(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
 
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test cuda rng tracker')
+        print_separator("test cuda rng tracker")
         test_cuda_rng_tracker(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
 
     tensor_model_parallel_size = 1
     while tensor_model_parallel_size <= world_size:
-        print_separator('test model parallel cuda manual seed')
+        print_separator("test model parallel cuda manual seed")
         test_model_parallel_cuda_manual_seed(tensor_model_parallel_size)
         tensor_model_parallel_size *= 2
diff --git a/megatron/optimizer/__init__.py b/megatron/optimizer/__init__.py
index 12a458375da..68c2d33e8cc 100644
--- a/megatron/optimizer/__init__.py
+++ b/megatron/optimizer/__init__.py
@@ -1,13 +1,9 @@
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 from deepspeed.accelerator import get_accelerator
-if get_accelerator().device_name() == 'cuda':
-    from apex.optimizers import FusedAdam as Adam
-    from apex.optimizers import FusedSGD as SGD
-else:
-    from torch.optim import Adam
-    from torch.optim import SGD
+import torch
 
+from typing import Callable, Any, Iterable, Union
 from megatron import get_args
 
 from .distrib_optimizer import DistributedOptimizer
@@ -15,19 +11,61 @@
 from .optimizer import Float16OptimizerWithFloat16Params, FP32Optimizer
 
 
-def get_param_groups(modules,
-                     no_weight_decay_cond,
-                     scale_lr_cond,
-                     lr_mult):
-    """creates param groups based on weight decay condition (regularized vs non regularized)
-       and learning rate scale condition (args.lr vs lr_mult * args.lr)
-       scale_lr_cond is used during finetuning where head of the network requires a scaled
-       version of the base learning rate. 
+import ezpz as ez
+
+RANK = ez.get_rank()
+
+
+def get_param_groups(
+    modules: Union[torch.nn.Module, Iterable[torch.nn.Module]],
+    no_weight_decay_cond: Callable[[str, torch.Tensor], bool],
+    scale_lr_cond: Callable[[str, torch.Tensor], bool],
+    lr_mult: Any,
+    use_galore: bool = False,
+):
+    """
+    Creates param groups (regularized vs non) based on:
+
+    - weight decay condition.
+    - learning rate scale condition (args.lr vs lr_mult * args.lr)
+    - scale_lr_cond is used during finetuning, where head of the network
+      requires a scaled version of the base learning rate.
+    # if 'galore' in args.optimizer.lower():
+    #     # make parameters with "rank" to a single group, if param_name has "mlp" or "attn"
+    #     galore_params = []
+    #     target_modules_list = ["attn", "mlp"]
+    #     # for module_name, module in param_groups:
+    #     for group_id, group in enumerate(param_groups):
+    #         for param, p in enumerate(group['params']):
+    #             if not isinstance(module, torch.nn.Linear):
+    #                 continue
+    #             if not any(target_key in module_name for target_key in target_modules_list):
+    #                 continue
+    #             print('enable GaLore for weights in module: ', module_name)
+    #             galore_params.append(module.weight)
+    #     id_galore_params = [id(p) for p in galore_params]
+    #     # make parameters without "rank" to another group
+    #     regular_params = [p for p in param_groups if id(p) not in id_galore_params]
+    #     # then call galore_adamw
+    #     param_groups = [
+    #         {
+    #             'params': regular_params
+    #         },
+    #         {
+    #             'params': galore_params,
+    #             'rank': RANK,
+    #             'update_proj_gap': args.update_proj_gap,
+    #             'scale': args.galore_scale,
+    #             'proj_type': args.proj_type
+    #         }
+    #     ]
     """
     wd_no_scale_lr = []
     wd_scale_lr = []
     no_wd_no_scale_lr = []
     no_wd_scale_lr = []
+    galore_params = []
+    target_modules_list = ["attn", "mlp"]
     for module in modules:
         for name, param in module.named_parameters():
             if not param.requires_grad:
@@ -55,63 +93,378 @@ def get_param_groups(modules,
 
     param_groups = []
     if len(wd_no_scale_lr):
-        param_groups.append({'name': 'wd_no_scale_lr', 'params': wd_no_scale_lr, 'wd_mult': 1.0, 'lr_mult': 1.0})
+        param_groups.append(
+            {
+                "name": "wd_no_scale_lr",
+                "params": wd_no_scale_lr,
+                "wd_mult": 1.0,
+                "lr_mult": 1.0,
+            }
+        )
     if len(wd_scale_lr):
-        param_groups.append({'name': 'wd_scale_lr', 'params': wd_scale_lr, 'wd_mult': 1.0, 'lr_mult': lr_mult})
+        param_groups.append(
+            {
+                "name": "wd_scale_lr",
+                "params": wd_scale_lr,
+                "wd_mult": 1.0,
+                "lr_mult": lr_mult,
+            }
+        )
     if len(no_wd_no_scale_lr):
-        param_groups.append({'name': 'no_wd_no_scale_lr', 'params': no_wd_no_scale_lr, 'wd_mult': 0.0, 'lr_mult': 1.0})
+        param_groups.append(
+            {
+                "name": "no_wd_no_scale_lr",
+                "params": no_wd_no_scale_lr,
+                "wd_mult": 0.0,
+                "lr_mult": 1.0,
+            }
+        )
     if len(no_wd_scale_lr):
-        param_groups.append({'name': 'no_wd_scale_lr', 'params': no_wd_scale_lr, 'wd_mult': 0.0, 'lr_mult': lr_mult})
+        param_groups.append(
+            {
+                "name": "no_wd_scale_lr",
+                "params": no_wd_scale_lr,
+                "wd_mult": 0.0,
+                "lr_mult": lr_mult,
+            }
+        )
 
     return param_groups
 
-def get_megatron_optimizer(model,
-                           no_weight_decay_cond=None,
-                           scale_lr_cond=None,
-                           lr_mult=1.0):
+
+def get_megatron_optimizer(
+    model, no_weight_decay_cond=None, scale_lr_cond=None, lr_mult=1.0
+):
     args = get_args()
+    assert args is not None
 
     # Base optimizer.
-    param_groups = get_param_groups(model,
-                                    no_weight_decay_cond,
-                                    scale_lr_cond,
-                                    lr_mult)
+    param_groups = get_param_groups(model, no_weight_decay_cond, scale_lr_cond, lr_mult)
     if args.create_moe_param_group:
-        from deepspeed.moe.utils import split_params_into_different_moe_groups_for_optimizer
-        param_groups = split_params_into_different_moe_groups_for_optimizer(param_groups)
+        from deepspeed.moe.utils import (
+            split_params_into_different_moe_groups_for_optimizer,
+        )
+
+        param_groups = split_params_into_different_moe_groups_for_optimizer(
+            param_groups
+        )
 
+    optimizer = None
+    # ---- CPU Optimizer --------------------------------------
     if args.cpu_optimizer:
-        assert args.optimizer == 'adam', 'CPU offloading is for Adam'
+        assert args.optimizer == "adam", "CPU offloading is for Adam"
         if args.cpu_torch_adam:
             cpu_adam_optimizer = torch.optim.AdamW
         else:
             from deepspeed.ops.adam import DeepSpeedCPUAdam
+
             cpu_adam_optimizer = DeepSpeedCPUAdam
-        optimizer = cpu_adam_optimizer(param_groups,
-                                       lr=args.lr,
-                                       weight_decay=args.weight_decay,
-                                       betas=(args.adam_beta1, args.adam_beta2),
-                                       eps=args.adam_eps)
-    else:
-        if args.optimizer == 'adam':
-            if args.ds_fused_adam:
-                global Adam
-                from deepspeed.ops.adam import FusedAdam
-                Adam = FusedAdam
-            optimizer = Adam(param_groups,
-                            lr=args.lr,
-                            weight_decay=args.weight_decay,
-                            betas=(args.adam_beta1, args.adam_beta2),
-                            eps=args.adam_eps)
-        elif args.optimizer == 'sgd':
-            optimizer = SGD(param_groups,
-                            lr=args.lr,
-                            weight_decay=args.weight_decay,
-                            momentum=args.sgd_momentum)
+        optimizer = cpu_adam_optimizer(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+        )
+    # ---- Adam --------------------------------------
+    elif args.optimizer == "adam":
+        if args.ds_fused_adam:
+            # global Adam
+            from deepspeed.ops.adam import FusedAdam
+
+            Adam = FusedAdam
         else:
-            raise Exception('{} optimizer is not supported.'.format(
-            args.optimizer))
+            Adam = torch.optim.Adam
+        optimizer = Adam(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+        )
+    # ---- apex.Adam --------------------------------------------
+    elif str(args.optimizer).lower() == "apex.adam":
+        assert get_accelerator().device_name() == "cuda"
+        from apex.optimizers import FusedAdam as Adam
+
+        optimizer = Adam(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+        )
+    # ---- Adam8Bit --------------------------------------
+    elif args.optimizer.lower() == "adam8bit":
+        import bitsandbytes as bnb
+
+        optimizer = bnb.optim.Adam8bit(
+            param_groups, lr=args.lr, weight_decay=args.weight_decay
+        )
+    # ---- AdamW --------------------------------------
+    elif str(args.optimizer).lower() == "adamw":
+        optimizer = torch.optim.AdamW(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+        )
+    # ---- AdamW: ScheduleFree -------------------------------------
+    elif str(args.optimizer).lower() == "adamwschedulefree":
+        import schedulefree
+
+        optimizer = schedulefree.AdamWScheduleFree(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+            warmup_steps=args.lr_warmup_iters,
+            foreach=args.schedulefree_for_each,
+        )
+    # ---- AdamW: Galore ------------------------------------------
+    elif args.optimizer.lower() == "galore_adamw":
+        from galore_torch import GaLoreAdamW
+        # redefine way to call galore_adamw
+        optimizer = GaLoreAdamW(
+            param_groups, lr=args.lr, weight_decay=args.weight_decay
+        )
+    # elif args.optimizer.lower() == "galore_adamw":
+    #     from galore_torch import GaLoreAdamW
+    #     # redefine way to call galore_adamw
+    #     optimizer = GaLoreAdamW(param_groups, lr=args.lr, weight_decay=args.weight_decay)
+    # ---- AdamW: GaloRe 8Bit --------------------------------------
+    elif args.optimizer.lower() == "galore_adamw8bit":
+        from galore_torch import GaLoreAdamW8bit
+
+        optimizer = GaLoreAdamW8bit(
+            param_groups, lr=args.lr, weight_decay=args.weight_decay
+        )
+    # ---- AdamW8bitPerLayer: GaloRE ----------------------------
+    elif args.optimizer.lower() == "galore_adamw8bit_per_layer":
+        from galore_torch import GaLoreAdamW8bit
+        # TODO: seems scheduler call twice in one update step, need to check, for now double the num_training_steps, warmup_steps and update_proj_gap
+        optimizer_dict = {}
+        for p in model.parameters():
+            if p.requires_grad:
+                if id(p) in id_galore_params:
+                    optimizer_dict[p] = GaLoreAdamW8bit(
+                        [
+                            {
+                                "params": [p],
+                                "rank": args.rank,
+                                "update_proj_gap": args.update_proj_gap * 2,
+                                "scale": args.galore_scale,
+                                "proj_type": args.proj_type,
+                            }
+                        ],
+                        lr=args.lr,
+                        weight_decay=args.weight_decay,
+                    )
+                else:
+                    optimizer_dict[p] = bnb.optim.Adam8bit(
+                        [p], lr=args.lr, weight_decay=args.weight_decay
+                    )
+        # get scheduler dict
+        scheduler_dict = {}
+        from galore_torch.peft_pretraining import training_utils
+
+        for p in model.parameters():
+            if p.requires_grad:
+                scheduler_dict[p] = training_utils.get_scheculer(
+                    optimizer=optimizer_dict[p],
+                    scheduler_type=args.scheduler,
+                    num_training_steps=args.num_training_steps * 2,
+                    warmup_steps=args.warmup_steps * 2,
+                    min_lr_ratio=args.min_lr_ratio,
+                )
+
+        def optimizer_hook(p):
+            if p.grad is None:
+                return
+            optimizer_dict[p].step()
+            optimizer_dict[p].zero_grad()
+            scheduler_dict[p].step()
+
+        # Register the hook onto every parameter
+        for p in model.parameters():
+            if p.requires_grad:
+                p.register_post_accumulate_grad_hook(optimizer_hook)
+        layer_wise_flag = True
+    # ---- AdaFactor --------------------------------------
+    elif args.optimizer.lower() == "adafactor":
+        import transformers
+
+        args.beta1 = None if args.beta1 == 0.0 else args.beta1
+        optimizer = transformers.optimization.Adafactor(
+            param_groups,
+            lr=args.lr,
+            eps=(1e-30, 1e-3),
+            clip_threshold=1.0,
+            decay_rate=-0.8,
+            beta1=args.beta1,
+            weight_decay=args.weight_decay,
+            relative_step=False,
+            scale_parameter=False,
+            warmup_init=False,
+        )
+    # ---- GaLore: Adafactor adafactor ------------------------------------
+    elif args.optimizer.lower() == "galore_adafactor":
+        from galore_torch import GaLoreAdafactor
 
+        args.beta1 = None if args.beta1 == 0.0 else args.beta1
+        optimizer = GaLoreAdafactor(
+            param_groups,
+            lr=args.lr,
+            eps=(1e-30, 1e-3),
+            clip_threshold=1.0,
+            decay_rate=-0.8,
+            beta1=args.beta1,
+            weight_decay=args.weight_decay,
+            relative_step=False,
+            scale_parameter=False,
+            warmup_init=False,
+        )
+    # ---- Apex: sgd ---------------------------------------------
+    elif str(args.optimizer).lower() == "apex.sgd":
+        from apex.optimizers import FusedSGD as SGD
+
+        optimizer = SGD(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            momentum=args.sgd_momentum,
+        )
+    # ---- ScheduleFree: SGD -------------------------------
+    elif str(args.optimizer).lower() == "sgdschedulefree":
+        import schedulefree
+
+        optimizer = schedulefree.SGDScheduleFree(
+            param_groups,
+            lr=args.lr,
+            momentum=args.sgd_momentum,
+            weight_decay=args.weight_decay,
+            warmup_steps=args.lr_warmup_iters,
+            foreach=args.schedulefree_for_each,
+        )
+    # ---- Lamb: Ipex --------------------------------------------
+    elif str(args.optimizer) == "ipex.lamb":
+        from intel_extension_for_pytorch.optim._lamb import Lamb
+
+        optimizer = Lamb(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+        )
+    # ---- Lamb(Fused): Ipex ----------------------------------------
+    elif str(args.optimizer) == "ipex.fusedlamb":
+        from intel_extension_for_pytorch.optim._lamb import Lamb
+
+        optimizer = Lamb(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+            fused=True,
+        )
+    # ---- Lamb(Fused): DeepSpeed ------------------------------------------
+    elif str(args.optimizer).lower() == "ds.fusedlamb":
+        from deepspeed.ops.lamb import FusedLamb
+
+        optimizer = FusedLamb(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+        )
+    # ---- Shampoo ----------------------------------------
+    elif str(args.optimizer).lower() == "dshampooadamw":
+        from distributed_shampoo.distributed_shampoo import DistributedShampoo
+        from distributed_shampoo.shampoo_types import AdamGraftingConfig
+
+        optimizer = DistributedShampoo(
+            param_groups,
+            lr=args.lr,
+            betas=(args.adam_beta1, args.adam_beta2),
+            epsilon=args.dshampooadamw_eps,
+            weight_decay=args.weight_decay,
+            max_preconditioner_dim=args.dshampooadamw_max_preconditioner_dim,
+            precondition_frequency=args.dshampooadamw_precondition_freq,
+            use_decoupled_weight_decay=args.dshampooadamw_use_decoupled_weight_decay,
+            grafting_config=AdamGraftingConfig(
+                beta2=args.adam_beta2,
+                epsilon=args.adam_eps,
+            ),
+        )
+    # --- sgd -------------------------------------------------
+    elif args.optimizer == "sgd":
+        optimizer = torch.optim.SGD(
+            param_groups,
+            lr=args.lr,
+            weight_decay=args.weight_decay,
+            momentum=args.sgd_momentum,
+        )
+    # --- sophiag -----------------------------------------------
+    elif str(args.optimizer).lower() == "sophiag":
+        from .sophia import SophiaG
+
+        optimizer = SophiaG(
+            param_groups,
+            lr=args.lr,
+            betas=(args.sophiag_beta1, args.sophiag_beta2),
+            rho=args.sophiag_rho,
+            weight_decay=args.weight_decay,
+        )
+    # --- adopt -----------------------------------------------
+    elif str(args.optimizer).lower() == "adopt":
+        from .adopt import ADOPT
+
+        optimizer = ADOPT(
+            param_groups,
+            lr=args.lr,
+            betas=(args.adam_beta1, args.adam_beta2),
+            eps=args.adam_eps,
+            weight_decay=args.weight_decay,
+        )
+    # --- muon  -----------------------------------------------
+    elif str(args.optimizer).lower() == "muon":
+        from .muon import Muon
+
+        optimizer = Muon(
+            param_groups,
+            lr=args.lr,
+            wd=args.weight_decay,
+            momentum=args.muon_momentum,
+            nesterov=args.muon_nesterov,
+            ns_steps=args.muon_ns_steps,
+            adamw_betas=(args.muonadamw_beta1, args.muonadamw_beta2),
+            adamw_eps=args.muonadamw_eps,
+        )
+    # --- muonclip  -----------------------------------------------
+    elif str(args.optimizer).lower() == "muonclip":
+        from .muon import MuonClip
+
+        optimizer = MuonClip(
+            param_groups,
+            lr=args.lr,
+            wd=args.weight_decay,
+            momentum=args.muon_momentum,
+            nesterov=args.muon_nesterov,
+            ns_steps=args.muon_ns_steps,
+            adamw_betas=(args.muonadamw_beta1, args.muonadamw_beta2),
+            adamw_eps=args.muonadamw_eps,
+            qk_clip=True,                 # turn on MuonClip
+            clip_t=args.muonclip_t,       
+            alpha=args.muonclip_alpha,    
+        )
+    else:
+        raise TypeError(f"{args.optimizer} optimizer is not supported.")
+    assert optimizer is not None
     if args.deepspeed:
         return optimizer
 
@@ -119,13 +472,11 @@ def get_megatron_optimizer(model,
     params_have_main_grad = False
     if args.use_contiguous_buffers_in_local_ddp:
         params_have_main_grad = True
-
     # Mixed precision optimizer.
     # - Note: both the Float16Optimizer and the DistributedOptimizer inherit
     #   from the MixedPrecisionOptimizer, which manages any optimizer where
     #   the model params and main params are distinct.
     if args.fp16 or args.bf16 or args.use_distributed_optimizer:
-
         # Grad scaler:
         #    if loss-scale is provided, instantiate the constant scaler.
         #    if we are using fp16 and loss-scale is not present, use a
@@ -133,11 +484,9 @@ def get_megatron_optimizer(model,
         #    otherwise we are running in bf16 with no loss-scale so
         #       leave it as None.
         grad_scaler = None
-
         # Constant loss scale.
         if args.loss_scale:
             grad_scaler = ConstantGradScaler(args.loss_scale)
-
         # Dynamic loss scale.
         else:
             if args.fp16:
@@ -147,26 +496,32 @@ def get_megatron_optimizer(model,
                     growth_factor=2.0,
                     backoff_factor=0.5,
                     growth_interval=args.loss_scale_window,
-                    hysteresis=args.hysteresis)
-
+                    hysteresis=args.hysteresis,
+                )
         # Megatron optimizer.
-        opt_ty = DistributedOptimizer \
-            if args.use_distributed_optimizer else \
-            Float16OptimizerWithFloat16Params
-        return opt_ty(optimizer,
-                      args.clip_grad,
-                      args.log_num_zeros_in_grad,
-                      params_have_main_grad,
-                      args.use_contiguous_buffers_in_local_ddp,
-                      args.fp16,
-                      args.bf16,
-                      args.params_dtype,
-                      grad_scaler,
-                      model)
-
+        opt_ty = (
+            DistributedOptimizer
+            if args.use_distributed_optimizer
+            else Float16OptimizerWithFloat16Params
+        )
+        return opt_ty(
+            optimizer,
+            args.clip_grad,
+            args.log_num_zeros_in_grad,
+            params_have_main_grad,
+            args.use_contiguous_buffers_in_local_ddp,
+            args.fp16,
+            args.bf16,
+            args.params_dtype,
+            grad_scaler,
+            model,
+        )
     # FP32.
-    return FP32Optimizer(optimizer, args.clip_grad,
-                         args.log_num_zeros_in_grad,
-                         params_have_main_grad,
-                         args.use_contiguous_buffers_in_local_ddp,
-                         model)
+    return FP32Optimizer(
+        optimizer,
+        args.clip_grad,
+        args.log_num_zeros_in_grad,
+        params_have_main_grad,
+        args.use_contiguous_buffers_in_local_ddp,
+        model,
+    )
diff --git a/megatron/optimizer/adopt.py b/megatron/optimizer/adopt.py
new file mode 100644
index 00000000000..e33fb83b1d6
--- /dev/null
+++ b/megatron/optimizer/adopt.py
@@ -0,0 +1,557 @@
+# mypy: allow-untyped-decorators
+# mypy: allow-untyped-defs
+from typing import cast, Callable, List, Optional, Tuple, Union
+
+import torch
+from torch import Tensor
+
+from torch.optim.optimizer import (
+    _capturable_doc,
+    _default_to_fused_or_foreach,
+    _device_dtype_check_for_fused,
+    _differentiable_doc,
+    _disable_dynamo_if_unsupported,
+    _foreach_doc,
+    _fused_doc,
+    _get_capturable_supported_devices,
+    _get_scalar_dtype,
+    _get_value,
+    _maximize_doc,
+    _stack_if_compiling,
+    _use_grad_for_differentiable,
+    _view_as_real,
+    DeviceDict,
+    Optimizer,
+    ParamsT,
+)
+
+
+__all__ = ["ADOPT", "adopt"]
+
+
+# code from https://github.com/iShohei220/adopt/blob/main/src/adopt/adopt.py, copy pasted here because no pip and not sure about submodules
+class ADOPT(Optimizer):
+
+    def __init__(
+        self,
+        params: ParamsT,
+        lr: Union[float, Tensor] = 1e-3,
+        betas: Tuple[float, float] = (0.9, 0.9999),
+        eps: float = 1e-6,
+        clip_lambda: Optional[Callable[[int], float]] = lambda step: step**0.25,
+        weight_decay: float = 0.0,
+        decouple: bool = False,
+        *,
+        foreach: Optional[bool] = None,
+        maximize: bool = False,
+        capturable: bool = False,
+        differentiable: bool = False,
+        fused: Optional[bool] = None,
+    ):
+        if isinstance(lr, Tensor):
+            if foreach and not capturable:
+                raise ValueError(
+                    "lr as a Tensor is not supported for capturable=False and foreach=True"
+                )
+            if lr.numel() != 1:
+                raise ValueError("Tensor lr must be 1-element")
+        if not 0.0 <= lr:
+            raise ValueError(f"Invalid learning rate: {lr}")
+        if not 0.0 <= eps:
+            raise ValueError(f"Invalid epsilon value: {eps}")
+        if not 0.0 <= betas[0] < 1.0:
+            raise ValueError(f"Invalid beta parameter at index 0: {betas[0]}")
+        if not 0.0 <= betas[1] < 1.0:
+            raise ValueError(f"Invalid beta parameter at index 1: {betas[1]}")
+        if not 0.0 <= weight_decay:
+            raise ValueError(f"Invalid weight_decay value: {weight_decay}")
+
+        self.clip_lambda = clip_lambda
+
+        defaults = dict(
+            lr=lr,
+            betas=betas,
+            eps=eps,
+            weight_decay=weight_decay,
+            decouple=decouple,
+            maximize=maximize,
+            foreach=foreach,
+            capturable=capturable,
+            differentiable=differentiable,
+            fused=fused,
+        )
+        super().__init__(params, defaults)
+
+        if fused:
+            # TODO: support fused
+            raise RuntimeError("`fused` is not currently supported")
+
+            if differentiable:
+                raise RuntimeError("`fused` does not support `differentiable`")
+            self._step_supports_amp_scaling = True
+            # TODO(crcrpar): [low prec params & their higher prec copy]
+            # Support AMP with FP16/BF16 model params which would need
+            # higher prec copy of params to do update math in higher prec to
+            # alleviate the loss of information.
+            if foreach:
+                raise RuntimeError("`fused` and `foreach` cannot be `True` together.")
+
+    def __setstate__(self, state):
+        super().__setstate__(state)
+        for group in self.param_groups:
+            group.setdefault("maximize", False)
+            group.setdefault("foreach", None)
+            group.setdefault("capturable", False)
+            group.setdefault("differentiable", False)
+            fused = group.setdefault("fused", None)
+            for p in group["params"]:
+                p_state = self.state.get(p, [])
+                if len(p_state) != 0 and not torch.is_tensor(p_state["step"]):
+                    step_val = float(p_state["step"])
+                    p_state["step"] = (
+                        torch.tensor(
+                            step_val,
+                            dtype=_get_scalar_dtype(is_fused=fused),
+                            device=p.device,
+                        )
+                        if group["capturable"] or group["fused"]
+                        else torch.tensor(step_val, dtype=_get_scalar_dtype())
+                    )
+
+    def _init_group(
+        self,
+        group,
+        params_with_grad,
+        grads,
+        exp_avgs,
+        exp_avg_sqs,
+        state_steps,
+    ):
+        has_complex = False
+        for p in group["params"]:
+            if p.grad is not None:
+                has_complex |= torch.is_complex(p)
+                params_with_grad.append(p)
+                if p.grad.is_sparse:
+                    raise RuntimeError("ADOPT does not support sparse gradients")
+                grads.append(p.grad)
+
+                state = self.state[p]
+                # Lazy state initialization
+                if len(state) == 0:
+                    if group["fused"]:
+                        _device_dtype_check_for_fused(p)
+                    # note(crcrpar): [special device hosting for step]
+                    # Deliberately host `step` on CPU if both capturable and fused are off.
+                    # This is because kernel launches are costly on CUDA and XLA.
+                    state["step"] = (
+                        torch.zeros(
+                            (),
+                            dtype=_get_scalar_dtype(is_fused=group["fused"]),
+                            device=p.device,
+                        )
+                        if group["capturable"] or group["fused"]
+                        else torch.tensor(0.0, dtype=_get_scalar_dtype())
+                    )
+                    # Exponential moving average of gradient values
+                    state["exp_avg"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+                    # Exponential moving average of squared gradient values
+                    state["exp_avg_sq"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+
+                exp_avgs.append(state["exp_avg"])
+                exp_avg_sqs.append(state["exp_avg_sq"])
+
+                if group["differentiable"] and state["step"].requires_grad:
+                    raise RuntimeError(
+                        "`requires_grad` is not supported for `step` in differentiable mode"
+                    )
+
+                # Foreach without capturable does not support a tensor lr
+                if (
+                    group["foreach"]
+                    and torch.is_tensor(group["lr"])
+                    and not group["capturable"]
+                ):
+                    raise RuntimeError(
+                        "lr as a Tensor is not supported for capturable=False and foreach=True"
+                    )
+
+                state_steps.append(state["step"])
+        return has_complex
+
+    @_use_grad_for_differentiable
+    def step(self, closure=None):
+        """Perform a single optimization step.
+
+        Args:
+            closure (Callable, optional): A closure that reevaluates the model
+                and returns the loss.
+        """
+        self._cuda_graph_capture_health_check()
+
+        loss = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            params_with_grad: List[Tensor] = []
+            grads: List[Tensor] = []
+            exp_avgs: List[Tensor] = []
+            exp_avg_sqs: List[Tensor] = []
+            state_steps: List[Tensor] = []
+            beta1, beta2 = group["betas"]
+
+            has_complex = self._init_group(
+                group,
+                params_with_grad,
+                grads,
+                exp_avgs,
+                exp_avg_sqs,
+                state_steps,
+            )
+
+            adopt(
+                params_with_grad,
+                grads,
+                exp_avgs,
+                exp_avg_sqs,
+                state_steps,
+                has_complex=has_complex,
+                beta1=beta1,
+                beta2=beta2,
+                lr=group["lr"],
+                clip_lambda=self.clip_lambda,
+                weight_decay=group["weight_decay"],
+                decouple=group["decouple"],
+                eps=group["eps"],
+                maximize=group["maximize"],
+                foreach=group["foreach"],
+                capturable=group["capturable"],
+                differentiable=group["differentiable"],
+                fused=group["fused"],
+                grad_scale=getattr(self, "grad_scale", None),
+                found_inf=getattr(self, "found_inf", None),
+            )
+
+        return loss
+
+
+def _single_tensor_adopt(
+    params: List[Tensor],
+    grads: List[Tensor],
+    exp_avgs: List[Tensor],
+    exp_avg_sqs: List[Tensor],
+    state_steps: List[Tensor],
+    grad_scale: Optional[Tensor],
+    found_inf: Optional[Tensor],
+    *,
+    has_complex: bool,
+    beta1: float,
+    beta2: float,
+    lr: Union[float, Tensor],
+    clip_lambda: Optional[Callable[[int], float]],
+    weight_decay: float,
+    decouple: bool,
+    eps: float,
+    maximize: bool,
+    capturable: bool,
+    differentiable: bool,
+):
+    assert grad_scale is None and found_inf is None
+
+    if torch.jit.is_scripting():
+        # this assert is due to JIT being dumb and not realizing that the ops below
+        # have overloads to handle both float and Tensor lrs, so we just assert it's
+        # a float since most people using JIT are using floats
+        assert isinstance(lr, float)
+
+    for i, param in enumerate(params):
+        grad = grads[i] if not maximize else -grads[i]
+        exp_avg = exp_avgs[i]
+        exp_avg_sq = exp_avg_sqs[i]
+        step_t = state_steps[i]
+
+        # If compiling, the compiler will handle cudagraph checks, see note [torch.compile x capturable]
+        if not torch._utils.is_compiling() and capturable:
+            capturable_supported_devices = _get_capturable_supported_devices()
+            assert (
+                param.device.type == step_t.device.type
+                and param.device.type in capturable_supported_devices
+            ), f"If capturable=True, params and state_steps must be on supported devices: {capturable_supported_devices}."
+
+        step = step_t if capturable or differentiable else _get_value(step_t)
+
+        if weight_decay != 0 and not decouple:
+            grad = grad.add(param, alpha=weight_decay)
+
+        if torch.is_complex(param):
+            grad = torch.view_as_real(grad)
+            if exp_avg is not None:
+                exp_avg = torch.view_as_real(exp_avg)
+            if exp_avg_sq is not None:
+                exp_avg_sq = torch.view_as_real(exp_avg_sq)
+            param = torch.view_as_real(param)
+
+        if step == 0:
+            exp_avg_sq.addcmul_(grad, grad.conj())
+            # update step
+            step_t += 1
+            continue
+
+        if weight_decay != 0 and decouple:
+            param.add_(param, alpha=-lr * weight_decay)
+
+        denom = torch.clamp(exp_avg_sq.sqrt(), eps)
+        normed_grad = grad.div(denom)
+        if clip_lambda is not None:
+            clip = clip_lambda(step)
+            normed_grad.clamp_(-clip, clip)
+
+        exp_avg.lerp_(normed_grad, 1 - beta1)
+
+        param.add_(exp_avg, alpha=-lr)
+        exp_avg_sq.mul_(beta2).addcmul_(grad, grad.conj(), value=1 - beta2)
+
+        # update step
+        step_t += 1
+
+
+def _multi_tensor_adopt(
+    params: List[Tensor],
+    grads: List[Tensor],
+    exp_avgs: List[Tensor],
+    exp_avg_sqs: List[Tensor],
+    state_steps: List[Tensor],
+    grad_scale: Optional[Tensor],
+    found_inf: Optional[Tensor],
+    *,
+    has_complex: bool,
+    beta1: float,
+    beta2: float,
+    lr: Union[float, Tensor],
+    clip_lambda: Optional[Callable[[int], float]],
+    weight_decay: float,
+    decouple: bool,
+    eps: float,
+    maximize: bool,
+    capturable: bool,
+    differentiable: bool,
+):
+    if len(params) == 0:
+        return
+
+    if isinstance(lr, Tensor) and not capturable:
+        raise RuntimeError(
+            "lr as a Tensor is not supported for capturable=False and foreach=True"
+        )
+
+    # If compiling, the compiler will handle cudagraph checks, see note [torch.compile x capturable]
+    if not torch._utils.is_compiling() and capturable:
+        capturable_supported_devices = _get_capturable_supported_devices(
+            supports_xla=False
+        )
+        assert all(
+            p.device.type == step.device.type
+            and p.device.type in capturable_supported_devices
+            for p, step in zip(params, state_steps)
+        ), f"If capturable=True, params and state_steps must be on supported devices: {capturable_supported_devices}."
+
+    assert grad_scale is None and found_inf is None
+
+    assert not differentiable, "_foreach ops don't support autograd"
+
+    grouped_tensors = Optimizer._group_tensors_by_device_and_dtype(
+        [params, grads, exp_avgs, exp_avg_sqs, state_steps]  # type: ignore[list-item]
+    )
+    for (
+        device_params_,
+        device_grads_,
+        device_exp_avgs_,
+        device_exp_avg_sqs_,
+        device_state_steps_,
+    ), _ in grouped_tensors.values():
+        device_params = cast(List[Tensor], device_params_)
+        device_grads = cast(List[Tensor], device_grads_)
+        device_exp_avgs = cast(List[Tensor], device_exp_avgs_)
+        device_exp_avg_sqs = cast(List[Tensor], device_exp_avg_sqs_)
+        device_state_steps = cast(List[Tensor], device_state_steps_)
+
+        # Handle complex parameters
+        if has_complex:
+            _view_as_real(
+                device_params, device_grads, device_exp_avgs, device_exp_avg_sqs
+            )
+
+        if maximize:
+            device_grads = torch._foreach_neg(device_grads)  # type: ignore[assignment]
+
+        if weight_decay != 0 and not decouple:
+            # Re-use the intermediate memory (device_grads) already allocated for maximize
+            if maximize:
+                torch._foreach_add_(device_grads, device_params, alpha=weight_decay)
+            else:
+                device_grads = torch._foreach_add(  # type: ignore[assignment]
+                    device_grads, device_params, alpha=weight_decay
+                )
+
+        if device_state_steps[0] == 0:
+            torch._foreach_addcmul_(device_exp_avg_sqs, device_grads, device_grads)
+
+            # Update steps
+            # If steps are on CPU, foreach will fall back to the slow path, which is a for-loop calling t.add(1) over
+            # and over. 1 will then be wrapped into a Tensor over and over again, which is slower than if we just
+            # wrapped it once now. The alpha is required to assure we go to the right overload.
+            if not torch._utils.is_compiling() and device_state_steps[0].is_cpu:
+                torch._foreach_add_(
+                    device_state_steps, torch.tensor(1.0, device="cpu"), alpha=1.0
+                )
+            else:
+                torch._foreach_add_(device_state_steps, 1)
+
+            continue
+
+        if weight_decay != 0 and decouple:
+            torch._foreach_add_(device_params, device_params, alpha=-lr * weight_decay)
+
+        exp_avg_sq_sqrt = torch._foreach_sqrt(device_exp_avg_sqs)
+        torch._foreach_maximum_(exp_avg_sq_sqrt, eps)
+
+        normed_grad = torch._foreach_div(device_grads, exp_avg_sq_sqrt)
+        if clip_lambda is not None:
+            clip = clip_lambda(device_state_steps[0])
+            torch._foreach_maximum_(normed_grad, -clip)
+            torch._foreach_minimum_(normed_grad, clip)
+
+        torch._foreach_lerp_(device_exp_avgs, normed_grad, 1 - beta1)
+
+        torch._foreach_add_(device_params, device_exp_avgs, alpha=-lr)
+        torch._foreach_mul_(device_exp_avg_sqs, beta2)
+        torch._foreach_addcmul_(
+            device_exp_avg_sqs, device_grads, device_grads, value=1 - beta2
+        )
+
+        # Update steps
+        # If steps are on CPU, foreach will fall back to the slow path, which is a for-loop calling t.add(1) over
+        # and over. 1 will then be wrapped into a Tensor over and over again, which is slower than if we just
+        # wrapped it once now. The alpha is required to assure we go to the right overload.
+        if not torch._utils.is_compiling() and device_state_steps[0].is_cpu:
+            torch._foreach_add_(
+                device_state_steps, torch.tensor(1.0, device="cpu"), alpha=1.0
+            )
+        else:
+            torch._foreach_add_(device_state_steps, 1)
+
+
+def _fused_adopt(
+    params: List[Tensor],
+    grads: List[Tensor],
+    exp_avgs: List[Tensor],
+    exp_avg_sqs: List[Tensor],
+    state_steps: List[Tensor],
+    grad_scale: Optional[Tensor],
+    found_inf: Optional[Tensor],
+    *,
+    has_complex: bool,  # Needed for consistency.
+    beta1: float,
+    beta2: float,
+    lr: Union[float, Tensor],
+    clip_lambda: Optional[Callable[[int], float]],
+    weight_decay: float,
+    decouple: bool,
+    eps: float,
+    maximize: bool,
+    capturable: bool,  # Needed for consistency.
+    differentiable: bool,
+) -> None:
+    raise NotImplementedError
+
+
+@_disable_dynamo_if_unsupported(single_tensor_fn=_single_tensor_adopt)
+def adopt(
+    params: List[Tensor],
+    grads: List[Tensor],
+    exp_avgs: List[Tensor],
+    exp_avg_sqs: List[Tensor],
+    state_steps: List[Tensor],
+    # kwonly args with defaults are not supported by functions compiled with torchscript issue #70627
+    # setting this as kwarg for now as functional API is compiled by torch/distributed/optim
+    foreach: Optional[bool] = None,
+    capturable: bool = False,
+    differentiable: bool = False,
+    fused: Optional[bool] = None,
+    grad_scale: Optional[Tensor] = None,
+    found_inf: Optional[Tensor] = None,
+    has_complex: bool = False,
+    *,
+    beta1: float,
+    beta2: float,
+    lr: Union[float, Tensor],
+    clip_lambda: Optional[Callable[[int], float]],
+    weight_decay: float,
+    decouple: bool,
+    eps: float,
+    maximize: bool,
+):
+    r"""Functional API that performs ADOPT algorithm computation."""
+    # Respect when the user inputs False/True for foreach or fused. We only want to change
+    # the default when neither have been user-specified. Note that we default to foreach
+    # and pass False to use_fused. This is not a mistake--we want to give the fused impl
+    # bake-in time before making it the default, even if it is typically faster.
+    if fused is None and foreach is None:
+        _, foreach = _default_to_fused_or_foreach(
+            params, differentiable, use_fused=False
+        )
+        # Do not flip on foreach for the unsupported case where lr is a Tensor and capturable=False.
+        if foreach and isinstance(lr, Tensor) and not capturable:
+            foreach = False
+    if fused is None:
+        fused = False
+    if foreach is None:
+        foreach = False
+
+    # this check is slow during compilation, so we skip it
+    # if it's strictly needed we can add this check back in dynamo
+    if not torch._utils.is_compiling() and not all(
+        isinstance(t, torch.Tensor) for t in state_steps
+    ):
+        raise RuntimeError(
+            "API has changed, `state_steps` argument must contain a list of singleton tensors"
+        )
+
+    if foreach and torch.jit.is_scripting():
+        raise RuntimeError("torch.jit.script not supported with foreach optimizers")
+    if fused and torch.jit.is_scripting():
+        raise RuntimeError("torch.jit.script not supported with fused optimizers")
+
+    if fused and not torch.jit.is_scripting():
+        func = _fused_adopt
+    elif foreach and not torch.jit.is_scripting():
+        func = _multi_tensor_adopt
+    else:
+        func = _single_tensor_adopt
+
+    func(
+        params,
+        grads,
+        exp_avgs,
+        exp_avg_sqs,
+        state_steps,
+        has_complex=has_complex,
+        beta1=beta1,
+        beta2=beta2,
+        lr=lr,
+        clip_lambda=clip_lambda,
+        weight_decay=weight_decay,
+        decouple=decouple,
+        eps=eps,
+        maximize=maximize,
+        capturable=capturable,
+        differentiable=differentiable,
+        grad_scale=grad_scale,
+        found_inf=found_inf,
+    )
diff --git a/megatron/optimizer/clip_grads.py b/megatron/optimizer/clip_grads.py
index afec8f220c4..1c731100efe 100644
--- a/megatron/optimizer/clip_grads.py
+++ b/megatron/optimizer/clip_grads.py
@@ -3,23 +3,29 @@
 """Gradient clipping."""
 
 import torch
+
 try:
     from torch._six import inf as inf
 except ModuleNotFoundError:
     from torch import inf as inf
 
-from deepspeed.accelerator import get_accelerator
-if get_accelerator().device_name() == 'cuda':
+# from deepspeed.accelerator import get_accelerator
+# if get_accelerator().device_name() == 'cuda':
+try:
     from apex.multi_tensor_apply import multi_tensor_applier
     import amp_C
 
+    HAS_APEX = True
+except Exception:
+    HAS_APEX = False
+
 from megatron.model.module import param_is_not_shared
 from megatron.core.tensor_parallel import param_is_not_tensor_parallel_duplicate
 
 
-def clip_grad_norm_fp32(parameters, grads_for_norm,
-                        max_norm, norm_type=2,
-                        model_parallel_group=None):
+def clip_grad_norm_fp32(
+    parameters, grads_for_norm, max_norm, norm_type=2, model_parallel_group=None
+):
     """Clips gradient norm of an iterable of parameters whose gradients
        are in fp32.
 
@@ -51,7 +57,9 @@ def clip_grad_norm_fp32(parameters, grads_for_norm,
     grads = []
     for param in parameters:
         if param.grad is not None:
-            assert param.grad.type() == 'torch.{}.FloatTensor'.format(get_accelerator().device_name())
+            assert param.grad.type() == "torch.{}.FloatTensor".format(
+                get_accelerator().device_name()
+            )
             grads.append(param.grad.detach())
 
     # Norm parameters.
@@ -64,14 +72,16 @@ def clip_grad_norm_fp32(parameters, grads_for_norm,
         total_norm = max(grad.abs().max() for grad in grads_for_norm)
         total_norm_cuda = get_accelerator().FloatTensor([float(total_norm)])
         # Take max across all model-parallel GPUs.
-        torch.distributed.all_reduce(total_norm_cuda,
-                                     op=torch.distributed.ReduceOp.MAX,
-                                     group=model_parallel_group)
+        torch.distributed.all_reduce(
+            total_norm_cuda,
+            op=torch.distributed.ReduceOp.MAX,
+            group=model_parallel_group,
+        )
         total_norm = total_norm_cuda[0].item()
 
     else:
         if norm_type == 2.0:
-            if get_accelerator().device_name() == 'cuda':
+            if get_accelerator().device_name() == "cuda" and HAS_APEX:
                 dummy_overflow_buf = torch.cuda.IntTensor([0])
                 # Use apex's multi-tensor applier for efficiency reasons.
                 # Multi-tensor applier takes a function and a list of list
@@ -81,35 +91,34 @@ def clip_grad_norm_fp32(parameters, grads_for_norm,
                         amp_C.multi_tensor_l2norm,
                         dummy_overflow_buf,
                         [grads_for_norm],
-                        False # no per-parameter norm
+                        False,  # no per-parameter norm
                     )
                 else:
                     grad_norm = torch.cuda.FloatTensor([0])
             else:
-                grad_norm = torch.norm(grads_for_norm,p=2.0)
+                grad_norm = torch.norm(grads_for_norm, p=2.0)
             # Since we will be summing across data parallel groups,
             # we need the pow(norm-type).
-            total_norm = grad_norm ** norm_type
+            total_norm = grad_norm**norm_type
         else:
             for grad in grads_for_norm:
                 grad_norm = torch.norm(grad, norm_type)
-                total_norm += grad_norm ** norm_type
+                total_norm += grad_norm**norm_type
 
         # Sum across all model-parallel GPUs.
-        torch.distributed.all_reduce(total_norm,
-                                     op=torch.distributed.ReduceOp.SUM,
-                                     group=model_parallel_group)
+        torch.distributed.all_reduce(
+            total_norm, op=torch.distributed.ReduceOp.SUM, group=model_parallel_group
+        )
         total_norm = total_norm.item() ** (1.0 / norm_type)
 
     # Scale.
     clip_coeff = max_norm / (total_norm + 1.0e-6)
     if clip_coeff < 1.0:
-        if get_accelerator().device_name() == 'cuda':
+        if get_accelerator().device_name() == "cuda":
             dummy_overflow_buf = get_accelerator().IntTensor([0])
-            multi_tensor_applier(amp_C.multi_tensor_scale,
-                                dummy_overflow_buf,
-                                [grads, grads],
-                                clip_coeff)
+            multi_tensor_applier(
+                amp_C.multi_tensor_scale, dummy_overflow_buf, [grads, grads], clip_coeff
+            )
         else:
             for g in grads:
                 g.detach().mul_(clip_coeff.to(g.device))
@@ -137,9 +146,9 @@ def count_zeros_fp32(parameters, model_parallel_group):
             total_num_zeros = num_zeros + total_num_zeros
 
     # Sum across all model-parallel GPUs.
-    torch.distributed.all_reduce(total_num_zeros,
-                                 op=torch.distributed.ReduceOp.SUM,
-                                 group=model_parallel_group)
+    torch.distributed.all_reduce(
+        total_num_zeros, op=torch.distributed.ReduceOp.SUM, group=model_parallel_group
+    )
 
     total_num_zeros = total_num_zeros.item()
 
diff --git a/megatron/optimizer/distrib_optimizer.py b/megatron/optimizer/distrib_optimizer.py
index 1aeeac34449..117797efd61 100644
--- a/megatron/optimizer/distrib_optimizer.py
+++ b/megatron/optimizer/distrib_optimizer.py
@@ -2,10 +2,11 @@
 
 """Megatron distributed optimizer."""
 
-from deepspeed.accelerator import get_accelerator
-if get_accelerator().device_name() == 'cuda':
+# from deepspeed.accelerator import get_accelerator
+# if get_accelerator().device_name() == 'cuda':
+try:
     from apex.optimizers import FusedAdam as Adam
-else:
+except Exception:
     from torch.optim import Adam
 
 import math
@@ -26,14 +27,18 @@ class Range:
     A range represents a start and end points for indexing a shard
     from a full tensor.
     """
+
     def __init__(self, start, end):
         self.start = start
         self.end = end
         self.size = end - start
-    def normalize(self, start = 0):
+
+    def normalize(self, start=0):
         return Range(start, start + self.size)
+
     def __str__(self):
         return "%d,%d [%d]" % (self.start, self.end, self.size)
+
     def __len__(self):
         return self.end - self.start
 
@@ -102,29 +107,27 @@ def build_model_gbuf_param_range_map(cls, model, dtype, gbuf_world_range):
 
             # Param range.
             param_world_start, param_world_end = param_world_indexes
-            param_local_start = max(
-                0,
-                param_world_start - gbuf_world_range.start)
+            param_local_start = max(0, param_world_start - gbuf_world_range.start)
             param_local_end = min(
-                gbuf_world_range.size,
-                param_world_end - gbuf_world_range.start)
+                gbuf_world_range.size, param_world_end - gbuf_world_range.start
+            )
 
             # Add param, if within local gbuf range.
             if param_local_end > param_local_start:
                 param_local_range = Range(param_local_start, param_local_end)
                 param_world_range = param_local_range.normalize(
-                    param_local_start + gbuf_world_range.start)
-                sub_param_start = max(0, gbuf_world_range.start-param_world_start)
+                    param_local_start + gbuf_world_range.start
+                )
+                sub_param_start = max(0, gbuf_world_range.start - param_world_start)
                 sub_param_range = param_local_range.normalize(sub_param_start)
                 param_range_map[param] = {
-                    "gbuf_world" : param_world_range,
-                    "gbuf_local" : param_local_range,
-                    "param" : sub_param_range,
+                    "gbuf_world": param_world_range,
+                    "gbuf_local": param_local_range,
+                    "param": sub_param_range,
                 }
 
         return param_range_map
 
-
     @classmethod
     def build_model_gbuf_range(cls, model, dtype):
         """
@@ -149,7 +152,7 @@ def build_model_gbuf_range(cls, model, dtype):
         gbuf_world_all_ranges = []
         for r in range(data_parallel_world_size):
             gbuf_world_start = r * max_gbuf_range_size
-            gbuf_world_end = min(gbuf_size, gbuf_world_start+max_gbuf_range_size)
+            gbuf_world_end = min(gbuf_size, gbuf_world_start + max_gbuf_range_size)
             gbuf_world_range = Range(gbuf_world_start, gbuf_world_end)
             gbuf_world_all_ranges.append(gbuf_world_range)
 
@@ -158,22 +161,21 @@ def build_model_gbuf_range(cls, model, dtype):
         gbuf_local_range = gbuf_world_range.normalize()
 
         # Get each param's ranges.
-        param_range_map = cls.build_model_gbuf_param_range_map(model,
-                                                               dtype,
-                                                               gbuf_world_range)
+        param_range_map = cls.build_model_gbuf_param_range_map(
+            model, dtype, gbuf_world_range
+        )
 
         # Group into dict.
         data = {
-            "local" : gbuf_local_range,
-            "world" : gbuf_world_range,
-            "world_all" : gbuf_world_all_ranges,
-            "param_map" : param_range_map,
-            "max_range_size" : max_gbuf_range_size,
+            "local": gbuf_local_range,
+            "world": gbuf_world_range,
+            "world_all": gbuf_world_all_ranges,
+            "param_map": param_range_map,
+            "max_range_size": max_gbuf_range_size,
         }
 
         return data
 
-
     @classmethod
     def build_model_gbuf_range_map(cls, model):
         """
@@ -181,11 +183,10 @@ def build_model_gbuf_range_map(cls, model):
         within a specific virtual model.
         """
         return {
-            dtype : cls.build_model_gbuf_range(model, dtype)
+            dtype: cls.build_model_gbuf_range(model, dtype)
             for dtype in model._grad_buffers
         }
 
-
     @classmethod
     def build_model_param_gbuf_map(cls, model_gbuf_ranges):
         """
@@ -199,7 +200,6 @@ def build_model_param_gbuf_map(cls, model_gbuf_ranges):
                     param_gbuf_map[param] = (model_index, dtype)
         return param_gbuf_map
 
-
     @classmethod
     def build_optimizer_group_ranges(cls, param_groups, model_gbuf_ranges):
         """
@@ -232,15 +232,17 @@ def build_optimizer_group_ranges(cls, param_groups, model_gbuf_ranges):
         #   the group. The group index and order are particularly important for
         #   saving and loading checkpoints.
         local_param_group_map = {}
-        group_ranges = [ {"params": []} for _ in param_groups ]
+        group_ranges = [{"params": []} for _ in param_groups]
         for model_gbuf_range_map in model_gbuf_ranges:
             for dtype, gbuf_range_map in model_gbuf_range_map.items():
                 for param in gbuf_range_map["param_map"]:
                     group_index = world_param_group_map[param]
                     group_range = group_ranges[group_index]
                     group_range["params"].append(param)
-                    local_param_group_map[param] = \
-                        (group_index, len(group_range["params"]) - 1)
+                    local_param_group_map[param] = (
+                        group_index,
+                        len(group_range["params"]) - 1,
+                    )
 
         # Squeeze zero-size group ranges.
         for group_index, group_range in enumerate(group_ranges):
@@ -249,12 +251,10 @@ def build_optimizer_group_ranges(cls, param_groups, model_gbuf_ranges):
 
         return local_param_group_map, group_ranges
 
-
     @classmethod
-    def build_model_and_main_param_groups(cls,
-                                          model_gbuf_ranges,
-                                          param_gbuf_map,
-                                          opt_group_ranges):
+    def build_model_and_main_param_groups(
+        cls, model_gbuf_ranges, param_gbuf_map, opt_group_ranges
+    ):
         """
         Create main parameter groups needed for the optimizer step.
 
@@ -292,7 +292,8 @@ def build_model_and_main_param_groups(cls,
             shard_float16_groups.append(shard_float16_params_this_group)
             shard_fp32_groups.append(shard_fp32_params_this_group)
             shard_fp32_from_float16_groups.append(
-                shard_fp32_from_float16_params_this_group)
+                shard_fp32_from_float16_params_this_group
+            )
 
             for model_param in group_range["params"]:
 
@@ -303,18 +304,23 @@ def build_model_and_main_param_groups(cls,
                 param_range = gbuf_range["param_map"][model_param]["param"]
 
                 # fp16, bf16 params.
-                if model_param.type() in ['torch.cuda.HalfTensor',
-                                          'torch.cuda.BFloat16Tensor']:
+                if model_param.type() in [
+                    "torch.cuda.HalfTensor",
+                    "torch.cuda.BFloat16Tensor",
+                ]:
 
                     # Clone model -> main.
-                    shard_model_param = model_param.detach().view(-1) \
-                        [param_range.start:param_range.end]
+                    shard_model_param = model_param.detach().view(-1)[
+                        param_range.start : param_range.end
+                    ]
                     shard_main_param = shard_model_param.clone().float()
                     tensor_parallel.copy_tensor_model_parallel_attributes(
-                        shard_model_param, model_param)
+                        shard_model_param, model_param
+                    )
                     tensor_parallel.copy_tensor_model_parallel_attributes(
-                        shard_main_param, model_param)
-                    if hasattr(model_param, 'shared'):
+                        shard_main_param, model_param
+                    )
+                    if hasattr(model_param, "shared"):
                         shard_model_param.shared = model_param.shared
                         shard_main_param.shared = model_param.shared
 
@@ -324,22 +330,26 @@ def build_model_and_main_param_groups(cls,
                     shard_fp32_from_float16_params_this_group.append(shard_main_param)
 
                 # fp32 params.
-                elif model_param.type() == 'torch.cuda.FloatTensor':
-                    shard_model_param = model_param.view(-1) \
-                        [param_range.start:param_range.end]
+                elif model_param.type() == "torch.cuda.FloatTensor":
+                    shard_model_param = model_param.view(-1)[
+                        param_range.start : param_range.end
+                    ]
                     model_fp32_params_this_group.append(model_param)
                     shard_fp32_params_this_group.append(shard_model_param)
                     tensor_parallel.copy_tensor_model_parallel_attributes(
-                        shard_model_param, model_param)
-                    if hasattr(model_param, 'shared'):
+                        shard_model_param, model_param
+                    )
+                    if hasattr(model_param, "shared"):
                         shard_model_param.shared = model_param.shared
 
                 else:
-                    raise TypeError('Wrapped parameters must be one of '
-                                    'torch.cuda.FloatTensor,  '
-                                    'torch.cuda.HalfTensor, or '
-                                    'torch.cuda.BFloat16Tensor. '
-                                    'Received {}'.format(param.type()))
+                    raise TypeError(
+                        "Wrapped parameters must be one of "
+                        "torch.cuda.FloatTensor,  "
+                        "torch.cuda.HalfTensor, or "
+                        "torch.cuda.BFloat16Tensor. "
+                        "Received {}".format(param.type())
+                    )
 
             # Update optimizer's params.
             group_range["orig_group"]["params"] = [
@@ -355,10 +365,19 @@ def build_model_and_main_param_groups(cls,
             shard_fp32_from_float16_groups,
         )
 
-
-    def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
-                 params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-                 fp16, bf16, params_dtype, grad_scaler, models):
+    def __init__(
+        self,
+        optimizer,
+        clip_grad,
+        log_num_zeros_in_grad,
+        params_have_main_grad,
+        use_contiguous_buffers_in_local_ddp,
+        fp16,
+        bf16,
+        params_dtype,
+        grad_scaler,
+        models,
+    ):
         """
         See top of class definition for argument descriptions.
 
@@ -370,28 +389,40 @@ def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
         """
 
         super().__init__(
-            optimizer, clip_grad, log_num_zeros_in_grad,
-            params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-            fp16, bf16, params_dtype, grad_scaler, models)
+            optimizer,
+            clip_grad,
+            log_num_zeros_in_grad,
+            params_have_main_grad,
+            use_contiguous_buffers_in_local_ddp,
+            fp16,
+            bf16,
+            params_dtype,
+            grad_scaler,
+            models,
+        )
 
         # Verify that contiguous buffers are being used.
         # - Note: this should already be checked in arguments.py.
         assert use_contiguous_buffers_in_local_ddp
-        assert isinstance(optimizer, Adam), \
-            "Only Adam currently supported, due to checkpointing requirements."
+        assert isinstance(
+            optimizer, Adam
+        ), "Only Adam currently supported, due to checkpointing requirements."
 
         # Model grad buffer ranges.
         self.model_gbuf_ranges = []
         for model_index, model in enumerate(self.models):
             self.model_gbuf_ranges.append(self.build_model_gbuf_range_map(model))
-        self.model_param_gbuf_map = \
-            self.build_model_param_gbuf_map(self.model_gbuf_ranges)
+        self.model_param_gbuf_map = self.build_model_param_gbuf_map(
+            self.model_gbuf_ranges
+        )
 
         # Optimizer ranges.
-        self.model_param_group_index_map, self.opt_group_ranges = \
-            self.build_optimizer_group_ranges(self.optimizer.param_groups,
-                                              self.model_gbuf_ranges)
-        
+        self.model_param_group_index_map, self.opt_group_ranges = (
+            self.build_optimizer_group_ranges(
+                self.optimizer.param_groups, self.model_gbuf_ranges
+            )
+        )
+
         # Allocate main param shards.
         (
             self.model_float16_groups,
@@ -399,9 +430,9 @@ def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
             self.shard_float16_groups,
             self.shard_fp32_groups,
             self.shard_fp32_from_float16_groups,
-        ) = self.build_model_and_main_param_groups(self.model_gbuf_ranges,
-                                                   self.model_param_gbuf_map,
-                                                   self.opt_group_ranges)
+        ) = self.build_model_and_main_param_groups(
+            self.model_gbuf_ranges, self.model_param_gbuf_map, self.opt_group_ranges
+        )
 
         # Initialize param buffers.
         # - These are views on the DDP model's grad buffers, that share
@@ -420,21 +451,18 @@ def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
 
                 # Typed param buffer.
                 param_buffer = torch.tensor(
-                    storage,
-                    dtype = params_dtype,
-                    device = grad_buffer.data.device)
-                param_buffer = param_buffer[:grad_buffer.numel_padded]
+                    storage, dtype=params_dtype, device=grad_buffer.data.device
+                )
+                param_buffer = param_buffer[: grad_buffer.numel_padded]
                 current_param_buffers[dtype] = param_buffer
             self.param_buffers.append(current_param_buffers)
 
         # Update optimizer groups.
         # - Also, leverage state_dict() and load_state_dict() to
         #   recast preexisting per-param state tensors.
-        self.optimizer.param_groups = \
-            [ g["orig_group"] for g in self.opt_group_ranges ]
+        self.optimizer.param_groups = [g["orig_group"] for g in self.opt_group_ranges]
         self.optimizer.load_state_dict(self.optimizer.state_dict())
 
-
     def get_model_param_range_map(self, param):
         """
         Given a model param, get the index sub-range of the param that this
@@ -445,7 +473,6 @@ def get_model_param_range_map(self, param):
         param_range_map = gbuf_range_map["param_map"][param]
         return param_range_map
 
-
     def get_model_parallel_group(self):
         """
         With the distributed optimizer, the model parallel group is the
@@ -453,7 +480,6 @@ def get_model_parallel_group(self):
         """
         return None
 
-
     def state_dict(self):
         """
         The state dict contains all non-DP-rank-dependent (i.e., non-parameter-
@@ -466,21 +492,18 @@ def state_dict(self):
         state_dict = {}
 
         # Optimizer state (do not store parameter state here).
-        state_dict['optimizer'] = {
-            k : v
-            for k, v in self.optimizer.state_dict().items()
-            if k != "state"
+        state_dict["optimizer"] = {
+            k: v for k, v in self.optimizer.state_dict().items() if k != "state"
         }
         for param_group in state_dict["optimizer"]["param_groups"]:
             del param_group["params"]
 
         # Grad scaler state.
         if self.grad_scaler:
-            state_dict['grad_scaler'] = self.grad_scaler.state_dict()
+            state_dict["grad_scaler"] = self.grad_scaler.state_dict()
 
         return state_dict
 
-
     def load_state_dict(self, state_dict):
         """Load the state dict.
 
@@ -517,61 +540,76 @@ def load_state_dict(self, state_dict):
         #   the ordering of parameters within its flattened parameter state
         #   list.
         inner_state_dict = self.optimizer.state_dict()
-        state_dict_param_groups = [{
-            **group,
-            "params" : list(inner_state_dict["param_groups"][idx]["params"]),
-        } for idx, group in enumerate(state_dict["optimizer"]["param_groups"])]
+        state_dict_param_groups = [
+            {
+                **group,
+                "params": list(inner_state_dict["param_groups"][idx]["params"]),
+            }
+            for idx, group in enumerate(state_dict["optimizer"]["param_groups"])
+        ]
 
         # Allocate 'dummy' data for optimizer state (i.e., torch.empty() below)
         # - Real data is overwritten during load_parameter_state().
         state_dict_state = []
         for gbuf_range_maps in self.model_gbuf_ranges:
             for gbuf_range_map in gbuf_range_maps.values():
-                for model_param, param_range_map in \
-                    gbuf_range_map["param_map"].items():
+                for model_param, param_range_map in gbuf_range_map["param_map"].items():
 
                     # Get parameter ordering information (see method docstring
                     # for details).
-                    group_index, group_order = \
-                        self.model_param_group_index_map[model_param]
-                    state_order = inner_state_dict["param_groups"] \
-                        [group_index]["params"][group_order]
+                    group_index, group_order = self.model_param_group_index_map[
+                        model_param
+                    ]
+                    state_order = inner_state_dict["param_groups"][group_index][
+                        "params"
+                    ][group_order]
 
                     # Allocate dummy tensors.
                     numel = len(param_range_map["gbuf_world"])
-                    init_shard = lambda : torch.empty(
+                    init_shard = lambda: torch.empty(
                         (numel,),
                         dtype=torch.float32,
-                        device=torch.cuda.current_device())
+                        device=torch.cuda.current_device(),
+                    )
 
-                    state_dict_state.append((state_order, {
-                        "exp_avg" : init_shard(),
-                        "exp_avg_sq" : init_shard(),
-                    }))
+                    state_dict_state.append(
+                        (
+                            state_order,
+                            {
+                                "exp_avg": init_shard(),
+                                "exp_avg_sq": init_shard(),
+                            },
+                        )
+                    )
 
         # Sort by state order (see method docstring for details).
-        state_dict_state.sort(key = lambda s : s[0])
-        state_dict_state = {s[0]:s[1] for s in state_dict_state}
+        state_dict_state.sort(key=lambda s: s[0])
+        state_dict_state = {s[0]: s[1] for s in state_dict_state}
 
         # Optimizer.
-        self.optimizer.load_state_dict({
-            "state" : state_dict_state,
-            "param_groups" : state_dict_param_groups,
-        })
+        self.optimizer.load_state_dict(
+            {
+                "state": state_dict_state,
+                "param_groups": state_dict_param_groups,
+            }
+        )
 
         # Grad scaler.
-        if 'grad_scaler' not in state_dict:
+        if "grad_scaler" not in state_dict:
             if self.fp16:
-                print_rank_0('***WARNING*** found an old checkpoint, will not '
-                             'load grad scaler ...')
+                print_rank_0(
+                    "***WARNING*** found an old checkpoint, will not "
+                    "load grad scaler ..."
+                )
         else:
             if self.grad_scaler:
-                self.grad_scaler.load_state_dict(state_dict['grad_scaler'])
+                self.grad_scaler.load_state_dict(state_dict["grad_scaler"])
             else:
-                print_rank_0('***WARNING*** fould the grad scaler in the '
-                             'checkpoint but it is None in the class. '
-                             'Skipping loading grad scaler ...')
-
+                print_rank_0(
+                    "***WARNING*** fould the grad scaler in the "
+                    "checkpoint but it is None in the class. "
+                    "Skipping loading grad scaler ..."
+                )
 
     def save_parameter_state(self, filename):
         """Save parameter state (i.e., parameter & optimizer tensors).
@@ -603,25 +641,28 @@ def save_parameter_state(self, filename):
                 # Compute local DP contiguous shard's size.
                 model = self.models[model_idx]
                 gbuf_world_numel = model._grad_buffers[dtype].numel_padded
-                gbuf_local_numel = int(gbuf_world_numel/data_parallel_world_size)
-                local_shards = {key:torch.empty((gbuf_local_numel,),
-                                             dtype=torch.float32,
-                                             device="cpu")
-                             for key in ("param", "exp_avg", "exp_avg_sq")}
+                gbuf_local_numel = int(gbuf_world_numel / data_parallel_world_size)
+                local_shards = {
+                    key: torch.empty(
+                        (gbuf_local_numel,), dtype=torch.float32, device="cpu"
+                    )
+                    for key in ("param", "exp_avg", "exp_avg_sq")
+                }
 
                 # Build contiguous DP rank shards (for param + optim states).
-                for model_param, param_range_map in \
-                    gbuf_range_map["param_map"].items():
+                for model_param, param_range_map in gbuf_range_map["param_map"].items():
 
                     # Main param & optimizer states.
-                    group_index, group_order = \
-                        self.model_param_group_index_map[model_param]
-                    main_param = self.optimizer.param_groups \
-                        [group_index]["params"][group_order]
+                    group_index, group_order = self.model_param_group_index_map[
+                        model_param
+                    ]
+                    main_param = self.optimizer.param_groups[group_index]["params"][
+                        group_order
+                    ]
                     optim_state = self.optimizer.state[main_param]
 
                     tensors = {
-                        "param" : main_param,
+                        "param": main_param,
                         **optim_state,
                     }
 
@@ -629,19 +670,22 @@ def save_parameter_state(self, filename):
                     gbuf_local_start = param_range_map["gbuf_local"].start
                     gbuf_local_end = param_range_map["gbuf_local"].end
                     for key in local_shards:
-                        local_shards[key][gbuf_local_start:gbuf_local_end] \
-                            .data.copy_(tensors[key].detach().cpu())
+                        local_shards[key][gbuf_local_start:gbuf_local_end].data.copy_(
+                            tensors[key].detach().cpu()
+                        )
 
                 # Gather contiguous shards on DP rank 0.
                 world_tensors = {}
                 for key, send_tensor in local_shards.items():
-                    
+
                     # Gather tensor list.
                     if data_parallel_rank == 0:
-                        recv_tensors = [torch.empty((gbuf_local_numel,),
-                                                    dtype=torch.float32,
-                                                    device="cpu")
-                                        for _ in range(data_parallel_world_size)]
+                        recv_tensors = [
+                            torch.empty(
+                                (gbuf_local_numel,), dtype=torch.float32, device="cpu"
+                            )
+                            for _ in range(data_parallel_world_size)
+                        ]
                     else:
                         recv_tensors = None
 
@@ -665,7 +709,6 @@ def save_parameter_state(self, filename):
         if data_parallel_rank == 0:
             torch.save(state, filename)
 
-
     def load_parameter_state(self, filename):
         """Load parameter state (i.e., parameter & optimizer tensors).
 
@@ -695,24 +738,29 @@ def load_parameter_state(self, filename):
                 # Compute local DP contiguous shard's size.
                 model = self.models[model_idx]
                 gbuf_world_numel = model._grad_buffers[dtype].numel_padded
-                gbuf_local_numel = int(gbuf_world_numel/data_parallel_world_size)
+                gbuf_local_numel = int(gbuf_world_numel / data_parallel_world_size)
 
                 # Contiguous local shards (received from DP rank 0).
-                local_shards = {key:torch.empty((gbuf_local_numel,),
-                                                dtype=torch.float32,
-                                                device="cpu")
-                                for key in ("param", "exp_avg", "exp_avg_sq")}
+                local_shards = {
+                    key: torch.empty(
+                        (gbuf_local_numel,), dtype=torch.float32, device="cpu"
+                    )
+                    for key in ("param", "exp_avg", "exp_avg_sq")
+                }
 
                 # Scatter local shards from DP rank 0.
                 for key, recv_tensor in local_shards.items():
-                    
+
                     # Scatter tensor list.
                     if data_parallel_rank == 0:
                         world_tensor = loaded_state[model_idx][dtype][key]
-                        gbuf_start_idxs = \
-                            list(range(0, gbuf_world_numel, gbuf_local_numel))
-                        send_tensors = [world_tensor[i:(i+gbuf_local_numel)]
-                                        for i in gbuf_start_idxs]
+                        gbuf_start_idxs = list(
+                            range(0, gbuf_world_numel, gbuf_local_numel)
+                        )
+                        send_tensors = [
+                            world_tensor[i : (i + gbuf_local_numel)]
+                            for i in gbuf_start_idxs
+                        ]
                     else:
                         send_tensors = None
 
@@ -725,18 +773,19 @@ def load_parameter_state(self, filename):
                     )
 
                 # Copy local contiguous shards to param/optim shards.
-                for model_param, param_range_map in \
-                    gbuf_range_map["param_map"].items():
+                for model_param, param_range_map in gbuf_range_map["param_map"].items():
 
                     # Main param & optimizer states.
-                    group_index, group_order = \
-                        self.model_param_group_index_map[model_param]
-                    main_param = self.optimizer.param_groups \
-                        [group_index]["params"][group_order]
+                    group_index, group_order = self.model_param_group_index_map[
+                        model_param
+                    ]
+                    main_param = self.optimizer.param_groups[group_index]["params"][
+                        group_order
+                    ]
                     optim_state = self.optimizer.state[main_param]
 
                     tensors = {
-                        "param" : main_param,
+                        "param": main_param,
                         **optim_state,
                     }
 
@@ -745,8 +794,8 @@ def load_parameter_state(self, filename):
                     gbuf_local_end = param_range_map["gbuf_local"].end
                     for key in local_shards:
                         tensors[key].data.copy_(
-                            local_shards[key][gbuf_local_start:gbuf_local_end])
-
+                            local_shards[key][gbuf_local_start:gbuf_local_end]
+                        )
 
     def zero_grad(self, set_to_none=True):
         """
@@ -759,15 +808,15 @@ def zero_grad(self, set_to_none=True):
         used by this field can be safely deallocated at this point.
         """
         for groups in (
-                self.model_float16_groups,
-                self.model_fp32_groups,
-                self.shard_float16_groups, # grad empty/unused here?
-                self.shard_fp32_groups, # throws grad-access warning
-                self.shard_fp32_from_float16_groups):
+            self.model_float16_groups,
+            self.model_fp32_groups,
+            self.shard_float16_groups,  # grad empty/unused here?
+            self.shard_fp32_groups,  # throws grad-access warning
+            self.shard_fp32_from_float16_groups,
+        ):
             for group in groups:
                 _zero_grad_group_helper(group, set_to_none)
 
-
     @staticmethod
     def get_model_buffer_dp_views(model_buffers):
         """
@@ -794,24 +843,26 @@ def get_model_buffer_dp_views(model_buffers):
 
                 assert buf.numel() % data_parallel_world_size == 0
                 shard_size = int(buf.numel() / data_parallel_world_size)
-                buf_views = [buf[(r*shard_size):((r+1)*shard_size)]
-                             for r in range(data_parallel_world_size)]
+                buf_views = [
+                    buf[(r * shard_size) : ((r + 1) * shard_size)]
+                    for r in range(data_parallel_world_size)
+                ]
                 view_items.append((model_index, dtype, buf, buf_views))
 
         return view_items
 
-
     def get_model_grad_buffer_dp_views(self):
-        return self.get_model_buffer_dp_views([
-            {dtype : mem_buffer.data}
-            for model in self.models
-            for dtype, mem_buffer in model._grad_buffers.items()])
-
+        return self.get_model_buffer_dp_views(
+            [
+                {dtype: mem_buffer.data}
+                for model in self.models
+                for dtype, mem_buffer in model._grad_buffers.items()
+            ]
+        )
 
     def get_model_param_buffer_dp_views(self):
         return self.get_model_buffer_dp_views(self.param_buffers)
 
-
     def reduce_model_grads(self, args, timers):
         """
         Reduce-scatter model grads.
@@ -825,20 +876,23 @@ def reduce_model_grads(self, args, timers):
         """
 
         # All-reduce layer-norm grads (for sequence parallelism).
-        timers('layernorm-grads-all-reduce', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("layernorm-grads-all-reduce", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self.allreduce_layernorm_grads(args)
-        timers('layernorm-grads-all-reduce').stop()
+        timers("layernorm-grads-all-reduce").stop()
 
         # All-reduce embedding grads.
-        timers('embedding-grads-all-reduce', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("embedding-grads-all-reduce", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self.allreduce_embedding_grads(args)
-        timers('embedding-grads-all-reduce').stop()
+        timers("embedding-grads-all-reduce").stop()
 
         # Reduce-scatter setup.
-        timers('grads-reduce-scatter', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("grads-reduce-scatter", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         data_parallel_rank = mpu.get_data_parallel_rank()
         data_parallel_world_size = mpu.get_data_parallel_world_size()
         data_parallel_group = mpu.get_data_parallel_group()
@@ -850,17 +904,15 @@ def reduce_model_grads(self, args, timers):
 
         # Reduce-scatter all grads.
         gbuf_view_items = self.get_model_grad_buffer_dp_views()
-        for index, (model_index, dtype, gbuf, gbuf_views) \
-            in enumerate(gbuf_view_items):
+        for index, (model_index, dtype, gbuf, gbuf_views) in enumerate(gbuf_view_items):
 
             torch.distributed._reduce_scatter_base(
                 gbuf_views[data_parallel_rank],
                 gbuf,
-                group = data_parallel_group,
+                group=data_parallel_group,
             )
 
-        timers('grads-reduce-scatter').stop()
-
+        timers("grads-reduce-scatter").stop()
 
     def gather_model_params(self, args, timers):
         """
@@ -871,8 +923,9 @@ def gather_model_params(self, args, timers):
         can be copied from the param buffer to the param.
         """
 
-        timers('params-all-gather', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("params-all-gather", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
 
         data_parallel_rank = mpu.get_data_parallel_rank()
         data_parallel_group = mpu.get_data_parallel_group()
@@ -884,20 +937,19 @@ def gather_model_params(self, args, timers):
         #   all sub-views will have consistent start/end indexes across data
         #   parallel ranks.
         pbuf_view_items = self.get_model_param_buffer_dp_views()
-        for index, (model_index, dtype, pbuf, pbuf_views) \
-            in enumerate(pbuf_view_items):
+        for index, (model_index, dtype, pbuf, pbuf_views) in enumerate(pbuf_view_items):
 
-            if version.parse(torch.__version__) >= version.parse('1.13'):
+            if version.parse(torch.__version__) >= version.parse("1.13"):
                 torch.distributed.all_gather_into_tensor(
                     pbuf,
                     pbuf_views[data_parallel_rank],
-                    group = data_parallel_group,
+                    group=data_parallel_group,
                 )
             else:
                 torch.distributed._all_gather_base(
                     pbuf,
                     pbuf_views[data_parallel_rank],
-                    group = data_parallel_group,
+                    group=data_parallel_group,
                 )
 
         # Copy from param buffer to each param.
@@ -908,8 +960,7 @@ def gather_model_params(self, args, timers):
                     param_buf_shard = param_buf[buf_start:buf_end]
                     param.view(-1).detach().copy_(param_buf_shard)
 
-        timers('params-all-gather').stop()
-
+        timers("params-all-gather").stop()
 
     def _collect_main_grad_data_for_unscaling(self):
         """
@@ -922,21 +973,20 @@ def _collect_main_grad_data_for_unscaling(self):
             for param in group["params"]
         ]
 
-
     def _get_model_and_main_params_data_float16(self):
         """
         Get aligned list of model and main params.
         """
         model_data = []
         main_data = []
-        for model_group, main_group in zip(self.shard_float16_groups,
-                                           self.shard_fp32_from_float16_groups):
+        for model_group, main_group in zip(
+            self.shard_float16_groups, self.shard_fp32_from_float16_groups
+        ):
             for model_param, main_param in zip(model_group, main_group):
                 model_data.append(model_param.data)
                 main_data.append(main_param.data)
         return model_data, main_data
 
-
     def _copy_model_grads_to_main_grads(self):
         """
         Copy model grads to main grads.
@@ -948,26 +998,22 @@ def _copy_model_grads_to_main_grads(self):
 
         # Utility method for copying group grads.
         def copy_group_grads(model_groups, shard_main_groups):
-            for model_group, shard_main_group in zip(model_groups,
-                                                     shard_main_groups):
-                for model_param, shard_main_param in zip(model_group,
-                                                         shard_main_group):
+            for model_group, shard_main_group in zip(model_groups, shard_main_groups):
+                for model_param, shard_main_param in zip(model_group, shard_main_group):
 
                     param_range_map = self.get_model_param_range_map(model_param)
                     param_range = param_range_map["param"]
                     assert param_range.size == shard_main_param.nelement()
 
                     model_grad = model_param.main_grad
-                    shard_model_grad = model_grad.view(-1) \
-                        [param_range.start:param_range.end]
+                    shard_model_grad = model_grad.view(-1)[
+                        param_range.start : param_range.end
+                    ]
                     shard_main_param.grad = shard_model_grad.float()
 
         # Copy model groups to shard groups.
-        copy_group_grads(self.model_float16_groups,
-                         self.shard_fp32_from_float16_groups)
-        copy_group_grads(self.model_fp32_groups,
-                         self.shard_fp32_groups)
-
+        copy_group_grads(self.model_float16_groups, self.shard_fp32_from_float16_groups)
+        copy_group_grads(self.model_fp32_groups, self.shard_fp32_groups)
 
     def _copy_main_params_to_model_params(self):
         """
@@ -980,10 +1026,8 @@ def _copy_main_params_to_model_params(self):
 
         # Utility method for copying group params.
         def copy_group_params(shard_main_groups, model_groups):
-            for shard_main_group, model_group in zip(shard_main_groups,
-                                                     model_groups):
-                for shard_main_param, model_param in zip(shard_main_group,
-                                                         model_group):
+            for shard_main_group, model_group in zip(shard_main_groups, model_groups):
+                for shard_main_param, model_param in zip(shard_main_group, model_group):
 
                     param_range_map = self.get_model_param_range_map(model_param)
                     world_range = param_range_map["gbuf_world"]
@@ -993,17 +1037,17 @@ def copy_group_params(shard_main_groups, model_groups):
                     model_id, dtype = self.model_param_gbuf_map[model_param]
                     model_param_buffer = self.param_buffers[model_id][dtype]
 
-                    shard_model_param = model_param_buffer.view(-1) \
-                        [world_range.start:world_range.end]
+                    shard_model_param = model_param_buffer.view(-1)[
+                        world_range.start : world_range.end
+                    ]
 
                     shard_model_param.data.copy_(shard_main_param)
 
         # Copy shard groups to model groups.
-        copy_group_params(self.shard_fp32_from_float16_groups,
-                          self.model_float16_groups)
-        copy_group_params(self.shard_fp32_groups,
-                          self.model_fp32_groups)
-
+        copy_group_params(
+            self.shard_fp32_from_float16_groups, self.model_float16_groups
+        )
+        copy_group_params(self.shard_fp32_groups, self.model_fp32_groups)
 
     def _copy_model_params_to_main_params(self):
         """
@@ -1016,21 +1060,20 @@ def _copy_model_params_to_main_params(self):
 
         # Utility method for copying group params.
         def copy_group_params(model_groups, shard_main_groups):
-            for model_group, shard_main_group in zip(model_groups,
-                                                     shard_main_groups):
-                for model_param, shard_main_param in zip(model_group,
-                                                         shard_main_group):
+            for model_group, shard_main_group in zip(model_groups, shard_main_groups):
+                for model_param, shard_main_param in zip(model_group, shard_main_group):
 
                     param_range_map = self.get_model_param_range_map(model_param)
                     param_range = param_range_map["param"]
                     assert param_range.size == shard_main_param.nelement()
 
-                    shard_model_param = model_param.view(-1) \
-                        [param_range.start:param_range.end]
+                    shard_model_param = model_param.view(-1)[
+                        param_range.start : param_range.end
+                    ]
                     shard_main_param.data.copy_(shard_model_param)
 
         # Copy model groups to shard groups.
-        copy_group_params(self.model_float16_groups,
-                          self.shard_fp32_from_float16_groups)
-        copy_group_params(self.model_fp32_groups,
-                          self.shard_fp32_groups)
+        copy_group_params(
+            self.model_float16_groups, self.shard_fp32_from_float16_groups
+        )
+        copy_group_params(self.model_fp32_groups, self.shard_fp32_groups)
diff --git a/megatron/optimizer/grad_scaler.py b/megatron/optimizer/grad_scaler.py
index 2babebc632f..4f5e2f1509f 100644
--- a/megatron/optimizer/grad_scaler.py
+++ b/megatron/optimizer/grad_scaler.py
@@ -8,6 +8,7 @@
 import torch
 from deepspeed.accelerator import get_accelerator
 
+
 class MegatronGradScaler(ABC):
 
     def __init__(self, initial_scale):
@@ -36,7 +37,6 @@ def load_state_dict(self, state_dict):
         pass
 
 
-
 class ConstantGradScaler(MegatronGradScaler):
 
     def update(self, found_inf):
@@ -49,13 +49,18 @@ def load_state_dict(self, state_dict):
         pass
 
 
-
 class DynamicGradScaler(MegatronGradScaler):
 
-    def __init__(self, initial_scale, min_scale,
-                 growth_factor, backoff_factor,
-                 growth_interval, hysteresis):
-        """"Grad scaler with dynamic scale that gets adjusted
+    def __init__(
+        self,
+        initial_scale,
+        min_scale,
+        growth_factor,
+        backoff_factor,
+        growth_interval,
+        hysteresis,
+    ):
+        """ "Grad scaler with dynamic scale that gets adjusted
         during training."""
         super(DynamicGradScaler, self).__init__(initial_scale)
 
@@ -82,7 +87,6 @@ def __init__(self, initial_scale, min_scale,
         self._growth_tracker = 0
         self._hysteresis_tracker = self.hysteresis
 
-
     def update(self, found_inf):
 
         # If we have an inf/nan, growth tracker is set to 0
@@ -92,8 +96,9 @@ def update(self, found_inf):
             self._hysteresis_tracker -= 1
             # Now if we are out of hysteresis count, scale down the loss.
             if self._hysteresis_tracker <= 0:
-                self._scale = torch.max(self._scale * self.backoff_factor,
-                                        self.min_scale)
+                self._scale = torch.max(
+                    self._scale * self.backoff_factor, self.min_scale
+                )
         else:
             # If there is no nan/inf, increment the growth tracker.
             self._growth_tracker += 1
@@ -105,16 +110,14 @@ def update(self, found_inf):
                 # and scale up the loss scale.
                 self._scale = self._scale * self.growth_factor
 
-
     def state_dict(self):
         state_dict = {}
-        state_dict['scale'] = self._scale
-        state_dict['growth_tracker'] = self._growth_tracker
-        state_dict['hysteresis_tracker'] = self._hysteresis_tracker
+        state_dict["scale"] = self._scale
+        state_dict["growth_tracker"] = self._growth_tracker
+        state_dict["hysteresis_tracker"] = self._hysteresis_tracker
         return state_dict
 
-
     def load_state_dict(self, state_dict):
-        self._scale = state_dict['scale'].to(get_accelerator().current_device_name())
-        self._growth_tracker = state_dict['growth_tracker']
-        self._hysteresis_tracker = state_dict['hysteresis_tracker']
+        self._scale = state_dict["scale"].to(get_accelerator().current_device_name())
+        self._growth_tracker = state_dict["growth_tracker"]
+        self._hysteresis_tracker = state_dict["hysteresis_tracker"]
diff --git a/megatron/optimizer/muon.py b/megatron/optimizer/muon.py
new file mode 100644
index 00000000000..0f917b36ca5
--- /dev/null
+++ b/megatron/optimizer/muon.py
@@ -0,0 +1,536 @@
+import os
+import torch
+import math
+import torch.distributed as dist
+from torch import Tensor
+from typing import Iterable, Optional, Callable, List, Dict, Any
+
+# This code snippet is a modified version adapted from the following GitHub repository:
+# https://github.com/KellerJordan/Muon/blob/master/muon.py
+# and https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py
+@torch.compile
+def zeropower_via_newtonschulz5(G, steps):
+    """
+    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G.
+    """
+    assert len(G.shape) == 2
+    a, b, c = (3.4445, -4.7750, 2.0315)
+    X = G.bfloat16()
+    if G.size(0) > G.size(1):
+        X = X.T
+    # Ensure spectral norm is at most 1
+    X = X / (X.norm() + 1e-7)
+    # Perform the NS iterations
+    for _ in range(steps):
+        A = X @ X.T
+        B = b * A + c * A @ A
+        X = a * X + B @ X
+
+    if G.size(0) > G.size(1):
+        X = X.T
+    return X
+
+
+class Muon(torch.optim.Optimizer):
+    """
+    Muon - MomentUm Orthogonalized by Newton-schulz
+    """
+
+    def __init__(
+        self,
+        params,
+        lr=1e-3,
+        wd=0.1,
+        momentum=0.95,
+        nesterov=True,
+        ns_steps=5,
+        adamw_betas=(0.95, 0.95),
+        adamw_eps=1e-8,
+        adjuster_lr_ref=True #original moonlight lr adjustment
+    ):
+        defaults = dict(
+            lr=lr,
+            wd=wd,
+            momentum=momentum,
+            nesterov=nesterov,
+            ns_steps=ns_steps,
+            adamw_betas=adamw_betas,
+            adamw_eps=adamw_eps,
+        )
+
+        # Initialize the base optimizer with all parameter groups
+        super(Muon, self).__init__(params, defaults)
+
+        # Process parameter groups to determine which will use Muon and which will use AdamW
+        for i, group in enumerate(self.param_groups):
+            # Ensure each group has all required parameters with defaults
+            for k, v in defaults.items():
+                group.setdefault(k, v)
+
+            # Mark parameters as using Muon or AdamW
+            group["use_muon_list"] = []
+
+            for p_idx, p in enumerate(group["params"]):
+                if p.grad is None:
+                    continue
+
+                use_muon = (p.ndim == 2)
+
+                # If parameter is 2D but has a large dimension, it's likely an embedding or LM head, need to change this!!!
+                if use_muon and max(p.shape) > 10000:
+                    use_muon = False
+
+                group["use_muon_list"].append(use_muon)
+
+                # Initialize parameter state
+                state = self.state[p]
+                if len(state) == 0:
+                    state["use_muon"] = use_muon
+                    if use_muon:
+                        state["momentum_buffer"] = torch.zeros_like(p.grad)
+                    else:
+                        state["step"] = torch.tensor(0.0)
+                        state["moment1"] = torch.zeros_like(p.grad)
+                        state["moment2"] = torch.zeros_like(p.grad)
+
+    def __setstate__(self, state):
+        """
+        Handle state loading for the optimizer.
+        """
+        super(Muon, self).__setstate__(state)
+
+        # Ensure all parameter groups have the required defaults
+        for group in self.param_groups:
+            group.setdefault("nesterov", True)
+            group.setdefault("momentum", 0.95)
+            group.setdefault("ns_steps", 5)
+            group.setdefault("adamw_betas", (0.95, 0.95))
+            group.setdefault("adamw_eps", 1e-8)
+            group.setdefault("wd", 0.1)
+            group.setdefault("lr", 1e-3)
+            group.setdefault("use_muon_list", [])
+
+        # Convert step from float to tensor if needed
+        state_values = list(self.state.values())
+        if state_values and "step" in state_values[0]:
+            step_is_tensor = torch.is_tensor(state_values[0]["step"])
+            if not step_is_tensor:
+                for s in state_values:
+                    if "step" in s:
+                        s["step"] = torch.tensor(float(s["step"]))
+
+    def adjust_lr_for_muon(self, lr, param_shape):
+        """
+        Adjust learning rate based on parameter shape for Muon.
+        """
+        A, B = param_shape[:2]
+        # We adjust the learning rate based on the size of the parameter matrix
+        #adjusted_ratio = max(1.0, float(A) / float(B)) ** 0.5
+        adjusted_ratio = 0.2 * math.sqrt(max(A, B))
+        adjusted_lr = lr * adjusted_ratio
+        return adjusted_lr
+
+    def adjust_lr_for_muonclip(self, lr, param_shape):
+        """
+        Adjust learning rate based on parameter shape for Muon.
+        """
+        A, B = param_shape[:2]
+        # We adjust the learning rate based on the size of the parameter matrix
+        adjusted_ratio = max(1.0, float(A) / float(B)) ** 0.5
+        #adjusted_ratio = 0.2 * math.sqrt(max(A, B))
+        adjusted_lr = lr * adjusted_ratio
+        return adjusted_lr
+
+    def step(self, closure=None):
+        """Perform a single optimization step."""
+        loss = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group_idx, group in enumerate(self.param_groups):
+            lr = group["lr"]
+            wd = group["wd"]
+            momentum = group["momentum"]
+            nesterov = group["nesterov"]
+            ns_steps = group["ns_steps"]
+            adamw_betas = group["adamw_betas"]
+            adamw_eps = group["adamw_eps"]
+
+            # Get use_muon_list (initialize if not present)
+            if "use_muon_list" not in group or not group["use_muon_list"]:
+                group["use_muon_list"] = []
+                for p in group["params"]:
+                    if p.grad is None:
+                        continue
+                    # Default determination of whether to use Muon
+                    use_muon = p.ndim == 2
+                    # Don't use Muon for embeddings/LM heads (approximated by large dimension check)
+                    if use_muon and max(p.shape) > 10000:
+                        use_muon = False
+                    group["use_muon_list"].append(use_muon)
+
+            # Apply optimization step to each parameter
+            for param_idx, p in enumerate(group["params"]):
+                if p.grad is None:
+                    continue
+
+                grad = p.grad
+
+                # Initialize state if needed
+                state = self.state[p]
+                if len(state) == 0:
+                    # Determine if we should use Muon for this parameter
+                    use_muon = False
+                    if p.ndim == 2:
+                        # Don't use Muon for embeddings/LM heads (approximated by large dimension check)
+                        use_muon = max(p.shape) <= 10000
+
+                    state["use_muon"] = use_muon
+
+                    if use_muon:
+                        state["momentum_buffer"] = torch.zeros_like(grad)
+                    else:
+                        state["step"] = torch.tensor(0.0)
+                        state["moment1"] = torch.zeros_like(grad)
+                        state["moment2"] = torch.zeros_like(grad)
+
+                # Check if we should use Muon for this parameter
+                use_muon = state.get("use_muon", False)
+
+                if use_muon:
+                    # Muon optimization
+                    if grad.ndim > 2:
+                        grad = grad.view(grad.size(0), -1)
+
+                    # Initialize momentum buffer if not present
+                    if "momentum_buffer" not in state:
+                        state["momentum_buffer"] = torch.zeros_like(grad)
+
+                    buf = state["momentum_buffer"]
+                    buf.mul_(momentum).add_(grad)
+
+                    if nesterov:
+                        g = grad.add(buf, alpha=momentum)
+                    else:
+                        g = buf
+
+                    u = zeropower_via_newtonschulz5(g, steps=ns_steps)
+
+                    # Scale update
+                    if adjuster_lr_ref==True:
+                        adjusted_lr = self.adjust_lr_for_muon(lr, p.shape)
+                    else:
+                        adjusted_lr = self.adjust_lr_for_muonclip(lr, p.shape)
+
+                    # Apply weight decay
+                    p.data.mul_(1 - lr * wd)
+
+                    # Apply update
+                    p.data.add_(u, alpha=-adjusted_lr)
+                else:
+                    # AdamW optimization
+                    beta1, beta2 = adamw_betas
+                    eps = adamw_eps
+                    weight_decay = wd
+
+                    # Initialize AdamW state if not present
+                    if "step" not in state:
+                        state["step"] = torch.tensor(0.0)
+                        state["moment1"] = torch.zeros_like(grad)
+                        state["moment2"] = torch.zeros_like(grad)
+
+                    state["step"] += 1
+                    step = state["step"]
+                    buf1 = state["moment1"]
+                    buf2 = state["moment2"]
+
+                    buf1.lerp_(grad, 1 - beta1)
+                    buf2.lerp_(grad.square(), 1 - beta2)
+
+                    g = buf1 / (eps + buf2.sqrt())
+
+                    bias_correction1 = 1 - beta1**step
+                    bias_correction2 = 1 - beta2**step
+                    scale = bias_correction1 / bias_correction2**0.5
+
+                    p.data.mul_(1 - lr * weight_decay)
+                    p.data.add_(g, alpha=-lr / scale)
+
+        return loss
+
+
+# ==========================================================
+#            MuonClip: Muon + post-step QK-clip
+# ==========================================================
+
+class QKInputRecorder:
+    """
+    Minimal helper to capture the input 'x' that feeds an attention block's
+    q/k projections on each forward pass.
+
+    Usage:
+      rec = QKInputRecorder()
+      optimizer.attach_to_attention(attn, recorder=rec, q_attr='q_proj', k_attr='k_proj',
+                                    d_head=head_dim, t=100.0, alpha=0.5)
+    """
+    def __init__(self, auto_clear: bool = True):
+        self._buffers: Dict[int, Tensor] = {}
+        self._handles: List[Any] = []
+        self._auto_clear = auto_clear
+        self._retrieved: set = set()  # Track which buffers were retrieved
+
+    def _make_hook(self, key: int):
+        def _capture(module, inputs):
+            # forward_pre_hook → inputs[0] is the module input (x)
+            x: Tensor = inputs[0]
+            self._buffers[key] = x.detach()
+            # Mark as not yet retrieved
+            if key in self._retrieved:
+                self._retrieved.remove(key)
+        return _capture
+
+    def attach(self, module) -> Callable[[], Optional[Tensor]]:
+        key = id(module)
+        handle = module.register_forward_pre_hook(self._make_hook(key))
+        self._handles.append(handle)
+        
+        def getter() -> Optional[Tensor]:
+            tensor = self._buffers.get(key, None)
+            if tensor is not None:
+                self._retrieved.add(key)
+            return tensor
+        return getter
+    
+    def clear_buffers(self):
+        """Clear only retrieved buffers to free memory."""
+        if self._auto_clear:
+            for key in self._retrieved:
+                if key in self._buffers:
+                    del self._buffers[key]
+            self._retrieved.clear()
+
+    def remove(self):
+        """Remove all hooks and clear buffers."""
+        for h in self._handles:
+            h.remove()
+        self._handles.clear()
+        self._buffers.clear()
+        self._retrieved.clear()
+
+class MuonClip(Muon):
+    """
+    Muon optimizer with qk-clip:
+      After the normal Muon/AdamW updates, for each registered (W_q, W_k) pair:
+        η = min(t / max_ij(q_i^T k_j), 1),  q = x W_q^T,  k = x W_k^T
+        W_q ← η^α W_q,  W_k ← η^(1-α) W_k
+      (optionally divide logits by sqrt(d_head) to match attention)
+
+    Register pairs via:
+      - attach_to_attention(attn_module, recorder, q_attr='q_proj', k_attr='k_proj', d_head=..., t=..., alpha=...)
+      - register_qk_pair(W_q, W_k, x_getter, d_head=None, t=None, alpha=None)
+
+    Notes:
+      * Clipping runs under no_grad and does not backprop.
+      * If x_getter() returns None (no forward this step), clipping is skipped.
+      * In DDP, we take the MAX of max-logit across ranks before computing η.
+    """
+
+    def __init__(
+        self,
+        params: Iterable[Tensor],
+        *,
+        lr: float = 1e-3,
+        wd: float = 0.1,
+        momentum: float = 0.95,
+        nesterov: bool = True,
+        ns_steps: int = 5,
+        adamw_betas=(0.95, 0.95),
+        adamw_eps: float = 1e-8,
+        adjuster_lr_ref=False,
+        # MuonClip extras:
+        qk_clip: bool = True,
+        clip_t: float = 100.0,
+        alpha: float = 0.5,
+        use_sqrt_d: bool = True,
+    ):
+        super().__init__(
+            params,
+            lr=lr,
+            wd=wd,
+            momentum=momentum,
+            nesterov=nesterov,
+            ns_steps=ns_steps,
+            adamw_betas=adamw_betas,
+            adamw_eps=adamw_eps,
+            adjuster_lr_ref=adjuster_lr_ref,
+        )
+        self._clip_enabled = bool(qk_clip)
+        self._clip_t_default = float(clip_t)
+        self._alpha_default = float(alpha)
+        self._use_sqrt_d = bool(use_sqrt_d)
+        self._pairs: List[Dict[str, Any]] = []  # W_q, W_k, x_getter, d_head, t, alpha
+
+    # --------- Registration APIs ---------
+
+    def register_qk_pair(
+        self,
+        W_q: Tensor,
+        W_k: Tensor,
+        x_getter: Callable[[], Optional[Tensor]],
+        *,
+        d_head: Optional[int] = None,
+        t: Optional[float] = None,
+        alpha: Optional[float] = None,
+    ):
+
+        """Register a Q/K weight pair for clipping."""
+        # Validate tensor shapes
+        assert W_q.ndim == 2 and W_k.ndim == 2, "W_q and W_k must be 2D tensors"
+        assert W_q.size(1) == W_k.size(1), "W_q and W_k must have same input dimension"
+
+        self._pairs.append(
+            dict(
+                W_q=W_q,
+                W_k=W_k,
+                x_getter=x_getter,
+                d_head=d_head,
+                t=float(t) if t is not None else None,
+                alpha=float(alpha) if alpha is not None else None,
+            )
+        )
+
+    def attach_to_attention(
+        self,
+        attn_module: torch.nn.Module,
+        *,
+        recorder: Optional[QKInputRecorder] = None,
+        q_attr: str = "q_proj",
+        k_attr: str = "k_proj",
+        d_head: Optional[int] = None,
+        t: Optional[float] = None,
+        alpha: Optional[float] = None,
+    ):
+        """
+        Convenience hook for the common case with separate q/k Linear modules.
+        """
+        assert hasattr(attn_module, q_attr) and hasattr(attn_module, k_attr), \
+            f"Module must have {q_attr} and {k_attr}"
+        q_lin = getattr(attn_module, q_attr)
+        k_lin = getattr(attn_module, k_attr)
+        assert hasattr(q_lin, "weight") and hasattr(k_lin, "weight")
+
+        if recorder is None:
+            recorder = QKInputRecorder()
+        x_getter = recorder.attach(attn_module)
+        self.register_qk_pair(q_lin.weight, k_lin.weight, x_getter,
+                              d_head=d_head, t=t, alpha=alpha)
+        return recorder  # keep this object alive somewhere!
+
+    # ------------- Core step --------------
+
+    @torch.no_grad()
+    def _apply_qk_clip_once(
+        self,
+        W_q: Tensor,
+        W_k: Tensor,
+        x: Tensor,
+        *,
+        d_head: Optional[int],
+        t: float,
+        alpha: float,
+        eps: float = 1e-12,
+    ):
+        """
+        Compute η from current batch x and rescale W_q/W_k in-place.
+        """
+        # Validate and prepare input
+        if x.ndim == 2:
+            x = x.unsqueeze(0)  # Add batch dimension if missing
+
+        assert x.ndim == 3, f"Expected 3D input (batch, seq, dim), got shape {x.shape}"
+        assert x.size(-1) == W_q.size(1), \
+            f"Input dim {x.size(-1)} doesn't match weight dim {W_q.size(1)}"
+
+        # x: (B, T, d_model); W_q/W_k: (out_features, d_model)
+        device = W_q.device
+        x = x.to(device, non_blocking=True)
+
+        q = x @ W_q.T
+        k = x @ W_k.T
+
+        scores = torch.einsum("bid,bjd->bij", q, k)
+        if self._use_sqrt_d:
+            scores = scores / (W_q.size(0) ** 0.5)
+            #denom = float(d_head if d_head is not None else W_q.size(0))
+            #scores = scores / (denom ** 0.5)
+
+        # Find maximum score
+        max_score = scores.max()
+        
+        # Check for numerical issues
+        if not torch.isfinite(max_score):
+            return False, float('nan')
+
+        # Global max across DDP ranks if in distributed training
+        if dist.is_available() and dist.is_initialized():
+            dist.all_reduce(max_score, op=dist.ReduceOp.MAX)
+
+        max_score_val = max_score.item() if torch.is_tensor(max_score) else max_score
+        
+        # Apply clipping if max score exceeds threshold
+        if max_score_val > t:
+            eta = t / (max_score_val + eps)
+            scale_q = eta ** alpha
+            scale_k = eta ** (1 - alpha)
+            
+            # Scale the weights
+            W_q.mul_(scale_q)
+            W_k.mul_(scale_k)
+            
+            return True, max_score_val
+        
+        return False, max_score_val
+
+    @torch.no_grad()
+    def step(self, closure=None):
+        # 1) normal Muon/AdamW step
+        loss = super().step(closure=closure)
+
+        # 2) qk-clip (post-step)
+        if self._clip_enabled and len(self._pairs) > 0:
+            for pair in self._pairs:
+                x = pair["x_getter"]()
+                if x is None:
+                    continue  # no forward for this module this step
+                try:
+                    clipped, max_score = self._apply_qk_clip_once(
+                        pair["W_q"],
+                        pair["W_k"],
+                        x,
+                        d_head=pair.get("d_head", None),
+                        t=pair.get("t", self._clip_t_default) or self._clip_t_default,
+                        alpha=pair.get("alpha", self._alpha_default)
+                              if pair.get("alpha", None) is not None else self._alpha_default,
+                    )
+                    
+                    # Optional: log clipping events for monitoring
+                    # if clipped:
+                    #     print(f"QK-clip triggered! Max score: {max_score:.2f} > {pair.get('t', self._clip_t_default):.2f}")
+                    
+                except Exception as e:
+                    # Log but don't crash training
+                    print(f"Warning: QK-clip failed with error: {e}")
+                    continue
+            
+            # Clear recorder buffers after each step to prevent memory accumulation
+            for recorder in self._recorders:
+                recorder.clear_buffers()
+        return loss
+    def __del__(self):
+        """Cleanup hooks when optimizer is destroyed."""
+        for recorder in self._recorders:
+            try:
+                recorder.remove()
+            except:
+                pass  # Ignore errors during cleanup
diff --git a/megatron/optimizer/optimizer.py b/megatron/optimizer/optimizer.py
index 760d49383e5..24ae1de15e4 100644
--- a/megatron/optimizer/optimizer.py
+++ b/megatron/optimizer/optimizer.py
@@ -19,6 +19,7 @@
 from .clip_grads import clip_grad_norm_fp32, count_zeros_fp32
 from deepspeed.accelerator import get_accelerator
 
+
 def _zero_grad_group_helper(group, set_to_none):
     """Zero out the gradient for a group of parameters.
     Note: copied from torch.optim.optimizer."""
@@ -39,34 +40,32 @@ def _multi_tensor_copy_this_to_that(this, that, overflow_buf=None):
     We don't have a blfoat16 implementation so for now if the overflow_buf
     is not provided, we default back to simple loop copy to be compatible
     with bfloat16."""
-    if get_accelerator().device_name() == 'cuda' and overflow_buf:
+    if get_accelerator().device_name() == "cuda" and overflow_buf:
         from apex.multi_tensor_apply import multi_tensor_applier
         import amp_C
 
         overflow_buf.fill_(0)
         # Scaling with factor `1.0` is equivalent to copy.
-        multi_tensor_applier(amp_C.multi_tensor_scale,
-                             overflow_buf,
-                             [this, that],
-                             1.0)
+        multi_tensor_applier(amp_C.multi_tensor_scale, overflow_buf, [this, that], 1.0)
     else:
         for this_, that_ in zip(this, that):
             that_.copy_(this_)
 
 
-
 class MegatronOptimizer(ABC):
 
-
-    def __init__(self, optimizer, clip_grad,
-                 log_num_zeros_in_grad,
-                 params_have_main_grad,
-                 use_contiguous_buffers_in_local_ddp,
-                 models):
-
+    def __init__(
+        self,
+        optimizer,
+        clip_grad,
+        log_num_zeros_in_grad,
+        params_have_main_grad,
+        use_contiguous_buffers_in_local_ddp,
+        models,
+    ):
         """Input optimizer is the base optimizer for example Adam."""
         self.optimizer = optimizer
-        assert self.optimizer, 'no optimizer is provided.'
+        assert self.optimizer, "no optimizer is provided."
         # Set gradient clipping and logging params.
         self.clip_grad = clip_grad
         self.log_num_zeros_in_grad = log_num_zeros_in_grad
@@ -78,18 +77,17 @@ def __init__(self, optimizer, clip_grad,
         self.models = models
 
         if self.use_contiguous_buffers_in_local_ddp:
-            assert self.params_have_main_grad, \
-                "use of contiguous buffer requires that params have main grad"
-
+            assert (
+                self.params_have_main_grad
+            ), "use of contiguous buffer requires that params have main grad"
 
     def get_parameters(self):
         params = []
         for param_group in self.optimizer.param_groups:
-            for param in param_group['params']:
+            for param in param_group["params"]:
                 params.append(param)
         return params
 
-
     def get_main_grads_for_grad_norm(self):
 
         # Filter parameters based on:
@@ -102,48 +100,47 @@ def get_main_grads_for_grad_norm(self):
             grad = param.grad
             grad_not_none = grad is not None
             is_not_shared = param_is_not_shared(param)
-            is_not_tp_duplicate = tensor_parallel.param_is_not_tensor_parallel_duplicate(param)
+            is_not_tp_duplicate = (
+                tensor_parallel.param_is_not_tensor_parallel_duplicate(param)
+            )
             if grad_not_none and is_not_shared and is_not_tp_duplicate:
                 grads_for_norm.append(grad)
 
         return grads_for_norm
 
-
     def get_model_parallel_group(self):
         """Default returned here, but the distributed optimizer overrides this."""
         return mpu.get_model_parallel_group()
 
-
     def clip_grad_norm(self, clip_grad):
         params = self.get_parameters()
         grads_for_norm = self.get_main_grads_for_grad_norm()
         return clip_grad_norm_fp32(
-            params, grads_for_norm, clip_grad,
-            model_parallel_group=self.get_model_parallel_group())
-
+            params,
+            grads_for_norm,
+            clip_grad,
+            model_parallel_group=self.get_model_parallel_group(),
+        )
 
     def count_zeros(self):
         params = self.get_parameters()
-        return count_zeros_fp32(params,
-                                model_parallel_group=self.get_model_parallel_group())
-
+        return count_zeros_fp32(
+            params, model_parallel_group=self.get_model_parallel_group()
+        )
 
     @abstractmethod
     def zero_grad(self, set_to_none=True):
         pass
 
-
     @abstractmethod
     def get_loss_scale(self):
         """The output should be a cuda tensor of size 1."""
         pass
 
-
     def scale_loss(self, loss):
         """Simple scaling."""
         return self.get_loss_scale() * loss
 
-
     @abstractmethod
     def reload_model_params(self):
         """Refreshes any internal state from the current model parameters.
@@ -153,17 +150,14 @@ def reload_model_params(self):
         with main parameters, the main parameters need to also be updated."""
         pass
 
-
     @abstractmethod
     def state_dict(self):
         pass
 
-
     @abstractmethod
     def load_state_dict(self, state_dict):
         pass
 
-
     # Promote state so it can be retrieved or set via
     # "optimizer_instance.state"
     def _get_state(self):
@@ -174,7 +168,6 @@ def _set_state(self, value):
 
     state = property(_get_state, _set_state)
 
-
     # Promote param_groups so it can be retrieved or set via
     # "optimizer_instance.param_groups"
     # (for example, to adjust the learning rate)
@@ -186,12 +179,10 @@ def _set_param_groups(self, value):
 
     param_groups = property(_get_param_groups, _set_param_groups)
 
-
     @abstractmethod
     def step(self, args, timers):
         pass
 
-
     def gather_model_params(self, args, timers):
         """
         For the case of a non-distributed-optimizer, there is nothing to
@@ -199,7 +190,6 @@ def gather_model_params(self, args, timers):
         """
         pass
 
-
     def allreduce_word_embedding_grads(self, args):
         """
         All-reduce word embedding grads.
@@ -209,8 +199,10 @@ def allreduce_word_embedding_grads(self, args):
         pipelined model parallelism (BERT and GPT-2).
         """
 
-        if mpu.is_rank_in_embedding_group(ignore_virtual=True) and \
-                mpu.get_pipeline_model_parallel_world_size() > 1:
+        if (
+            mpu.is_rank_in_embedding_group(ignore_virtual=True)
+            and mpu.get_pipeline_model_parallel_world_size() > 1
+        ):
             if mpu.is_pipeline_first_stage(ignore_virtual=True):
                 unwrapped_model = self.models[0]
             elif mpu.is_pipeline_last_stage(ignore_virtual=True):
@@ -218,17 +210,17 @@ def allreduce_word_embedding_grads(self, args):
             else:  # We do not support the interleaved schedule for T5 yet.
                 unwrapped_model = self.models[0]
             unwrapped_model = unwrap_model(
-                unwrapped_model, (torchDDP, LocalDDP, Float16Module))
+                unwrapped_model, (torchDDP, LocalDDP, Float16Module)
+            )
 
             if unwrapped_model.share_embeddings_and_output_weights:
                 weight = unwrapped_model.shared_embedding_or_output_weight()
-                if args.DDP_impl == 'local':
+                if args.DDP_impl == "local":
                     grad = weight.main_grad
                 else:
                     grad = weight.grad
                 torch.distributed.all_reduce(grad, group=mpu.get_embedding_group())
 
-
     def allreduce_position_embedding_grads(self, args):
         """
         All-reduce position_embeddings grad across first (encoder) and
@@ -236,69 +228,77 @@ def allreduce_position_embedding_grads(self, args):
         stay in sync. This should only run for T5 models with pipeline
         parallelism.
         """
-        if mpu.is_rank_in_position_embedding_group() and \
-                mpu.get_pipeline_model_parallel_world_size() > 1 and \
-                args.pipeline_model_parallel_split_rank is not None:
+        if (
+            mpu.is_rank_in_position_embedding_group()
+            and mpu.get_pipeline_model_parallel_world_size() > 1
+            and args.pipeline_model_parallel_split_rank is not None
+        ):
             unwrapped_model = self.models[0]
             unwrapped_model = unwrap_model(
-                unwrapped_model, (torchDDP, LocalDDP, Float16Module))
-            assert args.DDP_impl == 'local', \
-                'T5 model is only supported with local DDP mode'
-            grad = unwrapped_model.language_model.embedding.position_embeddings.weight.main_grad
+                unwrapped_model, (torchDDP, LocalDDP, Float16Module)
+            )
+            assert (
+                args.DDP_impl == "local"
+            ), "T5 model is only supported with local DDP mode"
+            grad = (
+                unwrapped_model.language_model.embedding.position_embeddings.weight.main_grad
+            )
             torch.distributed.all_reduce(grad, group=mpu.get_position_embedding_group())
 
-
     def allreduce_embedding_grads(self, args):
         """All-reduce both word and position embeddings."""
         self.allreduce_word_embedding_grads(args)
         self.allreduce_position_embedding_grads(args)
 
-
     def allreduce_layernorm_grads(self, args):
         """All-reduce layernorm grads (for sequence parallelism)."""
 
         # All-reduce layernorm parameters across model parallel nodes
         # when sequence parallelism is used
-        if mpu.get_tensor_model_parallel_world_size() > 1 and \
-                args.sequence_parallel:
+        if mpu.get_tensor_model_parallel_world_size() > 1 and args.sequence_parallel:
             grads = []
             for model_module in self.models:
-                unwrapped_model = unwrap_model( 
-                    model_module, (torchDDP, LocalDDP, Float16Module))
+                unwrapped_model = unwrap_model(
+                    model_module, (torchDDP, LocalDDP, Float16Module)
+                )
                 for param in unwrapped_model.parameters():
-                    if getattr(param, 'sequence_parallel', False):
-                        grad = param.main_grad if args.DDP_impl == 'local' else param.grad
+                    if getattr(param, "sequence_parallel", False):
+                        grad = (
+                            param.main_grad if args.DDP_impl == "local" else param.grad
+                        )
                         grads.append(grad.data)
             coalesced = _flatten_dense_tensors(grads)
             torch.distributed.all_reduce(
-                coalesced, group=mpu.get_tensor_model_parallel_group())
-            for buf, synced in zip(grads, _unflatten_dense_tensors(
-                    coalesced, grads)):
+                coalesced, group=mpu.get_tensor_model_parallel_group()
+            )
+            for buf, synced in zip(grads, _unflatten_dense_tensors(coalesced, grads)):
                 buf.copy_(synced)
 
-
     def reduce_model_grads(self, args, timers):
         """All-reduce all grads, and all-reduce embeddings."""
 
         # All-reduce layer-norm grads (for sequence parallelism).
-        timers('layernorm-grads-all-reduce', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("layernorm-grads-all-reduce", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self.allreduce_layernorm_grads(args)
-        timers('layernorm-grads-all-reduce').stop()
+        timers("layernorm-grads-all-reduce").stop()
 
         # All-reduce if needed.
-        if args.DDP_impl == 'local':
-            timers('grads-all-reduce', log_level=1).start(
-                barrier=args.barrier_with_L1_time)
+        if args.DDP_impl == "local":
+            timers("grads-all-reduce", log_level=1).start(
+                barrier=args.barrier_with_L1_time
+            )
             for model in self.models:
                 model.allreduce_gradients()
-            timers('grads-all-reduce').stop()
+            timers("grads-all-reduce").stop()
 
         # All-reduce embedding grads.
-        timers('embedding-grads-all-reduce', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("embedding-grads-all-reduce", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self.allreduce_embedding_grads(args)
-        timers('embedding-grads-all-reduce').stop()
+        timers("embedding-grads-all-reduce").stop()
 
 
 class MixedPrecisionOptimizer(MegatronOptimizer):
@@ -332,15 +332,28 @@ class MixedPrecisionOptimizer(MegatronOptimizer):
             is used by the distributed optimizer for mapping parameters.
     """
 
-    def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
-                 params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-                 fp16, bf16, params_dtype, grad_scaler,
-                 models):
+    def __init__(
+        self,
+        optimizer,
+        clip_grad,
+        log_num_zeros_in_grad,
+        params_have_main_grad,
+        use_contiguous_buffers_in_local_ddp,
+        fp16,
+        bf16,
+        params_dtype,
+        grad_scaler,
+        models,
+    ):
 
         super().__init__(
-            optimizer, clip_grad, log_num_zeros_in_grad,
-            params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-            models)
+            optimizer,
+            clip_grad,
+            log_num_zeros_in_grad,
+            params_have_main_grad,
+            use_contiguous_buffers_in_local_ddp,
+            models,
+        )
 
         self.fp16 = fp16
         self.bf16 = bf16
@@ -349,7 +362,7 @@ def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
 
         # None grad scaler is only supported for bf16.
         if self.grad_scaler is None:
-            assert not self.fp16, 'fp16 expects a grad scaler.'
+            assert not self.fp16, "fp16 expects a grad scaler."
 
         # Tensor used to determine if a nan/if has happend.
         # Any non-zero value indicates inf/nan.
@@ -370,17 +383,14 @@ def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
         if self.grad_scaler is None:
             self._scale_one = get_accelerator().FloatTensor([1.0])
 
-
     def get_loss_scale(self):
         if self.grad_scaler is None:
             return self._scale_one
         return self.grad_scaler.scale
 
-
     def reload_model_params(self):
         self._copy_model_params_to_main_params()
 
-
     def _unscale_main_grads_and_check_for_nan(self):
 
         # Collect main grads.
@@ -391,37 +401,41 @@ def _unscale_main_grads_and_check_for_nan(self):
 
         # Unscale and set found inf/nan
         torch._amp_foreach_non_finite_check_and_unscale_(
-            main_grads, self.found_inf, self.grad_scaler.inv_scale)
+            main_grads, self.found_inf, self.grad_scaler.inv_scale
+        )
 
         # Update across all model parallel instances.
-        torch.distributed.all_reduce(self.found_inf,
-                                     op=torch.distributed.ReduceOp.MAX,
-                                     group=self.get_model_parallel_group())
+        torch.distributed.all_reduce(
+            self.found_inf,
+            op=torch.distributed.ReduceOp.MAX,
+            group=self.get_model_parallel_group(),
+        )
 
         # Check for nan.
-        found_inf_flag = (self.found_inf.item() > 0)
+        found_inf_flag = self.found_inf.item() > 0
 
         return found_inf_flag
 
-
     @torch.no_grad()
     def step(self, args, timers):
 
         # Copy gradients from model params to main params.
-        timers('optimizer-copy-to-main-grad', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-copy-to-main-grad", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self._copy_model_grads_to_main_grads()
-        timers('optimizer-copy-to-main-grad').stop()
+        timers("optimizer-copy-to-main-grad").stop()
 
         # Do unscale, check for inf, and update grad scaler only for
         # the case that grad scaler is provided.
         if self.grad_scaler:
 
             # Unscale and check for inf/nan.
-            timers('optimizer-unscale-and-check-inf', log_level=1).start(
-                barrier=args.barrier_with_L1_time)
+            timers("optimizer-unscale-and-check-inf", log_level=1).start(
+                barrier=args.barrier_with_L1_time
+            )
             found_inf_flag = self._unscale_main_grads_and_check_for_nan()
-            timers('optimizer-unscale-and-check-inf').stop()
+            timers("optimizer-unscale-and-check-inf").stop()
 
             # We are done with scaling gradients
             # so we can update the loss scale.
@@ -432,31 +446,34 @@ def step(self, args, timers):
                 return False, None, None
 
         # Clip the main gradients.
-        timers('optimizer-clip-main-grad', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-clip-main-grad", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         grad_norm = None
         if self.clip_grad > 0.0:
             grad_norm = self.clip_grad_norm(self.clip_grad)
-        timers('optimizer-clip-main-grad').stop()
+        timers("optimizer-clip-main-grad").stop()
 
         # Count the zeros in the grads.
-        timers('optimizer-count-zeros', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
-        num_zeros_in_grad = self.count_zeros() if \
-                            self.log_num_zeros_in_grad else None
-        timers('optimizer-count-zeros').stop()
+        timers("optimizer-count-zeros", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
+        num_zeros_in_grad = self.count_zeros() if self.log_num_zeros_in_grad else None
+        timers("optimizer-count-zeros").stop()
 
         # Step the optimizer.
-        timers('optimizer-inner-step', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-inner-step", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self.optimizer.step()
-        timers('optimizer-inner-step').stop()
+        timers("optimizer-inner-step").stop()
 
         # Update params from main params.
-        timers('optimizer-copy-main-to-model-params', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-copy-main-to-model-params", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self._copy_main_params_to_model_params()
-        timers('optimizer-copy-main-to-model-params').stop()
+        timers("optimizer-copy-main-to-model-params").stop()
 
         # Successful update.
         return True, grad_norm, num_zeros_in_grad
@@ -492,14 +509,32 @@ class Float16OptimizerWithFloat16Params(MixedPrecisionOptimizer):
             is used by the distributed optimizer for mapping parameters.
     """
 
-    def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
-                 params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-                 fp16, bf16, params_dtype, grad_scaler, models):
+    def __init__(
+        self,
+        optimizer,
+        clip_grad,
+        log_num_zeros_in_grad,
+        params_have_main_grad,
+        use_contiguous_buffers_in_local_ddp,
+        fp16,
+        bf16,
+        params_dtype,
+        grad_scaler,
+        models,
+    ):
 
         super().__init__(
-            optimizer, clip_grad, log_num_zeros_in_grad,
-            params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-            fp16, bf16, params_dtype, grad_scaler, models)
+            optimizer,
+            clip_grad,
+            log_num_zeros_in_grad,
+            params_have_main_grad,
+            use_contiguous_buffers_in_local_ddp,
+            fp16,
+            bf16,
+            params_dtype,
+            grad_scaler,
+            models,
+        )
 
         # ======================
         # main parameter stuff
@@ -519,49 +554,58 @@ def __init__(self, optimizer, clip_grad, log_num_zeros_in_grad,
             fp32_params_this_group = []
             fp32_from_float16_params_this_group = []
             # For all the parameters in this group:
-            for i, param in enumerate(param_group['params']):
+            for i, param in enumerate(param_group["params"]):
                 if param.requires_grad:
 
                     # float16 params:
 
-
-                    if param.type() in ['torch.{}.HalfTensor'.format(get_accelerator().device_name()),
-                                        'torch.{}.BFloat16Tensor'.format(get_accelerator().device_name())]:
+                    if param.type() in [
+                        "torch.{}.HalfTensor".format(get_accelerator().device_name()),
+                        "torch.{}.BFloat16Tensor".format(
+                            get_accelerator().device_name()
+                        ),
+                    ]:
                         float16_params_this_group.append(param)
                         # Create a copy
                         main_param = param.detach().clone().float()
                         # Copy tensor model parallel attributes.
-                        tensor_parallel.copy_tensor_model_parallel_attributes(main_param,
-                                                                              param)
-                        if hasattr(param, 'shared'):
+                        tensor_parallel.copy_tensor_model_parallel_attributes(
+                            main_param, param
+                        )
+                        if hasattr(param, "shared"):
                             main_param.shared = param.shared
                         # Replace the optimizer params with the new fp32 copy.
-                        param_group['params'][i] = main_param
+                        param_group["params"][i] = main_param
 
                         fp32_from_float16_params_this_group.append(main_param)
                         # Reset existing state dict key to the new main param.
                         if param in self.optimizer.state:
-                            self.optimizer.state[main_param] \
-                                = self.optimizer.state.pop(param)
+                            self.optimizer.state[main_param] = self.optimizer.state.pop(
+                                param
+                            )
                     # fp32 params.
-                    elif param.type() == 'torch.{}.FloatTensor'.format(format(get_accelerator().device_name())):
+                    elif param.type() == "torch.{}.FloatTensor".format(
+                        format(get_accelerator().device_name())
+                    ):
                         fp32_params_this_group.append(param)
-                        param_group['params'][i] = param
+                        param_group["params"][i] = param
 
                     else:
                         device_name = get_accelerator().device_name()
-                        raise TypeError('Wrapped parameters must be one of '
-                                        'torch.{}.FloatTensor,  '
-                                        'torch.{}.HalfTensor, or '
-                                        'torch.{}.BFloat16Tensor. '
-                                        'Received {}'.format(device_name,device_name,device_name,param.type()))
+                        raise TypeError(
+                            "Wrapped parameters must be one of "
+                            "torch.{}.FloatTensor,  "
+                            "torch.{}.HalfTensor, or "
+                            "torch.{}.BFloat16Tensor. "
+                            "Received {}".format(
+                                device_name, device_name, device_name, param.type()
+                            )
+                        )
 
             self.float16_groups.append(float16_params_this_group)
-            self.fp32_from_float16_groups.append(
-                fp32_from_float16_params_this_group)
+            self.fp32_from_float16_groups.append(fp32_from_float16_params_this_group)
             self.fp32_from_fp32_groups.append(fp32_params_this_group)
 
-
     def zero_grad(self, set_to_none=True):
         """We only need to zero the model related parameters, i.e.,
         float16_groups & fp32_from_fp32_groups. We additionally zero
@@ -575,7 +619,6 @@ def zero_grad(self, set_to_none=True):
         for group in self.fp32_from_fp32_groups:
             _zero_grad_group_helper(group, set_to_none)
 
-
     def _collect_main_grad_data_for_unscaling(self):
 
         main_grads = []
@@ -591,27 +634,27 @@ def _collect_main_grad_data_for_unscaling(self):
             for main_param in main_group:
                 if main_param.grad is not None:
                     main_grads.append(main_param.grad.data)
-        
-        return main_grads
 
+        return main_grads
 
     def _get_model_and_main_params_data_float16(self):
         model_data = []
         main_data = []
-        for model_group, main_group in zip(self.float16_groups,
-                                           self.fp32_from_float16_groups):
+        for model_group, main_group in zip(
+            self.float16_groups, self.fp32_from_float16_groups
+        ):
             for model_param, main_param in zip(model_group, main_group):
                 model_data.append(model_param.data)
                 main_data.append(main_param.data)
         return model_data, main_data
 
-
     def _copy_model_grads_to_main_grads(self):
         # This only needs to be done for the float16 group.
-        for model_group, main_group in zip(self.float16_groups,
-                                           self.fp32_from_float16_groups):
+        for model_group, main_group in zip(
+            self.float16_groups, self.fp32_from_float16_groups
+        ):
             for model_param, main_param in zip(model_group, main_group):
-                if self.params_have_main_grad and hasattr(model_param, 'main_grad'):
+                if self.params_have_main_grad and hasattr(model_param, "main_grad"):
                     main_param.grad = model_param.main_grad.float()
                 else:
                     if model_param.grad is not None:
@@ -621,8 +664,10 @@ def _copy_model_grads_to_main_grads(self):
                 # (If using contiguous buffers, main_grad's memory should
                 # persist and therefore should not be deallocated.)
                 model_param.grad = None
-                if self.params_have_main_grad and \
-                   not self.use_contiguous_buffers_in_local_ddp:
+                if (
+                    self.params_have_main_grad
+                    and not self.use_contiguous_buffers_in_local_ddp
+                ):
                     model_param.main_grad = None
 
         # For fp32 grads, we need to reset the grads to main grad.
@@ -637,101 +682,110 @@ def _copy_model_grads_to_main_grads(self):
                     if not self.use_contiguous_buffers_in_local_ddp:
                         model_param.main_grad = None
 
-
     def _copy_main_params_to_model_params(self):
         # Only needed for the float16 params.
         model_data, main_data = self._get_model_and_main_params_data_float16()
-        _multi_tensor_copy_this_to_that(this=main_data, that=model_data,
-                                        overflow_buf=self._dummy_overflow_buf)
-
+        _multi_tensor_copy_this_to_that(
+            this=main_data, that=model_data, overflow_buf=self._dummy_overflow_buf
+        )
 
     def _copy_model_params_to_main_params(self):
         # Only needed for the float16 params.
         model_data, main_data = self._get_model_and_main_params_data_float16()
-        _multi_tensor_copy_this_to_that(this=model_data, that=main_data,
-                                        overflow_buf=self._dummy_overflow_buf)
-
+        _multi_tensor_copy_this_to_that(
+            this=model_data, that=main_data, overflow_buf=self._dummy_overflow_buf
+        )
 
     def state_dict(self):
         state_dict = {}
-        state_dict['optimizer'] = self.optimizer.state_dict()
+        state_dict["optimizer"] = self.optimizer.state_dict()
         if self.grad_scaler:
-            state_dict['grad_scaler'] = self.grad_scaler.state_dict()
-        state_dict['fp32_from_fp16_params'] = self.fp32_from_float16_groups
+            state_dict["grad_scaler"] = self.grad_scaler.state_dict()
+        state_dict["fp32_from_fp16_params"] = self.fp32_from_float16_groups
         return state_dict
 
-
     def load_state_dict(self, state_dict):
         # Optimizer.
-        optimizer_key = 'optimizer'
+        optimizer_key = "optimizer"
         if optimizer_key not in state_dict:
-            optimizer_key = 'optimizer_state_dict'
-            print_rank_0('***WARNING*** loading optimizer from '
-                         'an old checkpoint ...')
+            optimizer_key = "optimizer_state_dict"
+            print_rank_0(
+                "***WARNING*** loading optimizer from " "an old checkpoint ..."
+            )
         self.optimizer.load_state_dict(state_dict[optimizer_key])
 
         # Grad scaler.
-        if 'grad_scaler' not in state_dict:
+        if "grad_scaler" not in state_dict:
             if self.fp16:
-                print_rank_0('***WARNING*** found an old checkpoint, will not '
-                             'load grad scaler ...')
+                print_rank_0(
+                    "***WARNING*** found an old checkpoint, will not "
+                    "load grad scaler ..."
+                )
         else:
             if self.grad_scaler:
-                self.grad_scaler.load_state_dict(state_dict['grad_scaler'])
+                self.grad_scaler.load_state_dict(state_dict["grad_scaler"])
             else:
-                print_rank_0('***WARNING*** fould the grad scaler in the '
-                             'checkpoint but it is None in the class. '
-                             'Skipping loading grad scaler ...')
+                print_rank_0(
+                    "***WARNING*** fould the grad scaler in the "
+                    "checkpoint but it is None in the class. "
+                    "Skipping loading grad scaler ..."
+                )
 
         # Copy data for the main params.
-        fp32_from_float16_params_key = 'fp32_from_fp16_params'
+        fp32_from_float16_params_key = "fp32_from_fp16_params"
         if fp32_from_float16_params_key not in state_dict:
-            fp32_from_float16_params_key = 'fp32_from_fp16'
+            fp32_from_float16_params_key = "fp32_from_fp16"
         for current_group, saved_group in zip(
-                self.fp32_from_float16_groups,
-                state_dict[fp32_from_float16_params_key]):
+            self.fp32_from_float16_groups, state_dict[fp32_from_float16_params_key]
+        ):
             for current_param, saved_param in zip(current_group, saved_group):
                 current_param.data.copy_(saved_param.data)
 
 
 class FP32Optimizer(MegatronOptimizer):
 
-    def __init__(self, optimizer, clip_grad,
-                 log_num_zeros_in_grad,
-                 params_have_main_grad,
-                 use_contiguous_buffers_in_local_ddp,
-                 models):
+    def __init__(
+        self,
+        optimizer,
+        clip_grad,
+        log_num_zeros_in_grad,
+        params_have_main_grad,
+        use_contiguous_buffers_in_local_ddp,
+        models,
+    ):
 
         super(FP32Optimizer, self).__init__(
-            optimizer, clip_grad, log_num_zeros_in_grad,
-            params_have_main_grad, use_contiguous_buffers_in_local_ddp,
-            models)
+            optimizer,
+            clip_grad,
+            log_num_zeros_in_grad,
+            params_have_main_grad,
+            use_contiguous_buffers_in_local_ddp,
+            models,
+        )
 
         self._scale = get_accelerator().FloatTensor([1.0])
 
-
     def zero_grad(self, set_to_none=True):
         """Copied from torch.optim.optimizer"""
         for group in self.optimizer.param_groups:
-            _zero_grad_group_helper(group['params'], set_to_none)
-
+            _zero_grad_group_helper(group["params"], set_to_none)
 
     def get_loss_scale(self):
         """FP32 optimizer does not do any scaling."""
         return self._scale
 
-
     @torch.no_grad()
     def step(self, args, timers):
         """Clip gradients (if needed) and step the base optimizer.
         Always return successful since there is no overflow."""
 
         # Copy main_grads to grads.
-        timers('optimizer-copy-to-main-grad', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-copy-to-main-grad", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         if self.params_have_main_grad:
             for param_group in self.optimizer.param_groups:
-                for param in param_group['params']:
+                for param in param_group["params"]:
                     param.grad = param.main_grad
 
                     # Safe to de-reference model's main_grad after copying.
@@ -739,40 +793,39 @@ def step(self, args, timers):
                     # persist and therefore should not be deallocated.)
                     if not self.use_contiguous_buffers_in_local_ddp:
                         param.main_grad = None
-        timers('optimizer-copy-to-main-grad').stop()
+        timers("optimizer-copy-to-main-grad").stop()
 
         # Clip gradients.
-        timers('optimizer-clip-main-grad', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-clip-main-grad", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         grad_norm = None
         if self.clip_grad > 0.0:
             grad_norm = self.clip_grad_norm(self.clip_grad)
-        timers('optimizer-clip-main-grad').stop()
+        timers("optimizer-clip-main-grad").stop()
 
         # count the zeros in the grads
-        timers('optimizer-count-zeros', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
-        num_zeros_in_grad = self.count_zeros() if \
-                            self.log_num_zeros_in_grad else None
-        timers('optimizer-count-zeros').stop()
+        timers("optimizer-count-zeros", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
+        num_zeros_in_grad = self.count_zeros() if self.log_num_zeros_in_grad else None
+        timers("optimizer-count-zeros").stop()
 
         # Update parameters.
-        timers('optimizer-inner-step', log_level=1).start(
-            barrier=args.barrier_with_L1_time)
+        timers("optimizer-inner-step", log_level=1).start(
+            barrier=args.barrier_with_L1_time
+        )
         self.optimizer.step()
-        timers('optimizer-inner-step').stop()
+        timers("optimizer-inner-step").stop()
 
         # No overflow for FP32 optimizer.
         return True, grad_norm, num_zeros_in_grad
 
-
     def reload_model_params(self):
         pass
 
-
     def state_dict(self):
         return self.optimizer.state_dict()
 
-
     def load_state_dict(self, state_dict):
         self.optimizer.load_state_dict(state_dict)
diff --git a/megatron/optimizer/sophia.py b/megatron/optimizer/sophia.py
new file mode 100644
index 00000000000..0789e0d9f58
--- /dev/null
+++ b/megatron/optimizer/sophia.py
@@ -0,0 +1,247 @@
+import math
+import torch
+from torch import Tensor
+from torch.optim.optimizer import Optimizer
+from typing import List, Optional
+
+
+# SOphiaG implementation from https://github.com/Liuhong99/Sophia/blob/main/sophia.py, copy pasted here because no pip and not sure about submodules
+
+
+class SophiaG(Optimizer):
+
+    def __init__(
+        self,
+        params,
+        lr=1e-4,
+        betas=(0.965, 0.99),
+        rho=0.04,
+        weight_decay=1e-1,
+        *,
+        maximize: bool = False,
+        capturable: bool = False
+    ):
+        if not 0.0 <= lr:
+            raise ValueError("Invalid learning rate: {}".format(lr))
+        if not 0.0 <= betas[0] < 1.0:
+            raise ValueError("Invalid beta parameter at index 0: {}".format(betas[0]))
+        if not 0.0 <= betas[1] < 1.0:
+            raise ValueError("Invalid beta parameter at index 1: {}".format(betas[1]))
+        if not 0.0 <= rho:
+            raise ValueError("Invalid rho parameter at index 1: {}".format(rho))
+        if not 0.0 <= weight_decay:
+            raise ValueError("Invalid weight_decay value: {}".format(weight_decay))
+        defaults = dict(
+            lr=lr,
+            betas=betas,
+            rho=rho,
+            weight_decay=weight_decay,
+            maximize=maximize,
+            capturable=capturable,
+        )
+        super(SophiaG, self).__init__(params, defaults)
+
+    def __setstate__(self, state):
+        super().__setstate__(state)
+        for group in self.param_groups:
+            group.setdefault("maximize", False)
+            group.setdefault("capturable", False)
+        state_values = list(self.state.values())
+        step_is_tensor = (len(state_values) != 0) and torch.is_tensor(
+            state_values[0]["step"]
+        )
+        if not step_is_tensor:
+            for s in state_values:
+                s["step"] = torch.tensor(float(s["step"]))
+
+    @torch.no_grad()
+    def update_hessian(self):
+        for group in self.param_groups:
+            beta1, beta2 = group["betas"]
+            for p in group["params"]:
+                if p.grad is None:
+                    continue
+                state = self.state[p]
+
+                if len(state) == 0:
+                    state["step"] = (
+                        torch.zeros((1,), dtype=torch.float, device=p.device)
+                        if self.defaults["capturable"]
+                        else torch.tensor(0.0)
+                    )
+                    state["exp_avg"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+                    state["hessian"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+
+                if "hessian" not in state.keys():
+                    state["hessian"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+
+                state["hessian"].mul_(beta2).addcmul_(p.grad, p.grad, value=1 - beta2)
+
+    @torch.no_grad()
+    def step(self, closure=None, bs=5120):
+        loss = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            params_with_grad = []
+            grads = []
+            exp_avgs = []
+            state_steps = []
+            hessian = []
+            beta1, beta2 = group["betas"]
+
+            for p in group["params"]:
+                if p.grad is None:
+                    continue
+                params_with_grad.append(p)
+
+                if p.grad.is_sparse:
+                    raise RuntimeError("Hero does not support sparse gradients")
+                grads.append(p.grad)
+                state = self.state[p]
+                # State initialization
+                if len(state) == 0:
+                    state["step"] = (
+                        torch.zeros((1,), dtype=torch.float, device=p.device)
+                        if self.defaults["capturable"]
+                        else torch.tensor(0.0)
+                    )
+                    state["exp_avg"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+                    state["hessian"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+
+                if "hessian" not in state.keys():
+                    state["hessian"] = torch.zeros_like(
+                        p, memory_format=torch.preserve_format
+                    )
+
+                exp_avgs.append(state["exp_avg"])
+                state_steps.append(state["step"])
+                hessian.append(state["hessian"])
+
+                if self.defaults["capturable"]:
+                    bs = torch.ones((1,), dtype=torch.float, device=p.device) * bs
+
+            sophiag(
+                params_with_grad,
+                grads,
+                exp_avgs,
+                hessian,
+                state_steps,
+                bs=bs,
+                beta1=beta1,
+                beta2=beta2,
+                rho=group["rho"],
+                lr=group["lr"],
+                weight_decay=group["weight_decay"],
+                maximize=group["maximize"],
+                capturable=group["capturable"],
+            )
+
+        return loss
+
+
+def sophiag(
+    params: List[Tensor],
+    grads: List[Tensor],
+    exp_avgs: List[Tensor],
+    hessian: List[Tensor],
+    state_steps: List[Tensor],
+    capturable: bool = False,
+    *,
+    bs: int,
+    beta1: float,
+    beta2: float,
+    rho: float,
+    lr: float,
+    weight_decay: float,
+    maximize: bool
+):
+
+    if not all(isinstance(t, torch.Tensor) for t in state_steps):
+        raise RuntimeError(
+            "API has changed, `state_steps` argument must contain a list of singleton tensors"
+        )
+
+    func = _single_tensor_sophiag
+
+    func(
+        params,
+        grads,
+        exp_avgs,
+        hessian,
+        state_steps,
+        bs=bs,
+        beta1=beta1,
+        beta2=beta2,
+        rho=rho,
+        lr=lr,
+        weight_decay=weight_decay,
+        maximize=maximize,
+        capturable=capturable,
+    )
+
+
+def _single_tensor_sophiag(
+    params: List[Tensor],
+    grads: List[Tensor],
+    exp_avgs: List[Tensor],
+    hessian: List[Tensor],
+    state_steps: List[Tensor],
+    *,
+    bs: int,
+    beta1: float,
+    beta2: float,
+    rho: float,
+    lr: float,
+    weight_decay: float,
+    maximize: bool,
+    capturable: bool
+):
+
+    for i, param in enumerate(params):
+        grad = grads[i] if not maximize else -grads[i]
+        exp_avg = exp_avgs[i]
+        hess = hessian[i]
+        step_t = state_steps[i]
+
+        if capturable:
+            assert param.is_cuda and step_t.is_cuda and bs.is_cuda
+
+        if torch.is_complex(param):
+            grad = torch.view_as_real(grad)
+            exp_avg = torch.view_as_real(exp_avg)
+            hess = torch.view_as_real(hess)
+            param = torch.view_as_real(param)
+
+        # update step
+        step_t += 1
+
+        # Perform stepweight decay
+        param.mul_(1 - lr * weight_decay)
+
+        # Decay the first and second moment running average coefficient
+        exp_avg.mul_(beta1).add_(grad, alpha=1 - beta1)
+
+        if capturable:
+            step_size = lr
+            step_size_neg = step_size.neg()
+
+            ratio = (exp_avg.abs() / (rho * bs * hess + 1e-15)).clamp(None, 1)
+            param.addcmul_(exp_avg.sign(), ratio, value=step_size_neg)
+        else:
+            step_size_neg = -lr
+
+            ratio = (exp_avg.abs() / (rho * bs * hess + 1e-15)).clamp(None, 1)
+            param.addcmul_(exp_avg.sign(), ratio, value=step_size_neg)
diff --git a/megatron/optimizer_param_scheduler.py b/megatron/optimizer_param_scheduler.py
index 7304b257550..120d540f6b8 100644
--- a/megatron/optimizer_param_scheduler.py
+++ b/megatron/optimizer_param_scheduler.py
@@ -6,32 +6,63 @@
 
 from megatron import print_rank_0, get_args
 
+
 class OptimizerParamScheduler(object):
     """Anneals learning rate and weight decay"""
 
-    def __init__(self, optimizer, max_lr, min_lr,
-                 lr_warmup_steps, lr_decay_steps, lr_decay_style,
-                 start_wd, end_wd, wd_incr_steps, wd_incr_style,
-                 use_checkpoint_opt_param_scheduler=True,
-                 override_opt_param_scheduler=False):
+    def __init__(
+        self,
+        optimizer,
+        max_lr,
+        min_lr,
+        lr_constant_plus_cooldown_steps,
+        lr_warmup_steps,
+        lr_decay_steps,
+        lr_decay_style,
+        start_wd,
+        end_wd,
+        wd_incr_steps,
+        wd_incr_style,
+        timescale=10.0,
+        constant_lr=0.0,
+        lr_constant_steps=None,
+        lr_cooldown_steps=None,
+        use_checkpoint_opt_param_scheduler=True,
+        override_opt_param_scheduler=False,
+    ):
         args = get_args()
         # Class values.
         self.optimizer = optimizer
 
         self.max_lr = float(max_lr)
         self.min_lr = min_lr
+        self.constant_lr = constant_lr
         assert self.min_lr >= 0.0
         assert self.max_lr >= self.min_lr
 
         self.lr_warmup_steps = lr_warmup_steps
         self.num_steps = 0
         self.lr_decay_steps = lr_decay_steps
+        self.lr_cooldown_steps = lr_cooldown_steps
+        self.lr_constant_steps = lr_constant_steps
+        self.end_steps = lr_decay_steps
         assert self.lr_decay_steps > 0
         assert self.lr_warmup_steps < self.lr_decay_steps
+        if self.lr_constant_steps is not None:
+            assert self.lr_constant_steps < self.lr_decay_steps
+
+        # for constant+cooldown
+        self.lr_constant_plus_cooldown = args.lr_constant_plus_cooldown
+        self.lr_constant_plus_cooldown_steps = lr_constant_plus_cooldown_steps
 
+        #for infinite schedulers
+        self.timescale=timescale
         self.lr_decay_tokens = args.lr_decay_tokens
         self.num_tokens = 0
         self.lr_warmup_tokens = args.lr_warmup_tokens
+        self.lr_cooldown_tokens = args.lr_cooldown_tokens
+        self.lr_constant_tokens = args.lr_constant_tokens
+        self.end_tokens = args.train_tokens
 
         self.lr_decay_style = lr_decay_style
 
@@ -45,20 +76,20 @@ def __init__(self, optimizer, max_lr, min_lr,
         self.override_opt_param_scheduler = override_opt_param_scheduler
         self.use_checkpoint_opt_param_scheduler = use_checkpoint_opt_param_scheduler
         if self.override_opt_param_scheduler:
-            assert not self.use_checkpoint_opt_param_scheduler, 'both override and '\
-                'use-checkpoint are set.'
+            assert not self.use_checkpoint_opt_param_scheduler, (
+                "both override and " "use-checkpoint are set."
+            )
 
         # Set the learning rate
         self.step(0)
-        print_rank_0('> learning rate decay style: {}'.format(self.lr_decay_style))
-
+        print_rank_0("> learning rate decay style: {}".format(self.lr_decay_style))
 
     def get_wd(self):
-        """ Weight decay incr functions"""
+        """Weight decay incr functions"""
         if self.num_steps > self.wd_incr_steps:
             return self.end_wd
 
-        if self.wd_incr_style == 'constant':
+        if self.wd_incr_style == "constant":
             assert self.start_wd == self.end_wd
             return self.end_wd
 
@@ -67,39 +98,73 @@ def get_wd(self):
         assert incr_ratio <= 1.0
         delta_wd = self.end_wd - self.start_wd
 
-        if self.wd_incr_style == 'linear':
+        if self.wd_incr_style == "linear":
             coeff = incr_ratio
-        elif self.wd_incr_style == 'cosine':
+        elif self.wd_incr_style == "cosine":
             coeff = 0.5 * (math.cos(math.pi * (1 - incr_ratio)) + 1.0)
         else:
-            raise Exception('{} weight decay increment style is not supported.'.format(
-                self.wd_incr_style))
+            raise Exception(
+                "{} weight decay increment style is not supported.".format(
+                    self.wd_incr_style
+                )
+            )
 
-        return self.start_wd + coeff * delta_wd
 
+        return self.start_wd + coeff * delta_wd
 
     def get_lr(self):
         """Learning rate decay functions from:
-              https://openreview.net/pdf?id=BJYwwY9ll pg. 4"""
+        https://openreview.net/pdf?id=BJYwwY9ll pg. 4"""
 
         # Use linear warmup for the initial part.
         if self.lr_warmup_tokens is None:
             if self.lr_warmup_steps > 0 and self.num_steps <= self.lr_warmup_steps:
-                if self.num_steps == self.lr_warmup_steps and \
-                    self.lr_decay_tokens is not None:
+                if (
+                    self.num_steps == self.lr_warmup_steps
+                    and self.lr_decay_tokens is not None
+                ):
                     # The case of step/sample-wise warmup + token-wise decay
                     self.lr_warmup_tokens = self.num_tokens
-                return self.max_lr * float(self.num_steps) / \
-                    float(self.lr_warmup_steps)
+                return self.max_lr * float(self.num_steps) / float(self.lr_warmup_steps)
         else:
             if self.lr_warmup_tokens > 0 and self.num_tokens <= self.lr_warmup_tokens:
-                return self.max_lr * float(self.num_tokens) / \
-                    float(self.lr_warmup_tokens)
+                return (
+                    self.max_lr * float(self.num_tokens) / float(self.lr_warmup_tokens)
+                )
 
         # If the learning rate is constant, just return the initial value.
-        if self.lr_decay_style == 'constant':
-            return self.max_lr
+        if self.lr_decay_style == "constant":
+            if not self.lr_constant_plus_cooldown: #*
+                return self.max_lr
+
+            if self.lr_decay_tokens is None:
+            #steps based
+                num_steps_ = self.num_steps - self.lr_warmup_steps
+                total_steps_ = self.end_steps - self.lr_warmup_steps
+                if num_steps_ >= total_steps_ : return self.min_lr
+                cooldown_steps_ = int(self.lr_constant_plus_cooldown_steps)
+                if num_steps_ < total_steps_ -  cooldown_steps_: return self.max_lr
+                print(total_steps_)
+                print(cooldown_steps_)
+                ratio = (num_steps_ - (total_steps_ -  cooldown_steps_)) / float(cooldown_steps_)
+                if ratio < 0.0: ratio = 0.0
+                if ratio > 1.0: ratio = 1.0
+                return self.min_lr + (self.max_lr - self.min_lr) * (1.0 - math.sqrt(ratio))
 
+            else:
+            #token based
+                num_tokens_ = self.num_tokens - self.lr_warmup_tokens
+                total_tokens_ = self.end_tokens - self.lr_warmup_tokens
+                if num_tokens_ >= total_tokens_ : return self.min_lr
+                cooldown_tokens_ = int(self.lr_constant_plus_cooldown_tokens)
+                if num_tokens_ < total_tokens_ -  cooldown_tokens_: return self.max_lr
+                print(total_tokens_)
+                print(cooldown_tokens_)
+                ratio = (num_tokens_ - (total_tokens_ -  cooldown_tokens_)) / float(cooldown_tokens_)
+                if ratio < 0.0: ratio = 0.0
+                if ratio > 1.0: ratio = 1.0
+                return self.min_lr + (self.max_lr - self.min_lr) * (1.0 - math.sqrt(ratio))
+####################################################
         # For any steps larger than `self.lr_decay_steps`, use `self.min_lr`.
         if self.lr_decay_tokens is None:
             if self.num_steps > self.lr_decay_steps:
@@ -109,17 +174,109 @@ def get_lr(self):
                 return self.min_lr
 
         # If we are done with the warmup period, use the decay style.
-        if self.lr_decay_style == 'inverse-square-root':
+        if self.lr_decay_style == "inverse-square-root":
             if self.lr_warmup_tokens is None:
                 warmup_steps = max(self.lr_warmup_steps, 1)
                 num_steps = max(self.num_steps, 1)
-                lr = self.max_lr * warmup_steps ** 0.5 / (num_steps ** 0.5)
+                lr = self.max_lr * warmup_steps**0.5 / (num_steps**0.5)
             else:
                 warmup_tokens = max(self.lr_warmup_tokens, 1)
                 num_tokens = max(self.num_tokens, 1)
-                lr = self.max_lr * warmup_tokens ** 0.5 / (num_tokens ** 0.5)
+                lr = self.max_lr * warmup_tokens**0.5 / (num_tokens**0.5)
             return max(self.min_lr, lr)
 
+        # --- Infinite Decay Options ---
+        elif self.lr_decay_style in ["infinite-cosine", "infinite-inv-square-root"]:
+            # Compute iterations after warmup. (Using steps if lr_decay_tokens is None,
+            # otherwise tokens.)
+            assert self.constant_lr > self.min_lr
+            assert self.constant_lr <= self.max_lr
+            delta_lr = self.max_lr - self.constant_lr
+            if self.lr_decay_tokens is None:
+                num_steps_ = self.num_steps - self.lr_warmup_steps
+                cooldown_steps_ = self.lr_cooldown_steps #- self.lr_warmup_steps
+                if self.lr_constant_steps is None:
+                    raise Exception(
+                        "Constant LR steps need to be provided for infinite schedulers"
+                    )
+                if num_steps_ <= cooldown_steps_:
+                    cooldown_ratio = float(num_steps_) / float(cooldown_steps_)
+
+                    if self.lr_decay_style == "infinite-cosine":
+                        coeff = 0.5 * (math.cos(math.pi * cooldown_ratio) + 1.0)
+                        lr = self.constant_lr + delta_lr * coeff
+                    else:  # infinite-inv-sqrt
+
+                        def inv_f(t):
+                            return (1 / math.sqrt(1 + (self.timescale * t))) - 1
+
+                        coeff = inv_f(cooldown_ratio)/inv_f(1)
+                        lr = self.max_lr - delta_lr * coeff
+
+                else:
+                    num_steps_ = num_steps_ - cooldown_steps_
+                    if num_steps_ <= self.lr_constant_steps:
+                        # Stay constant for constant_iters
+                        lr = self.constant_lr
+                    else:
+                        # Exponential decay from constant_lr to min_lr.
+
+                        end_steps_ = (
+                            self.end_steps
+                            - self.lr_warmup_steps
+                            - cooldown_steps_
+                            - self.lr_constant_steps
+                        )
+                        num_steps_ = num_steps_ - self.lr_constant_steps
+                        exp_factor = (
+                            -math.log(self.min_lr / self.constant_lr) / end_steps_
+                        )
+                        lr = self.constant_lr * math.exp(-exp_factor * num_steps_)
+
+            # token based decay
+            else:
+                num_tokens_ = self.num_tokens - self.lr_warmup_tokens
+                cooldown_tokens_ = self.lr_cooldown_tokens # - self.lr_warmup_tokens
+                if self.constant_tokens is None:
+                    raise Exception(
+                        "Constant LR tokens need to be provided for infinite schedulers"
+                    )
+                if num_tokens_ <= cooldown_tokens_:
+                    cooldown_ratio = float(num_tokens_) / float(cooldown_tokens_)
+
+                    if self.lr_decay_style == "infinite-cosine":
+                        coeff = 0.5 * (math.cos(math.pi * cooldown_ratio) + 1.0)
+                        lr = self.constant_lr + delta_lr * coeff
+                    else:  # infinite_inv_sqrt
+
+                        def inv_f(t):
+                            return (1 / math.sqrt(1 + (self.timescale * t))) - 1
+
+                        coeff = inv_f(cooldown_ratio)/inv_f(1)
+                        lr = self.max_lr - delta_lr * coeff
+                else:
+                    num_tokens_ = num_tokens_ - cooldown_tokens_
+
+                    if num_tokens_ <= self.lr_constant_tokens:
+                        # Stay constant for constant_tokens period
+                        lr = self.constant_lr
+                    else:
+                        # Exponential decay from constant_lr to min_lr
+
+                        end_tokens_ = (
+                            self.end_tokens
+                            - self.lr_warmup_tokens
+                            - cooldown_tokens_
+                            - self.lr_constant_tokens
+                        )
+                        num_tokens_ = num_tokens_ - self.lr_constant_tokens
+                        exp_factor = (
+                            -math.log(self.min_lr / self.constant_lr) / end_tokens_
+                        )
+                        lr = self.constant_lr * math.exp(-exp_factor * num_tokens_)
+
+            return max(lr, self.min_lr)
+
         if self.lr_decay_tokens is None:
             num_steps_ = self.num_steps - self.lr_warmup_steps
             decay_steps_ = self.lr_decay_steps - self.lr_warmup_steps
@@ -132,17 +289,17 @@ def get_lr(self):
         assert decay_ratio <= 1.0
         delta_lr = self.max_lr - self.min_lr
 
-        if self.lr_decay_style == 'linear':
-            coeff = (1.0 - decay_ratio)
-        elif self.lr_decay_style == 'cosine':
+        if self.lr_decay_style == "linear":
+            coeff = 1.0 - decay_ratio
+        elif self.lr_decay_style == "cosine":
             coeff = 0.5 * (math.cos(math.pi * decay_ratio) + 1.0)
         else:
-            raise Exception('{} decay style is not supported.'.format(
-                self.lr_decay_style))
+            raise Exception(
+                "{} decay style is not supported.".format(self.lr_decay_style)
+            )
 
         return self.min_lr + coeff * delta_lr
 
-
     def step(self, increment, token_num=None):
         """Set lr for all parameters groups."""
         if token_num is None:
@@ -153,125 +310,116 @@ def step(self, increment, token_num=None):
         new_lr = self.get_lr()
         new_wd = self.get_wd()
         for group in self.optimizer.param_groups:
-            group['lr'] = new_lr * group.get('lr_mult', 1.0)
-            group['weight_decay'] = new_wd * group.get('wd_mult', 1.0)
-
+            group["lr"] = new_lr * group.get("lr_mult", 1.0)
+            group["weight_decay"] = new_wd * group.get("wd_mult", 1.0)
 
     def state_dict(self):
         state_dict = {
-            'max_lr': self.max_lr,
-            'lr_warmup_steps': self.lr_warmup_steps,
-            'lr_warmup_tokens': self.lr_warmup_tokens,
-            'num_steps': self.num_steps,
-            'num_tokens': self.num_tokens,
-            'lr_decay_style': self.lr_decay_style,
-            'lr_decay_steps': self.lr_decay_steps,
-            'lr_decay_tokens': self.lr_decay_tokens,
-            'min_lr': self.min_lr,
-            'start_wd': self.start_wd,
-            'end_wd': self.end_wd,
-            'wd_incr_style': self.wd_incr_style,
-            'wd_incr_steps': self.wd_incr_steps
+            "max_lr": self.max_lr,
+            "lr_warmup_steps": self.lr_warmup_steps,
+            "lr_warmup_tokens": self.lr_warmup_tokens,
+            "num_steps": self.num_steps,
+            "num_tokens": self.num_tokens,
+            "lr_decay_style": self.lr_decay_style,
+            "lr_decay_steps": self.lr_decay_steps,
+            "lr_decay_tokens": self.lr_decay_tokens,
+            "min_lr": self.min_lr,
+            "start_wd": self.start_wd,
+            "end_wd": self.end_wd,
+            "wd_incr_style": self.wd_incr_style,
+            "wd_incr_steps": self.wd_incr_steps,
         }
         return state_dict
 
-
     def _check_and_set(self, cls_value, sd_value, name):
         """Auxiliary function for checking the values in the checkpoint and
         setting them."""
         if self.override_opt_param_scheduler:
-            print_rank_0(' > overriding {} value to {}'.format(name, cls_value))
+            print_rank_0(" > overriding {} value to {}".format(name, cls_value))
             return cls_value
 
         if not self.use_checkpoint_opt_param_scheduler:
-            assert cls_value == sd_value, \
-                f'OptimizerParamScheduler: class input value {cls_value} and checkpoint' \
-                f'value {sd_value} for {name} do not match'
-        print_rank_0(' > using checkpoint value {} for {}'.format(sd_value,
-                                                                  name))
+            assert cls_value == sd_value, (
+                f"OptimizerParamScheduler: class input value {cls_value} and checkpoint"
+                f"value {sd_value} for {name} do not match"
+            )
+        print_rank_0(" > using checkpoint value {} for {}".format(sd_value, name))
         return sd_value
 
-
     def load_state_dict(self, sd):
 
-        if 'start_lr' in sd:
-            max_lr_ = sd['start_lr']
+        if "start_lr" in sd:
+            max_lr_ = sd["start_lr"]
         else:
-            max_lr_ = sd['max_lr']
-        self.max_lr = self._check_and_set(self.max_lr, max_lr_,
-                                          'learning rate')
-        
-        self.min_lr = self._check_and_set(self.min_lr, sd['min_lr'],
-                                          'minimum learning rate')
-
-        if 'warmup_iter' in sd:
-            lr_warmup_steps_ = sd['warmup_iter']
-        elif 'warmup_steps' in sd:
-            lr_warmup_steps_ = sd['warmup_steps']
+            max_lr_ = sd["max_lr"]
+        self.max_lr = self._check_and_set(self.max_lr, max_lr_, "learning rate")
+
+        self.min_lr = self._check_and_set(
+            self.min_lr, sd["min_lr"], "minimum learning rate"
+        )
+
+        if "warmup_iter" in sd:
+            lr_warmup_steps_ = sd["warmup_iter"]
+        elif "warmup_steps" in sd:
+            lr_warmup_steps_ = sd["warmup_steps"]
         else:
-            lr_warmup_steps_ = sd['lr_warmup_steps']
-        self.lr_warmup_steps = self._check_and_set(self.lr_warmup_steps,
-                                                lr_warmup_steps_,
-                                                'warmup iterations')
-        if 'warmup_tokens' in sd:
-            lr_warmup_tokens_ = sd['warmup_tokens']
+            lr_warmup_steps_ = sd["lr_warmup_steps"]
+        self.lr_warmup_steps = self._check_and_set(
+            self.lr_warmup_steps, lr_warmup_steps_, "warmup iterations"
+        )
+        if "warmup_tokens" in sd:
+            lr_warmup_tokens_ = sd["warmup_tokens"]
         else:
-            lr_warmup_tokens_ = sd['lr_warmup_tokens']
-        self.lr_warmup_tokens = self._check_and_set(self.lr_warmup_tokens,
-                                                lr_warmup_tokens_,
-                                                'warmup tokens')
-
-        if 'end_iter' in sd:
-            lr_decay_steps_ = sd['end_iter']
-        elif 'decay_steps' in sd:
-            lr_decay_steps_  = sd['decay_steps']
+            lr_warmup_tokens_ = sd["lr_warmup_tokens"]
+        self.lr_warmup_tokens = self._check_and_set(
+            self.lr_warmup_tokens, lr_warmup_tokens_, "warmup tokens"
+        )
+
+        if "end_iter" in sd:
+            lr_decay_steps_ = sd["end_iter"]
+        elif "decay_steps" in sd:
+            lr_decay_steps_ = sd["decay_steps"]
         else:
-            lr_decay_steps_ = sd['lr_decay_steps']
-        self.lr_decay_steps = self._check_and_set(self.lr_decay_steps, lr_decay_steps_,
-                                               'total number of iterations')
-        if 'decay_tokens' in sd:
-            lr_decay_tokens_ = sd['decay_tokens']
+            lr_decay_steps_ = sd["lr_decay_steps"]
+        self.lr_decay_steps = self._check_and_set(
+            self.lr_decay_steps, lr_decay_steps_, "total number of iterations"
+        )
+        if "decay_tokens" in sd:
+            lr_decay_tokens_ = sd["decay_tokens"]
         else:
-            lr_decay_tokens_ = sd['lr_decay_tokens']
-        self.lr_decay_tokens = self._check_and_set(self.lr_decay_tokens,
-                                                lr_decay_tokens_,
-                                                'decay tokens')
+            lr_decay_tokens_ = sd["lr_decay_tokens"]
+        self.lr_decay_tokens = self._check_and_set(
+            self.lr_decay_tokens, lr_decay_tokens_, "decay tokens"
+        )
 
-        if 'decay_style' in sd:
-            lr_decay_style_ = sd['decay_style']
+        if "decay_style" in sd:
+            lr_decay_style_ = sd["decay_style"]
         else:
-            lr_decay_style_ = sd['lr_decay_style']
-        self.lr_decay_style = self._check_and_set(self.lr_decay_style,
-                                               lr_decay_style_,
-                                               'learning rate decay style')
+            lr_decay_style_ = sd["lr_decay_style"]
+        self.lr_decay_style = self._check_and_set(
+            self.lr_decay_style, lr_decay_style_, "learning rate decay style"
+        )
 
-        if 'num_iters' in sd:
-            num_steps = sd['num_iters']
+        if "num_iters" in sd:
+            num_steps = sd["num_iters"]
         else:
-            num_steps = sd['num_steps']
-        if 'num_tokens' in sd:
-            self.num_tokens = sd['num_tokens']
+            num_steps = sd["num_steps"]
+        if "num_tokens" in sd:
+            self.num_tokens = sd["num_tokens"]
         self.step(increment=num_steps, token_num=self.num_tokens)
 
-
-        if 'start_wd' in sd:
-            self.start_wd = self._check_and_set(self.start_wd,
-                                                sd['start_wd'],
-                                                "start weight decay")
-            self.end_wd = self._check_and_set(self.end_wd,
-                                                sd['end_wd'],
-                                                "end weight decay")
-            self.wd_incr_steps = self._check_and_set(self.wd_incr_steps,
-                                                sd['wd_incr_steps'],
-                                                "total number of weight decay iterations")
-            self.wd_incr_style = self._check_and_set(self.wd_incr_style,
-                                                sd['wd_incr_style'],
-                                                "weight decay incr style")
-            
-
-
-
-
-
-
-
+        if "start_wd" in sd:
+            self.start_wd = self._check_and_set(
+                self.start_wd, sd["start_wd"], "start weight decay"
+            )
+            self.end_wd = self._check_and_set(
+                self.end_wd, sd["end_wd"], "end weight decay"
+            )
+            self.wd_incr_steps = self._check_and_set(
+                self.wd_incr_steps,
+                sd["wd_incr_steps"],
+                "total number of weight decay iterations",
+            )
+            self.wd_incr_style = self._check_and_set(
+                self.wd_incr_style, sd["wd_incr_style"], "weight decay incr style"
+            )
diff --git a/megatron/p2p_communication.py b/megatron/p2p_communication.py
index 770060a8899..d5755643f13 100644
--- a/megatron/p2p_communication.py
+++ b/megatron/p2p_communication.py
@@ -21,8 +21,9 @@
 from megatron.core import mpu
 
 
-def _communicate(tensor_send_next, tensor_send_prev, recv_prev, recv_next,
-                 use_ring_exchange=False):
+def _communicate(
+    tensor_send_next, tensor_send_prev, recv_prev, recv_next, use_ring_exchange=False
+):
     """Communicate tensors between stages. Used as helper method in other
     communication methods that are used in megatron/schedules.py.
 
@@ -49,23 +50,29 @@ def _communicate(tensor_send_next, tensor_send_prev, recv_prev, recv_next,
     tensor_recv_next = None
     tensor_shape = (args.seq_length, args.micro_batch_size, args.hidden_size)
     if args.scatter_gather_tensors_in_pipeline:
-        tensor_chunk_shape = reduce(operator.mul, tensor_shape, 1) // \
-            mpu.get_tensor_model_parallel_world_size()
+        tensor_chunk_shape = (
+            reduce(operator.mul, tensor_shape, 1)
+            // mpu.get_tensor_model_parallel_world_size()
+        )
     else:
         tensor_chunk_shape = tensor_shape
     dtype = args.params_dtype
     if args.fp32_residual_connection:
         dtype = torch.float
     if recv_prev:
-        tensor_recv_prev = torch.empty(tensor_chunk_shape,
-                                       requires_grad=True,
-                                       device=get_accelerator().current_device_name(),
-                                       dtype=dtype)
+        tensor_recv_prev = torch.empty(
+            tensor_chunk_shape,
+            requires_grad=True,
+            device=get_accelerator().current_device_name(),
+            dtype=dtype,
+        )
     if recv_next:
-        tensor_recv_next = torch.empty(tensor_chunk_shape,
-                                       requires_grad=True,
-                                       device=get_accelerator().current_device_name(),
-                                       dtype=dtype)
+        tensor_recv_next = torch.empty(
+            tensor_chunk_shape,
+            requires_grad=True,
+            device=get_accelerator().current_device_name(),
+            dtype=dtype,
+        )
 
     # Split tensor into smaller chunks if using scatter-gather optimization.
     if args.scatter_gather_tensors_in_pipeline:
@@ -77,32 +84,42 @@ def _communicate(tensor_send_next, tensor_send_prev, recv_prev, recv_next,
 
     # Send tensors in both the forward and backward directions as appropriate.
     if use_ring_exchange:
-        torch.distributed.ring_exchange(tensor_send_prev=tensor_send_prev,
-                                        tensor_recv_prev=tensor_recv_prev,
-                                        tensor_send_next=tensor_send_next,
-                                        tensor_recv_next=tensor_recv_next,
-                                        group=mpu.get_pipeline_model_parallel_group())
+        torch.distributed.ring_exchange(
+            tensor_send_prev=tensor_send_prev,
+            tensor_recv_prev=tensor_recv_prev,
+            tensor_send_next=tensor_send_next,
+            tensor_recv_next=tensor_recv_next,
+            group=mpu.get_pipeline_model_parallel_group(),
+        )
     else:
         ops = []
         if tensor_send_prev is not None:
             send_prev_op = torch.distributed.P2POp(
-                torch.distributed.isend, tensor_send_prev,
-                mpu.get_pipeline_model_parallel_prev_rank())
+                torch.distributed.isend,
+                tensor_send_prev,
+                mpu.get_pipeline_model_parallel_prev_rank(),
+            )
             ops.append(send_prev_op)
         if tensor_recv_prev is not None:
             recv_prev_op = torch.distributed.P2POp(
-                torch.distributed.irecv, tensor_recv_prev,
-                mpu.get_pipeline_model_parallel_prev_rank())
+                torch.distributed.irecv,
+                tensor_recv_prev,
+                mpu.get_pipeline_model_parallel_prev_rank(),
+            )
             ops.append(recv_prev_op)
         if tensor_send_next is not None:
             send_next_op = torch.distributed.P2POp(
-                torch.distributed.isend, tensor_send_next,
-                mpu.get_pipeline_model_parallel_next_rank())
+                torch.distributed.isend,
+                tensor_send_next,
+                mpu.get_pipeline_model_parallel_next_rank(),
+            )
             ops.append(send_next_op)
         if tensor_recv_next is not None:
             recv_next_op = torch.distributed.P2POp(
-                torch.distributed.irecv, tensor_recv_next,
-                mpu.get_pipeline_model_parallel_next_rank())
+                torch.distributed.irecv,
+                tensor_recv_next,
+                mpu.get_pipeline_model_parallel_next_rank(),
+            )
             ops.append(recv_next_op)
         if len(ops) > 0:
             reqs = torch.distributed.batch_isend_irecv(ops)
@@ -114,12 +131,18 @@ def _communicate(tensor_send_next, tensor_send_prev, recv_prev, recv_next,
     # If using scatter-gather optimization, gather smaller chunks.
     if args.scatter_gather_tensors_in_pipeline:
         if recv_prev:
-            tensor_recv_prev = mpu.gather_split_1d_tensor(
-                tensor_recv_prev).view(tensor_shape).requires_grad_()
+            tensor_recv_prev = (
+                mpu.gather_split_1d_tensor(tensor_recv_prev)
+                .view(tensor_shape)
+                .requires_grad_()
+            )
 
         if recv_next:
-            tensor_recv_next = mpu.gather_split_1d_tensor(
-                tensor_recv_next).view(tensor_shape).requires_grad_()
+            tensor_recv_next = (
+                mpu.gather_split_1d_tensor(tensor_recv_next)
+                .view(tensor_shape)
+                .requires_grad_()
+            )
 
     return tensor_recv_prev, tensor_recv_next
 
@@ -130,14 +153,15 @@ def recv_forward(timers=None):
         input_tensor = None
     else:
         if timers is not None:
-            timers('forward-recv').start()
+            timers("forward-recv").start()
         input_tensor, _ = _communicate(
             tensor_send_next=None,
             tensor_send_prev=None,
             recv_prev=True,
-            recv_next=False)
+            recv_next=False,
+        )
         if timers is not None:
-            timers('forward-recv').stop()
+            timers("forward-recv").stop()
     return input_tensor
 
 
@@ -147,14 +171,15 @@ def recv_backward(timers=None):
         output_tensor_grad = None
     else:
         if timers is not None:
-            timers('backward-recv').start()
+            timers("backward-recv").start()
         _, output_tensor_grad = _communicate(
             tensor_send_next=None,
             tensor_send_prev=None,
             recv_prev=False,
-            recv_next=True)
+            recv_next=True,
+        )
         if timers is not None:
-            timers('backward-recv').stop()
+            timers("backward-recv").stop()
     return output_tensor_grad
 
 
@@ -162,28 +187,30 @@ def send_forward(output_tensor, timers=None):
     """Send tensor to next rank in pipeline (forward send)."""
     if not mpu.is_pipeline_last_stage():
         if timers is not None:
-            timers('forward-send').start()
+            timers("forward-send").start()
         _communicate(
             tensor_send_next=output_tensor,
             tensor_send_prev=None,
             recv_prev=False,
-            recv_next=False)
+            recv_next=False,
+        )
         if timers is not None:
-            timers('forward-send').stop()
+            timers("forward-send").stop()
 
 
 def send_backward(input_tensor_grad, timers=None):
     """Send tensor to previous rank in pipeline (backward send)."""
     if not mpu.is_pipeline_first_stage():
         if timers is not None:
-            timers('backward-send').start()
+            timers("backward-send").start()
         _communicate(
             tensor_send_next=None,
             tensor_send_prev=input_tensor_grad,
             recv_prev=False,
-            recv_next=False)
+            recv_next=False,
+        )
         if timers is not None:
-            timers('backward-send').stop()
+            timers("backward-send").stop()
 
 
 def send_forward_recv_backward(output_tensor, timers=None):
@@ -192,14 +219,15 @@ def send_forward_recv_backward(output_tensor, timers=None):
         output_tensor_grad = None
     else:
         if timers is not None:
-            timers('forward-send-backward-recv').start()
+            timers("forward-send-backward-recv").start()
         _, output_tensor_grad = _communicate(
             tensor_send_next=output_tensor,
             tensor_send_prev=None,
             recv_prev=False,
-            recv_next=True)
+            recv_next=True,
+        )
         if timers is not None:
-            timers('forward-send-backward-recv').stop()
+            timers("forward-send-backward-recv").stop()
     return output_tensor_grad
 
 
@@ -209,56 +237,60 @@ def send_backward_recv_forward(input_tensor_grad, timers=None):
         input_tensor = None
     else:
         if timers is not None:
-            timers('backward-send-forward-recv').start()
+            timers("backward-send-forward-recv").start()
         input_tensor, _ = _communicate(
             tensor_send_next=None,
             tensor_send_prev=input_tensor_grad,
             recv_prev=True,
-            recv_next=False)
+            recv_next=False,
+        )
         if timers is not None:
-            timers('backward-send-forward-recv').stop()
+            timers("backward-send-forward-recv").stop()
     return input_tensor
 
 
 def send_forward_recv_forward(output_tensor, recv_prev, timers=None):
     """Batched recv from previous rank and send to next rank in pipeline."""
     if timers is not None:
-        timers('forward-send-forward-recv').start()
+        timers("forward-send-forward-recv").start()
     input_tensor, _ = _communicate(
         tensor_send_next=output_tensor,
         tensor_send_prev=None,
         recv_prev=recv_prev,
-        recv_next=False)
+        recv_next=False,
+    )
     if timers is not None:
-        timers('forward-send-forward-recv').stop()
+        timers("forward-send-forward-recv").stop()
     return input_tensor
 
 
 def send_backward_recv_backward(input_tensor_grad, recv_next, timers=None):
     """Batched recv from next rank and send to previous rank in pipeline."""
     if timers is not None:
-        timers('backward-send-backward-recv').start()
+        timers("backward-send-backward-recv").start()
     _, output_tensor_grad = _communicate(
         tensor_send_next=None,
         tensor_send_prev=input_tensor_grad,
         recv_prev=False,
-        recv_next=recv_next)
+        recv_next=recv_next,
+    )
     if timers is not None:
-        timers('backward-send-backward-recv').stop()
+        timers("backward-send-backward-recv").stop()
     return output_tensor_grad
 
 
 def send_forward_backward_recv_forward_backward(
-        output_tensor, input_tensor_grad, recv_prev,
-        recv_next, timers=None):
+    output_tensor, input_tensor_grad, recv_prev, recv_next, timers=None
+):
     """Batched send and recv with previous and next ranks in pipeline."""
     if timers is not None:
-        timers('forward-backward-send-forward-backward-recv').start()
+        timers("forward-backward-send-forward-backward-recv").start()
     input_tensor, output_tensor_grad = _communicate(
         tensor_send_next=output_tensor,
         tensor_send_prev=input_tensor_grad,
         recv_prev=recv_prev,
-        recv_next=recv_next)
+        recv_next=recv_next,
+    )
     if timers is not None:
-        timers('forward-backward-send-forward-backward-recv').stop()
+        timers("forward-backward-send-forward-backward-recv").stop()
     return input_tensor, output_tensor_grad
diff --git a/megatron/profiler.py b/megatron/profiler.py
new file mode 100644
index 00000000000..1d4b8b133df
--- /dev/null
+++ b/megatron/profiler.py
@@ -0,0 +1,69 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
+
+import torch
+
+on_step_begin = []
+on_step_end = []
+
+
+def trigger(phase):
+    [f() for f in phase]
+
+
+def setup_profiler(args, device):
+    if args.profile is None:
+        return
+
+    start_step, end_step = map(int, args.profile_steps.split(","))
+    active_steps = end_step - start_step + 1
+    cur_step = 0
+
+    def on_step_begin_fn():
+        nonlocal cur_step
+        cur_step = cur_step + 1
+
+    on_step_begin.append(on_step_begin_fn)
+
+    def when(cond, clbk):
+        def fn():
+            if cond():
+                clbk()
+
+        return fn
+
+    def is_start_step():
+        return cur_step == start_step
+
+    def is_end_step():
+        return cur_step == end_step
+
+    def is_capture_step():
+        return cur_step >= start_step and cur_step <= end_step
+
+    if args.profile.startswith("pt") and (
+        args.profile_ranks is None or torch.distributed.get_rank() in args.profile_ranks
+    ):
+        schedule = torch.profiler.schedule(
+            wait=0, warmup=0, active=active_steps, repeat=1
+        )
+        activities = [torch.profiler.ProfilerActivity.CPU]
+        activities.extend(
+            [torch.profiler.ProfilerActivity.HPU] if device.startswith("hpu") else []
+        )
+        activities.extend(
+            [torch.profiler.ProfilerActivity.CUDA] if device.startswith("cuda") else []
+        )
+        full = args.profile == "pt-full"
+
+        profiler = torch.profiler.profile(
+            schedule=schedule,
+            activities=activities,
+            on_trace_ready=torch.profiler.tensorboard_trace_handler(
+                args.tensorboard_dir, use_gzip=True
+            ),
+            with_stack=full,
+        )
+
+        on_step_begin.append(when(is_start_step, profiler.start))
+        on_step_end.append(when(is_capture_step, profiler.step))
+        on_step_end.append(when(is_end_step, profiler.stop))
diff --git a/megatron/text_generation/__init__.py b/megatron/text_generation/__init__.py
index 77da7be30ae..73b9a41822f 100644
--- a/megatron/text_generation/__init__.py
+++ b/megatron/text_generation/__init__.py
@@ -1,7 +1,4 @@
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 
-from .api import (
-    generate,
-    generate_and_post_process,
-    beam_search_and_post_process)
+from .api import (generate, generate_and_post_process, beam_search_and_post_process)
diff --git a/megatron/text_generation/api.py b/megatron/text_generation/api.py
index 090b630a5f3..ea9676e49be 100644
--- a/megatron/text_generation/api.py
+++ b/megatron/text_generation/api.py
@@ -8,28 +8,30 @@
 from megatron.core import mpu
 from .communication import broadcast_float_list
 from .generation import (
-        generate_tokens_probs_and_return_on_first_stage,
-        score_and_return_on_first_stage,
-        beam_search_and_return_on_first_stage)
-from .tokenization import (
-    tokenize_prompts,
-    detokenize_generations)
-
-def generate_and_post_process(model,
-                              prompts=None,
-                              tokens_to_generate=0,
-                              return_output_log_probs=False,
-                              top_k_sampling=0,
-                              top_p_sampling=0.0,
-                              top_p_decay=0.0,
-                              top_p_bound=0.0,
-                              temperature=1.0,
-                              add_BOS=False,
-                              use_eod_token_for_early_termination=True,
-                              stop_on_double_eol=False,
-                              stop_on_eol=False,
-                              prevent_newline_after_colon=False,
-                              random_seed=-1):
+    generate_tokens_probs_and_return_on_first_stage,
+    score_and_return_on_first_stage,
+    beam_search_and_return_on_first_stage,
+)
+from .tokenization import (tokenize_prompts, detokenize_generations)
+
+
+def generate_and_post_process(
+    model,
+    prompts=None,
+    tokens_to_generate=0,
+    return_output_log_probs=False,
+    top_k_sampling=0,
+    top_p_sampling=0.0,
+    top_p_decay=0.0,
+    top_p_bound=0.0,
+    temperature=1.0,
+    add_BOS=False,
+    use_eod_token_for_early_termination=True,
+    stop_on_double_eol=False,
+    stop_on_eol=False,
+    prevent_newline_after_colon=False,
+    random_seed=-1,
+):
     """Run inference and post-process outputs, i.e., detokenize,
     move to cpu and convert to list."""
 
@@ -49,55 +51,73 @@ def generate_and_post_process(model,
         stop_on_double_eol=stop_on_double_eol,
         stop_on_eol=stop_on_eol,
         prevent_newline_after_colon=prevent_newline_after_colon,
-        random_seed=random_seed)
+        random_seed=random_seed,
+    )
 
     # Only post-process on first stage.
     if mpu.is_pipeline_first_stage():
-        tokens, prompts_plus_generations, prompts_plus_generations_segments = \
+        tokens, prompts_plus_generations, prompts_plus_generations_segments = (
             detokenize_generations(tokens, lengths, True)
+        )
 
         if return_output_log_probs:
             output_log_probs = output_log_probs.cpu().numpy().tolist()
-            for i, (prob, seg) in enumerate(zip(output_log_probs, prompts_plus_generations_segments)):
-                output_log_probs[i] = prob[:len(seg)-1]
-
-        return prompts_plus_generations, prompts_plus_generations_segments, \
-            output_log_probs, tokens
+            for i, (prob, seg) in enumerate(
+                zip(output_log_probs, prompts_plus_generations_segments)
+            ):
+                output_log_probs[i] = prob[: len(seg) - 1]
+
+        return (
+            prompts_plus_generations,
+            prompts_plus_generations_segments,
+            output_log_probs,
+            tokens,
+        )
 
     return None
 
-def generate(model,
-             prompts=None,
-             tokens_to_generate=0,
-             return_output_log_probs=False,
-             top_k_sampling=0,
-             top_p_sampling=0.0,
-             top_p_decay=0.0,
-             top_p_bound=0.0,
-             temperature=1.0,
-             add_BOS=False,
-             use_eod_token_for_early_termination=True,
-             stop_on_double_eol=False,
-             stop_on_eol=False,
-             prevent_newline_after_colon=False,
-             random_seed=-1):
+
+def generate(
+    model,
+    prompts=None,
+    tokens_to_generate=0,
+    return_output_log_probs=False,
+    top_k_sampling=0,
+    top_p_sampling=0.0,
+    top_p_decay=0.0,
+    top_p_bound=0.0,
+    temperature=1.0,
+    add_BOS=False,
+    use_eod_token_for_early_termination=True,
+    stop_on_double_eol=False,
+    stop_on_eol=False,
+    prevent_newline_after_colon=False,
+    random_seed=-1,
+):
     """Given prompts and input parameters, run inference and return:
-       tokens: prompts plus the generated tokens.
-       lengths: length of the prompt + generations. Note that we can
-           discard tokens in the tokens tensor that are after the
-           corresponding length.
-       output_log_probs: log probs of the tokens.
+    tokens: prompts plus the generated tokens.
+    lengths: length of the prompt + generations. Note that we can
+        discard tokens in the tokens tensor that are after the
+        corresponding length.
+    output_log_probs: log probs of the tokens.
     """
 
     # Make sure input params are avaialble to all ranks.
-    values = [tokens_to_generate,
-              return_output_log_probs,
-              top_k_sampling, top_p_sampling, top_p_decay, top_p_bound,
-              temperature, add_BOS, use_eod_token_for_early_termination,
-              stop_on_double_eol,
-              stop_on_eol,
-              prevent_newline_after_colon,
-              random_seed]
+    values = [
+        tokens_to_generate,
+        return_output_log_probs,
+        top_k_sampling,
+        top_p_sampling,
+        top_p_decay,
+        top_p_bound,
+        temperature,
+        add_BOS,
+        use_eod_token_for_early_termination,
+        stop_on_double_eol,
+        stop_on_eol,
+        prevent_newline_after_colon,
+        random_seed,
+    ]
     values_float_tensor = broadcast_float_list(len(values), float_list=values)
     tokens_to_generate = int(values_float_tensor[0].item())
     return_output_log_probs = bool(values_float_tensor[1].item())
@@ -120,18 +140,22 @@ def generate(model,
     # Note that these tensors are broadcaseted to all ranks.
     if torch.distributed.get_rank() == 0:
         assert prompts is not None
-    
+
     context_tokens_tensor, context_length_tensor = tokenize_prompts(
-        prompts=prompts, tokens_to_generate=tokens_to_generate, add_BOS=add_BOS)
+        prompts=prompts, tokens_to_generate=tokens_to_generate, add_BOS=add_BOS
+    )
 
     if tokens_to_generate == 0:
         return score_and_return_on_first_stage(
-            model, context_tokens_tensor, context_length_tensor)
-    
+            model, context_tokens_tensor, context_length_tensor
+        )
+
     # Main inference function.
     # Note that the outputs are available on the first stage.
     return generate_tokens_probs_and_return_on_first_stage(
-        model, context_tokens_tensor, context_length_tensor,
+        model,
+        context_tokens_tensor,
+        context_length_tensor,
         return_output_log_probs=return_output_log_probs,
         top_k=top_k_sampling,
         top_p=top_p_sampling,
@@ -141,48 +165,71 @@ def generate(model,
         use_eod_token_for_early_termination=use_eod_token_for_early_termination,
         stop_on_double_eol=stop_on_double_eol,
         stop_on_eol=stop_on_eol,
-        prevent_newline_after_colon=prevent_newline_after_colon)
-
-def beam_search_and_post_process(model,
-                                 prompts=None,
-                                 tokens_to_generate=0,
-                                 beam_size=0,
-                                 add_BOS=False,
-                                 stop_token=50256,
-                                 num_return_gen=1,
-                                 length_penalty=1,
-                                 prevent_newline_after_colon=False):
+        prevent_newline_after_colon=prevent_newline_after_colon,
+    )
+
+
+def beam_search_and_post_process(
+    model,
+    prompts=None,
+    tokens_to_generate=0,
+    beam_size=0,
+    add_BOS=False,
+    stop_token=50256,
+    num_return_gen=1,
+    length_penalty=1,
+    prevent_newline_after_colon=False,
+):
     """Run beam search and post-process outputs, i.e., detokenize,
     move to cpu and convert to list."""
 
     # Main inference.
-    tokens, scores = beam_search(model,
-                                 prompts=prompts,
-                                 tokens_to_generate=tokens_to_generate,
-                                 beam_size=beam_size,
-                                 add_BOS=add_BOS,
-                                 stop_token=stop_token,
-                                 num_return_gen=num_return_gen,
-                                 length_penalty=length_penalty,
-                                 prevent_newline_after_colon=prevent_newline_after_colon)
+    tokens, scores = beam_search(
+        model,
+        prompts=prompts,
+        tokens_to_generate=tokens_to_generate,
+        beam_size=beam_size,
+        add_BOS=add_BOS,
+        stop_token=stop_token,
+        num_return_gen=num_return_gen,
+        length_penalty=length_penalty,
+        prevent_newline_after_colon=prevent_newline_after_colon,
+    )
     # Only post-process on first stage.
     if mpu.is_pipeline_first_stage():
-        lengths = tokens.size(1)*torch.ones(beam_size, dtype=torch.int64, device=torch.cuda.current_device()) 
-        tokens, prompts_plus_generations, prompts_plus_generations_segments = detokenize_generations(tokens, lengths, True)
+        lengths = tokens.size(1) * torch.ones(
+            beam_size, dtype=torch.int64, device=torch.cuda.current_device()
+        )
+        tokens, prompts_plus_generations, prompts_plus_generations_segments = (
+            detokenize_generations(tokens, lengths, True)
+        )
         scores = scores.cpu().numpy().tolist()
         return prompts_plus_generations, prompts_plus_generations_segments, scores
 
     return None
 
-def beam_search(model, prompts=None, tokens_to_generate=0, beam_size=0, add_BOS=False, stop_token=50256, num_return_gen=1, length_penalty=1, prevent_newline_after_colon=False):
+
+def beam_search(
+    model,
+    prompts=None,
+    tokens_to_generate=0,
+    beam_size=0,
+    add_BOS=False,
+    stop_token=50256,
+    num_return_gen=1,
+    length_penalty=1,
+    prevent_newline_after_colon=False,
+):
     # Make sure input params are avaialble to all ranks.
-    values = [tokens_to_generate,
-              beam_size,
-              add_BOS,
-              stop_token,
-              num_return_gen,
-              length_penalty,
-              prevent_newline_after_colon]
+    values = [
+        tokens_to_generate,
+        beam_size,
+        add_BOS,
+        stop_token,
+        num_return_gen,
+        length_penalty,
+        prevent_newline_after_colon,
+    ]
     values_float_tensor = broadcast_float_list(len(values), float_list=values)
     tokens_to_generate = int(values_float_tensor[0].item())
     beam_size = int(values_float_tensor[1].item())
@@ -193,8 +240,16 @@ def beam_search(model, prompts=None, tokens_to_generate=0, beam_size=0, add_BOS=
     prevent_newline_after_colon = values_float_tensor[6].item()
 
     context_tokens_tensor, context_length_tensor = tokenize_prompts(
-        prompts=prompts, tokens_to_generate=tokens_to_generate, add_BOS=add_BOS)
-    
-    return beam_search_and_return_on_first_stage(model, context_tokens_tensor, context_length_tensor, 
-            beam_size, stop_token=stop_token, num_return_gen=num_return_gen, length_penalty=length_penalty,
-            prevent_newline_after_colon=prevent_newline_after_colon)
+        prompts=prompts, tokens_to_generate=tokens_to_generate, add_BOS=add_BOS
+    )
+
+    return beam_search_and_return_on_first_stage(
+        model,
+        context_tokens_tensor,
+        context_length_tensor,
+        beam_size,
+        stop_token=stop_token,
+        num_return_gen=num_return_gen,
+        length_penalty=length_penalty,
+        prevent_newline_after_colon=prevent_newline_after_colon,
+    )
diff --git a/megatron/text_generation/beam_utils.py b/megatron/text_generation/beam_utils.py
index 911a64143a8..85de99dfd9f 100644
--- a/megatron/text_generation/beam_utils.py
+++ b/megatron/text_generation/beam_utils.py
@@ -17,6 +17,7 @@
 
 ## from huggingface beam search
 class BeamHypotheses(object):
+
     def __init__(self, num_beams, length_penalty=1.0, early_stopping=False):
         """
         Initialize n-best list of hypotheses.
@@ -37,11 +38,13 @@ def add(self, hyp, sum_logprobs, length):
         """
         Add a new hypothesis to the list.
         """
-        score = sum_logprobs / length ** self.length_penalty
+        score = sum_logprobs / length**self.length_penalty
         if len(self) < self.num_beams or score > self.worst_score:
             self.beams.append((score, hyp))
             if len(self) > self.num_beams:
-                sorted_scores = sorted([(s, idx) for idx, (s, _) in enumerate(self.beams)])
+                sorted_scores = sorted(
+                    [(s, idx) for idx, (s, _) in enumerate(self.beams)]
+                )
                 del self.beams[sorted_scores[0][1]]
                 self.worst_score = sorted_scores[1][0]
             else:
@@ -58,7 +61,6 @@ def is_done(self, best_sum_logprobs, cur_len):
         elif self.early_stopping:
             return True
         else:
-            cur_score = best_sum_logprobs / cur_len ** self.length_penalty
+            cur_score = best_sum_logprobs / cur_len**self.length_penalty
             ret = self.worst_score >= cur_score
             return ret
-
diff --git a/megatron/text_generation/communication.py b/megatron/text_generation/communication.py
index dee32077f34..3479084f397 100644
--- a/megatron/text_generation/communication.py
+++ b/megatron/text_generation/communication.py
@@ -8,7 +8,6 @@
 from megatron.core import mpu
 
 
-
 # TODO: use functions from megatron/p2p
 def recv_from_prev_pipeline_rank_(recv_buffer=None):
     """Receive from previous pipeline stage and update the
@@ -16,8 +15,10 @@ def recv_from_prev_pipeline_rank_(recv_buffer=None):
     if not mpu.is_pipeline_first_stage():
         assert recv_buffer is not None
         recv_prev_op = torch.distributed.P2POp(
-            torch.distributed.irecv, recv_buffer,
-            mpu.get_pipeline_model_parallel_prev_rank())
+            torch.distributed.irecv,
+            recv_buffer,
+            mpu.get_pipeline_model_parallel_prev_rank(),
+        )
         reqs = torch.distributed.batch_isend_irecv([recv_prev_op])
         for req in reqs:
             req.wait()
@@ -25,15 +26,14 @@ def recv_from_prev_pipeline_rank_(recv_buffer=None):
         torch.cuda.synchronize()
 
 
-
 # TODO: use functions from megatron/p2p
 def send_to_next_pipeline_rank(tensor=None):
     """Send output to the next pipeline stage."""
     if not mpu.is_pipeline_last_stage():
         assert tensor is not None
         send_next_op = torch.distributed.P2POp(
-            torch.distributed.isend, tensor,
-            mpu.get_pipeline_model_parallel_next_rank())
+            torch.distributed.isend, tensor, mpu.get_pipeline_model_parallel_next_rank()
+        )
         reqs = torch.distributed.batch_isend_irecv([send_next_op])
         for req in reqs:
             req.wait()
@@ -41,21 +41,18 @@ def send_to_next_pipeline_rank(tensor=None):
         torch.cuda.synchronize()
 
 
-
 def _is_cuda(tensor):
     """Check if a tensor is not none and is cuda."""
     assert tensor is not None
     assert tensor.is_cuda
 
 
-
 def _is_cuda_contiguous(tensor):
     """Check if a tensor is not none, is cuda, and is contiguous."""
     _is_cuda(tensor)
     assert tensor.is_contiguous()
 
 
-
 def broadcast_from_last_pipeline_stage(size, dtype, tensor=None):
     """Broadcast a tensor from last pipeline stage to all ranks."""
 
@@ -68,9 +65,7 @@ def broadcast_from_last_pipeline_stage(size, dtype, tensor=None):
     if is_last_stage:
         _is_cuda_contiguous(tensor)
     else:
-        tensor = torch.empty(size,
-                             dtype=dtype,
-                             device=torch.cuda.current_device())
+        tensor = torch.empty(size, dtype=dtype, device=torch.cuda.current_device())
     # Get the group and corresponding source rank.
     src = mpu.get_pipeline_model_parallel_last_rank()
     group = mpu.get_pipeline_model_parallel_group()
@@ -79,7 +74,6 @@ def broadcast_from_last_pipeline_stage(size, dtype, tensor=None):
     return tensor
 
 
-
 def broadcast_from_last_to_first_pipeline_stage(size, dtype, tensor=None):
     """Broadcast tensor values from last stage into the first stage."""
 
@@ -94,9 +88,7 @@ def broadcast_from_last_to_first_pipeline_stage(size, dtype, tensor=None):
         if is_last_stage:
             _is_cuda_contiguous(tensor)
         else:
-            tensor = torch.empty(size,
-                                 dtype=dtype,
-                                 device=torch.cuda.current_device())
+            tensor = torch.empty(size, dtype=dtype, device=torch.cuda.current_device())
         src = mpu.get_pipeline_model_parallel_last_rank()
         group = mpu.get_embedding_group()
         # Broadcast from last stage into the first stage.
@@ -107,7 +99,6 @@ def broadcast_from_last_to_first_pipeline_stage(size, dtype, tensor=None):
     return tensor
 
 
-
 def copy_from_last_to_first_pipeline_stage(size, dtype, tensor=None):
     """Copy tensor values from last stage into the first stage.
     Note that the input tensor is updated in place."""
@@ -130,9 +121,9 @@ def copy_from_last_to_first_pipeline_stage(size, dtype, tensor=None):
             if is_last_stage:
                 tensor_ = tensor.contiguous()
             else:
-                tensor_ = torch.empty(size,
-                                      dtype=dtype,
-                                      device=torch.cuda.current_device())
+                tensor_ = torch.empty(
+                    size, dtype=dtype, device=torch.cuda.current_device()
+                )
         # Broadcast from last stage into the first stage.
         torch.distributed.broadcast(tensor_, src, group)
         # Update the first stage tensor
@@ -140,46 +131,40 @@ def copy_from_last_to_first_pipeline_stage(size, dtype, tensor=None):
             tensor[...] = tensor_
 
 
-
 def broadcast_tensor(size, dtype, tensor=None, rank=0):
-    """ Given size and type of a tensor on all ranks and the tensor value
-        only on a specific rank, broadcast from that rank to all other ranks.
+    """Given size and type of a tensor on all ranks and the tensor value
+    only on a specific rank, broadcast from that rank to all other ranks.
     """
 
     if torch.distributed.get_rank() == rank:
         _is_cuda_contiguous(tensor)
     else:
-        tensor = torch.empty(size,
-                             dtype=dtype,
-                             device=torch.cuda.current_device())
+        tensor = torch.empty(size, dtype=dtype, device=torch.cuda.current_device())
 
     torch.distributed.broadcast(tensor, rank)
 
     return tensor
 
 
-
 def broadcast_list(size, dtype, list_values=None, rank=0):
     """Broadcast a list of values with a given type."""
 
     tensor = None
     if torch.distributed.get_rank() == rank:
-        tensor = torch.tensor(list_values, dtype=dtype,
-                              device=torch.cuda.current_device())
+        tensor = torch.tensor(
+            list_values, dtype=dtype, device=torch.cuda.current_device()
+        )
 
     return broadcast_tensor(size, dtype, tensor=tensor, rank=rank)
 
 
-
 def broadcast_int_list(size, int_list=None, rank=0):
     """Broadcast a list of interger values."""
 
     return broadcast_list(size, torch.int64, list_values=int_list, rank=rank)
 
 
-
 def broadcast_float_list(size, float_list=None, rank=0):
     """Broadcast a list of float values."""
 
-    return broadcast_list(size, torch.float32, list_values=float_list,
-                          rank=rank)
+    return broadcast_list(size, torch.float32, list_values=float_list, rank=rank)
diff --git a/megatron/text_generation/forward_step.py b/megatron/text_generation/forward_step.py
index feb087cbb61..43fc45f4a7b 100644
--- a/megatron/text_generation/forward_step.py
+++ b/megatron/text_generation/forward_step.py
@@ -8,10 +8,7 @@
 
 from megatron import get_args
 from megatron.core import mpu
-from .communication import (
-    send_to_next_pipeline_rank,
-    recv_from_prev_pipeline_rank_)
-
+from .communication import (send_to_next_pipeline_rank, recv_from_prev_pipeline_rank_)
 
 
 class InferenceParams:
@@ -32,14 +29,21 @@ def swap_key_value_dict(self, batch_idx):
         "swap between batches"
         if len(self.key_value_memory_dict) == 0:
             raise ValueError("should not swap when dict in empty")
-        
+
         for layer_number in self.key_value_memory_dict.keys():
-            inference_key_memory, inference_value_memory = self.key_value_memory_dict[layer_number]
-            assert len(batch_idx) == inference_key_memory.shape[1] ## make sure batch size is the same
+            inference_key_memory, inference_value_memory = self.key_value_memory_dict[
+                layer_number
+            ]
+            assert (
+                len(batch_idx) == inference_key_memory.shape[1]
+            )  ## make sure batch size is the same
             new_inference_key_memory = inference_key_memory[:, batch_idx]
             new_inference_value_memory = inference_value_memory[:, batch_idx]
             self.key_value_memory_dict[layer_number] = (
-                    new_inference_key_memory, new_inference_value_memory)
+                new_inference_key_memory,
+                new_inference_value_memory,
+            )
+
 
 class ForwardStep:
     """Forward step function with all the communications.
@@ -49,21 +53,18 @@ class ForwardStep:
     def __init__(self, model, max_batch_size, max_sequence_len):
         """Set values so we don't need to do it multiple times."""
         # Make sure model is in eval mode.
-        assert not isinstance(model, Iterable), \
-            'interleaving schedule is not supported for inference'
+        assert not isinstance(
+            model, Iterable
+        ), "interleaving schedule is not supported for inference"
         model.eval()
         self.model = model
         # Initialize inference parameters.
-        self.inference_params = InferenceParams(max_batch_size,
-                                                max_sequence_len)
+        self.inference_params = InferenceParams(max_batch_size, max_sequence_len)
         # Pipelining arguments.
         args = get_args()
-        self.pipeline_size_larger_than_one = (
-            args.pipeline_model_parallel_size > 1)
+        self.pipeline_size_larger_than_one = args.pipeline_model_parallel_size > 1
         # Threshold of pipelining.
-        self.pipelining_batch_x_seqlen = \
-            args.inference_batch_times_seqlen_threshold
-
+        self.pipelining_batch_x_seqlen = args.inference_batch_times_seqlen_threshold
 
     def __call__(self, tokens, position_ids, attention_mask):
         """Invocation of the forward methods. Note that self.inference_params
@@ -72,21 +73,21 @@ def __call__(self, tokens, position_ids, attention_mask):
         if self.pipeline_size_larger_than_one:
             current_batch_x_seqlen = tokens.size(0) * tokens.size(1)
             if current_batch_x_seqlen >= self.pipelining_batch_x_seqlen:
-                micro_batch_size = \
-                    max(1, self.pipelining_batch_x_seqlen // tokens.size(1))
-                return _with_pipelining_forward_step(self.model,
-                                                     tokens,
-                                                     position_ids,
-                                                     attention_mask,
-                                                     self.inference_params,
-                                                     micro_batch_size)
-
-        return _no_pipelining_forward_step(self.model,
-                                           tokens,
-                                           position_ids,
-                                           attention_mask,
-                                           self.inference_params)
-
+                micro_batch_size = max(
+                    1, self.pipelining_batch_x_seqlen // tokens.size(1)
+                )
+                return _with_pipelining_forward_step(
+                    self.model,
+                    tokens,
+                    position_ids,
+                    attention_mask,
+                    self.inference_params,
+                    micro_batch_size,
+                )
+
+        return _no_pipelining_forward_step(
+            self.model, tokens, position_ids, attention_mask, self.inference_params
+        )
 
 
 def _get_recv_buffer_dtype(args):
@@ -96,21 +97,22 @@ def _get_recv_buffer_dtype(args):
     return args.params_dtype
 
 
-
 def _allocate_recv_buffer(batch_size, sequence_length):
     """Receive happens between the layers with size [s, b, h]."""
     if mpu.is_pipeline_first_stage():
         return None
     args = get_args()
     recv_size = (sequence_length, batch_size, args.hidden_size)
-    return torch.empty(recv_size,
-                       dtype=_get_recv_buffer_dtype(args),
-                       device=torch.cuda.current_device())
-
+    return torch.empty(
+        recv_size,
+        dtype=_get_recv_buffer_dtype(args),
+        device=torch.cuda.current_device(),
+    )
 
 
-def _forward_step_helper(model, tokens, position_ids, attention_mask,
-                         inference_params, recv_buffer=None):
+def _forward_step_helper(
+    model, tokens, position_ids, attention_mask, inference_params, recv_buffer=None
+):
     """Single forward step. Update the allocate memory flag so
     only the first time the memory is allocated."""
     batch_size = tokens.size(0)
@@ -123,8 +125,9 @@ def _forward_step_helper(model, tokens, position_ids, attention_mask,
 
     # Forward pass through the model.
     model.set_input_tensor(recv_buffer)
-    output_tensor = model(tokens, position_ids, attention_mask,
-                          inference_params=inference_params)
+    output_tensor = model(
+        tokens, position_ids, attention_mask, inference_params=inference_params
+    )
 
     # Send output to the next stage.
     send_to_next_pipeline_rank(output_tensor)
@@ -132,14 +135,19 @@ def _forward_step_helper(model, tokens, position_ids, attention_mask,
     return output_tensor
 
 
-
-def _no_pipelining_forward_step(model, tokens, position_ids, attention_mask,
-                                inference_params, recv_buffer=None):
+def _no_pipelining_forward_step(
+    model, tokens, position_ids, attention_mask, inference_params, recv_buffer=None
+):
     """If recv_buffer is none, we will allocate one on the fly."""
     # Run a simple forward pass.
-    output_tensor = _forward_step_helper(model, tokens, position_ids,
-                                         attention_mask, inference_params,
-                                         recv_buffer=recv_buffer)
+    output_tensor = _forward_step_helper(
+        model,
+        tokens,
+        position_ids,
+        attention_mask,
+        inference_params,
+        recv_buffer=recv_buffer,
+    )
     # Update the sequence length offset.
     inference_params.sequence_len_offset += tokens.size(1)
 
@@ -150,16 +158,15 @@ def _no_pipelining_forward_step(model, tokens, position_ids, attention_mask,
     return logits
 
 
-
-def _with_pipelining_forward_step(model, tokens, position_ids, attention_mask,
-                                  inference_params, micro_batch_size):
+def _with_pipelining_forward_step(
+    model, tokens, position_ids, attention_mask, inference_params, micro_batch_size
+):
     """No interleaving is supported."""
     sequence_length = tokens.size(1)
     batch_size = tokens.size(0)
 
     # Divide the batch dimension into micro batches.
-    num_micro_batches, last_chunk = divmod(batch_size,
-                                           micro_batch_size)
+    num_micro_batches, last_chunk = divmod(batch_size, micro_batch_size)
     if last_chunk > 0:
         num_micro_batches += 1
 
@@ -169,7 +176,9 @@ def _with_pipelining_forward_step(model, tokens, position_ids, attention_mask,
         args = get_args()
         logits = torch.empty(
             (batch_size, sequence_length, args.padded_vocab_size),
-            dtype=torch.float32, device=torch.cuda.current_device())
+            dtype=torch.float32,
+            device=torch.cuda.current_device(),
+        )
 
     # Preallocate recv buffer.
     recv_buffer = _allocate_recv_buffer(micro_batch_size, sequence_length)
@@ -185,9 +194,14 @@ def _with_pipelining_forward_step(model, tokens, position_ids, attention_mask,
         # Run a simple forward pass.
         if this_micro_batch_size != micro_batch_size:
             recv_buffer = None
-        output = _forward_step_helper(model, tokens2use, position_ids2use,
-                                      attention_mask, inference_params,
-                                      recv_buffer=recv_buffer)
+        output = _forward_step_helper(
+            model,
+            tokens2use,
+            position_ids2use,
+            attention_mask,
+            inference_params,
+            recv_buffer=recv_buffer,
+        )
 
         # Adjust the batch size offset to account for the micro-batch.
         inference_params.batch_size_offset += this_micro_batch_size
diff --git a/megatron/text_generation/generation.py b/megatron/text_generation/generation.py
index 79c8b4d1af1..4a0ee1a2118 100644
--- a/megatron/text_generation/generation.py
+++ b/megatron/text_generation/generation.py
@@ -11,11 +11,13 @@
 from .communication import (
     copy_from_last_to_first_pipeline_stage,
     broadcast_from_last_pipeline_stage,
-    broadcast_from_last_to_first_pipeline_stage)
+    broadcast_from_last_to_first_pipeline_stage,
+)
 from .forward_step import ForwardStep
 from .sampling import sample
 from .beam_utils import BeamHypotheses
 
+
 def score_and_return_on_first_stage(model, tokens, lengths):
     """Function for just scoring.
     Arguments:
@@ -38,7 +40,12 @@ def score_and_return_on_first_stage(model, tokens, lengths):
         raise ValueError("Length of prompt + tokens_to_generate longer than allowed")
 
     if max_prompt_length * batch_size > args.max_tokens_to_oom:
-        raise ValueError("Too many tokens.  " + str(max_prompt_length*batch_size)+ " is greater than "+str(args.max_tokens_to_oom))
+        raise ValueError(
+            "Too many tokens.  "
+            + str(max_prompt_length * batch_size)
+            + " is greater than "
+            + str(args.max_tokens_to_oom)
+        )
 
     # forward step.
     forward_step = ForwardStep(model, batch_size, max_prompt_length)
@@ -52,9 +59,11 @@ def score_and_return_on_first_stage(model, tokens, lengths):
     output_log_probs_size = (batch_size, max_prompt_length - 1)
 
     if mpu.is_pipeline_last_stage():
-        output_log_probs = torch.empty(output_log_probs_size,
-                                       dtype=torch.float32,
-                                       device=torch.cuda.current_device())
+        output_log_probs = torch.empty(
+            output_log_probs_size,
+            dtype=torch.float32,
+            device=torch.cuda.current_device(),
+        )
 
     # =============
     # Run infernece
@@ -81,20 +90,27 @@ def score_and_return_on_first_stage(model, tokens, lengths):
     # Broadcast to the first pipeline stage.
     # ======================================
     output_log_probs = broadcast_from_last_to_first_pipeline_stage(
-        output_log_probs_size, torch.float32, output_log_probs)
+        output_log_probs_size, torch.float32, output_log_probs
+    )
 
     return tokens, lengths, output_log_probs
 
+
 def generate_tokens_probs_and_return_on_first_stage(
-        model, tokens, lengths,
-        return_output_log_probs=False,
-        top_k=0, top_p=0.0, top_p_decay=0.0, top_p_bound=0.0,
-        temperature=1.0,
-        use_eod_token_for_early_termination=True,
-        stop_on_double_eol=False,
-        stop_on_eol=False,
-        prevent_newline_after_colon=True
-        ):
+    model,
+    tokens,
+    lengths,
+    return_output_log_probs=False,
+    top_k=0,
+    top_p=0.0,
+    top_p_decay=0.0,
+    top_p_bound=0.0,
+    temperature=1.0,
+    use_eod_token_for_early_termination=True,
+    stop_on_double_eol=False,
+    stop_on_eol=False,
+    prevent_newline_after_colon=True,
+):
     """Main token generation function.
     Arguments:
         model: no interleaving is supported.
@@ -133,14 +149,19 @@ def generate_tokens_probs_and_return_on_first_stage(
         raise ValueError("Length of prompt + tokens_to_generate longer than allowed")
 
     if max_sequence_length * batch_size > args.max_tokens_to_oom:
-        raise ValueError("Too many tokens.  " + str(max_sequence_length*batch_size)+ " is greater than "+str(args.max_tokens_to_oom))
+        raise ValueError(
+            "Too many tokens.  "
+            + str(max_sequence_length * batch_size)
+            + " is greater than "
+            + str(args.max_tokens_to_oom)
+        )
 
     # forward step.
     forward_step = ForwardStep(model, batch_size, max_sequence_length)
 
     # Added termination_id to support the case that we want to terminate the
     # generation once that id is generated.
-    if hasattr(args, 'eos_id'):
+    if hasattr(args, "eos_id"):
         termination_id = args.eos_id
     else:
         termination_id = tokenizer.eod
@@ -156,24 +177,29 @@ def generate_tokens_probs_and_return_on_first_stage(
     generated_sequence_lengths = None
     if mpu.is_pipeline_last_stage():
         if return_output_log_probs:
-            output_log_probs = torch.empty(output_log_probs_size,
-                                           dtype=torch.float32,
-                                           device=torch.cuda.current_device())
-        generated_sequence_lengths = torch.ones(
-                batch_size, dtype=torch.int64,
-                device=torch.cuda.current_device()) * max_sequence_length
+            output_log_probs = torch.empty(
+                output_log_probs_size,
+                dtype=torch.float32,
+                device=torch.cuda.current_device(),
+            )
+        generated_sequence_lengths = (
+            torch.ones(
+                batch_size, dtype=torch.int64, device=torch.cuda.current_device()
+            )
+            * max_sequence_length
+        )
 
     # Whether we have reached a termination id.
-    is_generation_done = torch.zeros(batch_size, dtype=torch.uint8,
-                                     device=torch.cuda.current_device())
+    is_generation_done = torch.zeros(
+        batch_size, dtype=torch.uint8, device=torch.cuda.current_device()
+    )
 
     # =============
     # Run infernece
     # =============
 
     with torch.no_grad():
-        attention_mask, position_ids = _build_attention_mask_and_position_ids(
-            tokens)
+        attention_mask, position_ids = _build_attention_mask_and_position_ids(tokens)
         prev_context_length = 0
         for context_length in range(min_prompt_length, max_sequence_length):
 
@@ -181,7 +207,8 @@ def generate_tokens_probs_and_return_on_first_stage(
             tokens2use = tokens[:, prev_context_length:context_length]
             positions2use = position_ids[:, prev_context_length:context_length]
             attention_mask2use = attention_mask[
-                ..., prev_context_length:context_length, :context_length]
+                ..., prev_context_length:context_length, :context_length
+            ]
 
             # logits will be meanigful only in the last pipeline stage.
             logits = forward_step(tokens2use, positions2use, attention_mask2use)
@@ -189,17 +216,23 @@ def generate_tokens_probs_and_return_on_first_stage(
 
             if mpu.is_pipeline_last_stage():
                 if prevent_newline_after_colon:
-                    logits[tokens2use[:, -1] == tokenizer.tokenize(':')[0], -1, tokenizer.tokenize('\n')[0]] = -1e10 # disable "\n" after ":"
+                    logits[
+                        tokens2use[:, -1] == tokenizer.tokenize(":")[0],
+                        -1,
+                        tokenizer.tokenize("\n")[0],
+                    ] = -1e10  # disable "\n" after ":"
                 # Always the last stage should have an output.
                 assert logits is not None
 
                 # Sample.
                 last_token_logits = logits[:, -1, :]
-                new_sample = sample(last_token_logits,
-                                    top_k=top_k,
-                                    top_p=top_p,
-                                    temperature=temperature,
-                                    vocab_size=tokenizer.vocab_size)
+                new_sample = sample(
+                    last_token_logits,
+                    top_k=top_k,
+                    top_p=top_p,
+                    temperature=temperature,
+                    vocab_size=tokenizer.vocab_size,
+                )
                 if top_p > 0.0 and top_p_decay > 0.0:
                     top_p = top_p * top_p_decay
                     if top_p_bound > 0.0:
@@ -220,18 +253,18 @@ def generate_tokens_probs_and_return_on_first_stage(
                         # the token which we selected in the current logits,
                         # so shift by 1.
                         indices = torch.unsqueeze(
-                            tokens[
-                                :,
-                                (prev_context_length + 1):(context_length + 1)],
-                            2)
-                        output_log_probs[:,
-                                         prev_context_length:context_length] = \
+                            tokens[:, (prev_context_length + 1) : (context_length + 1)],
+                            2,
+                        )
+                        output_log_probs[:, prev_context_length:context_length] = (
                             torch.gather(log_probs, 2, indices).squeeze(2)
+                        )
 
             # Update the tokens on the first stage so the next input to
             # the network is correct.
-            copy_from_last_to_first_pipeline_stage(batch_size, torch.int64,
-                                                   tokens[:, context_length])
+            copy_from_last_to_first_pipeline_stage(
+                batch_size, torch.int64, tokens[:, context_length]
+            )
 
             # Update the context length for the next token generation.
             prev_context_length = context_length
@@ -243,23 +276,24 @@ def generate_tokens_probs_and_return_on_first_stage(
                 # instead tokenization should be in the inference loop so stop sequences can be used
                 if stop_on_double_eol:
                     hit_double_eol = (new_sample == 628).byte() & started.byte()
-                    hit_two_eols = (new_sample == 198).byte() & (tokens[:, context_length-1] == 198).byte() & started.byte()
+                    hit_two_eols = (
+                        (new_sample == 198).byte()
+                        & (tokens[:, context_length - 1] == 198).byte()
+                        & started.byte()
+                    )
                     done_token = hit_double_eol | hit_two_eols
                 elif stop_on_eol:
                     hit_double_eol = (new_sample == 628).byte() & started.byte()
                     hit_eol = (new_sample == 198).byte() & started.byte()
                     done_token = hit_double_eol | hit_eol
                 else:
-                    done_token = (new_sample == termination_id).byte() & \
-                        started.byte()
+                    done_token = (new_sample == termination_id).byte() & started.byte()
 
                 just_finished = (done_token & ~is_generation_done).bool()
-                generated_sequence_lengths[just_finished.view(-1)] = \
-                    context_length + 1
+                generated_sequence_lengths[just_finished.view(-1)] = context_length + 1
                 is_generation_done = is_generation_done | done_token
                 done = torch.all(is_generation_done)
-            done = broadcast_from_last_pipeline_stage(1, torch.uint8,
-                                                      tensor=done)
+            done = broadcast_from_last_pipeline_stage(1, torch.uint8, tensor=done)
             if use_eod_token_for_early_termination and done:
                 break
 
@@ -267,7 +301,7 @@ def generate_tokens_probs_and_return_on_first_stage(
     # Update the length of based on max generated length.
     # ===================================================
 
-    tokens = tokens[:, :(context_length + 1)]
+    tokens = tokens[:, : (context_length + 1)]
     if mpu.is_pipeline_last_stage():
         if return_output_log_probs:
             output_log_probs = output_log_probs[:, :context_length]
@@ -277,20 +311,32 @@ def generate_tokens_probs_and_return_on_first_stage(
     # ======================================
 
     generated_sequence_lengths = broadcast_from_last_to_first_pipeline_stage(
-        batch_size, torch.int64, generated_sequence_lengths)
+        batch_size, torch.int64, generated_sequence_lengths
+    )
     if return_output_log_probs:
         output_log_probs_size = (batch_size, context_length)
         output_log_probs = broadcast_from_last_to_first_pipeline_stage(
-            output_log_probs_size, torch.float32, output_log_probs)
+            output_log_probs_size, torch.float32, output_log_probs
+        )
 
     return tokens, generated_sequence_lengths, output_log_probs
 
-def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, stop_token, num_return_gen, length_penalty, prevent_newline_after_colon=True):
+
+def beam_search_and_return_on_first_stage(
+    model,
+    tokens,
+    lengths,
+    beam_size,
+    stop_token,
+    num_return_gen,
+    length_penalty,
+    prevent_newline_after_colon=True,
+):
     args = get_args()
     tokenizer = get_tokenizer()
 
     batch_size = tokens.size(0)
-    assert(batch_size == 1)
+    assert batch_size == 1
     prompt_length = lengths.item()
     final_sequence_length = tokens.size(1)
     final_sequence_length = min(final_sequence_length, args.max_position_embeddings)
@@ -305,9 +351,9 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
     beam_hyp = BeamHypotheses(beam_size, length_penalty)
     best_batches = None
     done = torch.zeros(1, dtype=torch.uint8, device=torch.cuda.current_device())
-    scores = torch.zeros(beam_size,
-                         dtype=torch.float32,
-                         device=torch.cuda.current_device()).unsqueeze(1)
+    scores = torch.zeros(
+        beam_size, dtype=torch.float32, device=torch.cuda.current_device()
+    ).unsqueeze(1)
     scores_size_tensor, tokens_size_tensor = None, None
     # =============
     # Run infernece
@@ -322,25 +368,36 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
             tokens2use = tokens[:, prev_context_length:context_length]
             positions2use = position_ids[:, prev_context_length:context_length]
             attention_mask2use = attention_mask[
-                ..., prev_context_length:context_length, :context_length]
+                ..., prev_context_length:context_length, :context_length
+            ]
 
             # logits will be meanigful only in the last pipeline stage.
             logits = forward_step(tokens2use, positions2use, attention_mask2use)
 
             if mpu.is_pipeline_last_stage():
                 if prevent_newline_after_colon:
-                    logits[tokens2use[:, -1] == tokenizer.tokenize(':')[0], -1, tokenizer.tokenize('\n')[0]] = -1e10 # disable "\n" after ":"
+                    logits[
+                        tokens2use[:, -1] == tokenizer.tokenize(":")[0],
+                        -1,
+                        tokenizer.tokenize("\n")[0],
+                    ] = -1e10  # disable "\n" after ":"
                 vocab_size = logits.size(2)
                 log_probs = F.log_softmax(logits, dim=2)
                 new_scores = log_probs[:, -1, :] + scores
 
                 if context_length == prompt_length:  # if this is the first one
-                    sorted_scores, indices = torch.sort(new_scores[0,:], descending=True)
+                    sorted_scores, indices = torch.sort(
+                        new_scores[0, :], descending=True
+                    )
                 else:
-                    sorted_scores, indices = torch.sort(new_scores.view(-1), descending=True)
-
-                best_beam_ids = torch.div(indices[: 2 * beam_size], vocab_size).trunc().long()
-                best_words = indices[:2 * beam_size] % vocab_size
+                    sorted_scores, indices = torch.sort(
+                        new_scores.view(-1), descending=True
+                    )
+
+                best_beam_ids = (
+                    torch.div(indices[: 2 * beam_size], vocab_size).trunc().long()
+                )
+                best_words = indices[: 2 * beam_size] % vocab_size
                 best_scores = sorted_scores[: 2 * beam_size]
 
                 next_beams = []
@@ -349,13 +406,15 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
                 ):
                     if token_id.item() == stop_token:
                         # if beam_token does not belong to top num_beams tokens, it should not be added
-                        is_beam_token_worse_than_top_num_beams = beam_token_rank >= beam_size
+                        is_beam_token_worse_than_top_num_beams = (
+                            beam_token_rank >= beam_size
+                        )
                         if is_beam_token_worse_than_top_num_beams:
                             continue
                         beam_hyp.add(
                             tokens[beam_id].clone(),
                             beam_score,
-                            context_length + 1 - prompt_length
+                            context_length + 1 - prompt_length,
                         )
                     else:
                         # add next predicted token since it is not eos_token
@@ -364,11 +423,15 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
                     if len(next_beams) == beam_size:
                         break
 
-                if beam_hyp.is_done(best_scores.max().item(), context_length + 1 - prompt_length):
-                    done = torch.ones(1, dtype=torch.uint8, device=torch.cuda.current_device())
+                if beam_hyp.is_done(
+                    best_scores.max().item(), context_length + 1 - prompt_length
+                ):
+                    done = torch.ones(
+                        1, dtype=torch.uint8, device=torch.cuda.current_device()
+                    )
 
                 best_batches = tokens.new([item[2] for item in next_beams])
-                tokens = tokens[best_batches,:]
+                tokens = tokens[best_batches, :]
                 tokens[:, context_length] = tokens.new([item[0] for item in next_beams])
                 scores = scores.new([item[1] for item in next_beams]).unsqueeze(1)
 
@@ -379,11 +442,12 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
 
             # Update the tokens on the first stage so the next input to
             # the network is correct.
-            copy_from_last_to_first_pipeline_stage(tokens.size(), torch.int64,
-                                                   tokens)
+            copy_from_last_to_first_pipeline_stage(tokens.size(), torch.int64, tokens)
 
             # set inference key values to make it consistent with best beam index
-            best_batches = broadcast_from_last_pipeline_stage(beam_size, torch.int64, best_batches)
+            best_batches = broadcast_from_last_pipeline_stage(
+                beam_size, torch.int64, best_batches
+            )
             forward_step.inference_params.swap_key_value_dict(best_batches)
 
             # Update the context length for the next token generation.
@@ -393,7 +457,11 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
             # if cannot find stop token, add open beams to hyps
             if not done:
                 for beam_id in range(beam_size):
-                    beam_hyp.add(tokens[beam_id].clone(), scores[beam_id].squeeze(), context_length + 1 - prompt_length)
+                    beam_hyp.add(
+                        tokens[beam_id].clone(),
+                        scores[beam_id].squeeze(),
+                        context_length + 1 - prompt_length,
+                    )
 
             # rank based on scores
             sorted_hyps = sorted(beam_hyp.beams, key=lambda x: x[0], reverse=True)
@@ -402,14 +470,26 @@ def beam_search_and_return_on_first_stage(model, tokens, lengths, beam_size, sto
             tokens = [sorted_hyps[i][1] for i in range(num_return_gen)]
             scores = torch.stack(scores, dim=0)
             tokens = torch.stack(tokens, dim=0)
-            scores_size_tensor = torch.tensor(scores.shape, dtype=torch.int64, device=torch.cuda.current_device())
-            tokens_size_tensor = torch.tensor(tokens.shape, dtype=torch.int64, device=torch.cuda.current_device())
-
-        scores_size_tensor = broadcast_from_last_pipeline_stage(1, torch.int64, scores_size_tensor)
-        tokens_size_tensor = broadcast_from_last_pipeline_stage(2, torch.int64, tokens_size_tensor)
-
-        scores = broadcast_from_last_to_first_pipeline_stage(tuple(scores_size_tensor), torch.float32, scores)
-        tokens = broadcast_from_last_to_first_pipeline_stage(tuple(tokens_size_tensor), torch.int64, tokens)
+            scores_size_tensor = torch.tensor(
+                scores.shape, dtype=torch.int64, device=torch.cuda.current_device()
+            )
+            tokens_size_tensor = torch.tensor(
+                tokens.shape, dtype=torch.int64, device=torch.cuda.current_device()
+            )
+
+        scores_size_tensor = broadcast_from_last_pipeline_stage(
+            1, torch.int64, scores_size_tensor
+        )
+        tokens_size_tensor = broadcast_from_last_pipeline_stage(
+            2, torch.int64, tokens_size_tensor
+        )
+
+        scores = broadcast_from_last_to_first_pipeline_stage(
+            tuple(scores_size_tensor), torch.float32, scores
+        )
+        tokens = broadcast_from_last_to_first_pipeline_stage(
+            tuple(tokens_size_tensor), torch.int64, tokens
+        )
 
     return tokens, scores
 
@@ -424,6 +504,7 @@ def _build_attention_mask_and_position_ids(tokens):
         eod_token=None,
         reset_position_ids=False,
         reset_attention_mask=False,
-        eod_mask_loss=False)
+        eod_mask_loss=False,
+    )
 
     return attention_mask, position_ids
diff --git a/megatron/text_generation/sampling.py b/megatron/text_generation/sampling.py
index 370773a36c0..44b5ce5bb8b 100644
--- a/megatron/text_generation/sampling.py
+++ b/megatron/text_generation/sampling.py
@@ -10,13 +10,11 @@
 import torch
 
 
-
 def modify_logits_for_top_k_filtering(logits, top_k):
     """Set the logits for none top-k values to -inf."""
 
     filter_ = logits < torch.topk(logits, top_k)[0][..., -1, None]
-    logits.masked_fill_(filter_, float('-Inf'))
-
+    logits.masked_fill_(filter_, float("-Inf"))
 
 
 def modify_logits_for_top_p_filtering(logits, top_p):
@@ -38,12 +36,11 @@ def modify_logits_for_top_p_filtering(logits, top_p):
 
     # Fill in the filtered part
     filter_ = filter_.scatter(1, sorted_indices, filter_)
-    logits.masked_fill_(filter_, float('-Inf'))
-
+    logits.masked_fill_(filter_, float("-Inf"))
 
 
 def sample(logits, top_k=0, top_p=0.0, temperature=1.0, vocab_size=None):
-    """ Sample and generate a token.
+    """Sample and generate a token.
     Note: logits has the dimension [b, v] where b is the batch size
           and v is the vocabulary size.
     If vocab_size is provided, we will make sure the sample that is
@@ -52,14 +49,12 @@ def sample(logits, top_k=0, top_p=0.0, temperature=1.0, vocab_size=None):
     """
 
     # Check logits for consistency.
-    assert logits.ndim == 2, 'expected the logits to be of [b, v] shape.'
-    assert logits.type() == 'torch.cuda.FloatTensor', \
-        'input logits should be floats.'
-
+    assert logits.ndim == 2, "expected the logits to be of [b, v] shape."
+    assert logits.type() == "torch.cuda.FloatTensor", "input logits should be floats."
 
     # Greedy is just simple argmax.
     if top_k == 1:
-        assert top_p == 0.0, 'cannot set both greedy and top-p samplings.'
+        assert top_p == 0.0, "cannot set both greedy and top-p samplings."
         samples = torch.argmax(logits, dim=-1)
 
     # Top-k or top-p sampling.
@@ -71,14 +66,14 @@ def sample(logits, top_k=0, top_p=0.0, temperature=1.0, vocab_size=None):
             logits.div_(temperature)
 
         if top_k > 1:
-            assert top_p == 0.0, 'cannot set both top-k and top-p samplings.'
-            assert top_k <= logits.size(1), 'top-k is larger than logit size.'
+            assert top_p == 0.0, "cannot set both top-k and top-p samplings."
+            assert top_k <= logits.size(1), "top-k is larger than logit size."
             if vocab_size:
-                assert top_k < vocab_size, 'top-k is larger than vocab size.'
+                assert top_k < vocab_size, "top-k is larger than vocab size."
             modify_logits_for_top_k_filtering(logits, top_k)
 
         elif top_p > 0.0:
-            assert top_p <= 1.0, 'top-p should be in (0, 1].'
+            assert top_p <= 1.0, "top-p should be in (0, 1]."
             modify_logits_for_top_p_filtering(logits, top_p)
 
         # After filtering, we need to recalculate the distribution.
diff --git a/megatron/text_generation/tokenization.py b/megatron/text_generation/tokenization.py
index accead319a1..4b4e5c9a1f0 100644
--- a/megatron/text_generation/tokenization.py
+++ b/megatron/text_generation/tokenization.py
@@ -10,9 +10,7 @@
 from .communication import broadcast_int_list, broadcast_tensor
 
 
-def detokenize_generations(tokens_gpu_tensor,
-                           lengths_gpu_tensor,
-                           return_segments):
+def detokenize_generations(tokens_gpu_tensor, lengths_gpu_tensor, return_segments):
     """Detokenize the generated tokens."""
 
     tokenizer = get_tokenizer()
@@ -25,33 +23,32 @@ def detokenize_generations(tokens_gpu_tensor,
     lengths = lengths_gpu_tensor.cpu().numpy().tolist()
     for sequence_tokens, length in zip(tokens, lengths):
         sequence_tokens = sequence_tokens[:length]
-        prompts_plus_generations.append(
-            tokenizer.detokenize(sequence_tokens))
+        prompts_plus_generations.append(tokenizer.detokenize(sequence_tokens))
         if return_segments:
             words = []
             for token in sequence_tokens:
-                if args.tokenizer_type in ['SentencePieceTokenizer', 
-                        'GPTSentencePieceTokenizer']:
+                if args.tokenizer_type in [
+                    "SentencePieceTokenizer",
+                    "GPTSentencePieceTokenizer",
+                ]:
                     word = tokenizer.decoder[token]
-                elif args.tokenizer_type == 'NullTokenizer':
+                elif args.tokenizer_type == "NullTokenizer":
                     word = str(token)
                 else:
                     word = tokenizer.tokenizer.decoder[token]
                     word = bytearray(
-                        [tokenizer.tokenizer.byte_decoder[c] for c in word]).decode(
-                            'utf-8', errors='replace')
+                        [tokenizer.tokenizer.byte_decoder[c] for c in word]
+                    ).decode("utf-8", errors="replace")
                 words.append(word)
             prompts_plus_generations_segments.append(words)
 
     if return_segments:
-        return tokens, prompts_plus_generations, \
-            prompts_plus_generations_segments
+        return tokens, prompts_plus_generations, prompts_plus_generations_segments
 
     return tokens, prompts_plus_generations
 
 
-def tokenize_prompts(prompts=None, tokens_to_generate=None,
-                     add_BOS=None, rank=0):
+def tokenize_prompts(prompts=None, tokens_to_generate=None, add_BOS=None, rank=0):
     """Tokenize prompts and make them avaiable on all ranks."""
 
     # On all ranks set to None so we can pass them to functions
@@ -64,11 +61,14 @@ def tokenize_prompts(prompts=None, tokens_to_generate=None,
         assert prompts is not None
         assert tokens_to_generate is not None
         # Tensor of tokens padded and their unpadded length.
-        prompts_tokens_cuda_long_tensor, prompts_length_cuda_long_tensor = \
+        prompts_tokens_cuda_long_tensor, prompts_length_cuda_long_tensor = (
             _tokenize_prompts_and_batch(prompts, tokens_to_generate, add_BOS)
+        )
         # We need the sizes of these tensors for the boradcast
-        sizes_list = [prompts_tokens_cuda_long_tensor.size(0), # Batch size
-                      prompts_tokens_cuda_long_tensor.size(1)] # Sequence lenght
+        sizes_list = [
+            prompts_tokens_cuda_long_tensor.size(0),  # Batch size
+            prompts_tokens_cuda_long_tensor.size(1),
+        ]  # Sequence lenght
 
     # First, broadcast the sizes.
     sizes_tensor = broadcast_int_list(2, int_list=sizes_list, rank=rank)
@@ -77,28 +77,30 @@ def tokenize_prompts(prompts=None, tokens_to_generate=None,
     # and length tensors.
     sizes = sizes_tensor.tolist()
     prompts_tokens_cuda_long_tensor = broadcast_tensor(
-        sizes, torch.int64, tensor=prompts_tokens_cuda_long_tensor, rank=rank)
+        sizes, torch.int64, tensor=prompts_tokens_cuda_long_tensor, rank=rank
+    )
     prompts_length_cuda_long_tensor = broadcast_tensor(
-        sizes[0], torch.int64, tensor=prompts_length_cuda_long_tensor,
-        rank=rank)
+        sizes[0], torch.int64, tensor=prompts_length_cuda_long_tensor, rank=rank
+    )
 
     return prompts_tokens_cuda_long_tensor, prompts_length_cuda_long_tensor
 
 
 def _tokenize_prompts_and_batch(prompts, tokens_to_generate, add_BOS):
     """Given a set of prompts and number of tokens to generate:
-        - tokenize prompts
-        - set the sequence length to be the max of length of prompts
-          plus the number of tokens we would like to generate
-        - pad all the sequences to this length so we can convert them
-          into a 2D tensor.
+    - tokenize prompts
+    - set the sequence length to be the max of length of prompts
+      plus the number of tokens we would like to generate
+    - pad all the sequences to this length so we can convert them
+      into a 2D tensor.
     """
 
     # Tokenize all the prompts.
     tokenizer = get_tokenizer()
     if add_BOS:
-        prompts_tokens = [[tokenizer.eod] + tokenizer.tokenize(prompt)
-                          for prompt in prompts]
+        prompts_tokens = [
+            [tokenizer.eod] + tokenizer.tokenize(prompt) for prompt in prompts
+        ]
     else:
         prompts_tokens = [tokenizer.tokenize(prompt) for prompt in prompts]
 
diff --git a/megatron/text_generation_server.py b/megatron/text_generation_server.py
index 58550f2e631..00f34453a30 100644
--- a/megatron/text_generation_server.py
+++ b/megatron/text_generation_server.py
@@ -14,7 +14,9 @@
 BEAM_NUM = 1
 lock = threading.Lock()
 
+
 class MegatronGenerate(Resource):
+
     def __init__(self, model):
         self.model = model
 
@@ -22,21 +24,21 @@ def __init__(self, model):
     def send_do_generate():
         choice = torch.cuda.LongTensor([GENERATE_NUM])
         torch.distributed.broadcast(choice, 0)
-     
+
     @staticmethod
     def send_do_beam_search():
         choice = torch.cuda.LongTensor([BEAM_NUM])
         torch.distributed.broadcast(choice, 0)
-    
+
     def put(self):
         args = get_args()
-       
+
         if not "prompts" in request.get_json():
             return "prompts argument required", 400
-        
+
         if "max_len" in request.get_json():
             return "max_len is no longer used.  Replace with tokens_to_generate", 400
-        
+
         if "sentences" in request.get_json():
             return "sentences is no longer used.  Replace with prompts", 400
 
@@ -46,35 +48,43 @@ def put(self):
 
         if len(prompts) == 0:
             return "prompts is empty", 400
-        
+
         if len(prompts) > 128:
             return "Maximum number of prompts is 128", 400
-        
-        tokens_to_generate = 64  # Choosing hopefully sane default.  Full sequence is slow
+
+        tokens_to_generate = (
+            64  # Choosing hopefully sane default.  Full sequence is slow
+        )
         if "tokens_to_generate" in request.get_json():
             tokens_to_generate = request.get_json()["tokens_to_generate"]
             if not isinstance(tokens_to_generate, int):
                 return "tokens_to_generate must be an integer greater than 0"
             if tokens_to_generate < 0:
-                return "tokens_to_generate must be an integer greater than or equal to 0"
+                return (
+                    "tokens_to_generate must be an integer greater than or equal to 0"
+                )
 
         logprobs = False
         if "logprobs" in request.get_json():
             logprobs = request.get_json()["logprobs"]
             if not isinstance(logprobs, bool):
                 return "logprobs must be a boolean value"
-        
+
         if tokens_to_generate == 0 and not logprobs:
             return "tokens_to_generate=0 implies logprobs should be True"
-        
+
         temperature = 1.0
         if "temperature" in request.get_json():
             temperature = request.get_json()["temperature"]
             if not (type(temperature) == int or type(temperature) == float):
-                return "temperature must be a positive number less than or equal to 100.0"
+                return (
+                    "temperature must be a positive number less than or equal to 100.0"
+                )
             if not (0.0 < temperature <= 100.0):
-                return "temperature must be a positive number less than or equal to 100.0"
-        
+                return (
+                    "temperature must be a positive number less than or equal to 100.0"
+                )
+
         top_k = 0.0
         if "top_k" in request.get_json():
             top_k = request.get_json()["top_k"]
@@ -82,7 +92,7 @@ def put(self):
                 return "top_k must be an integer equal to or greater than 0 and less than or equal to 1000"
             if not (0 <= top_k <= 1000):
                 return "top_k must be equal to or greater than 0 and less than or equal to 1000"
-        
+
         top_p = 0.0
         if "top_p" in request.get_json():
             top_p = request.get_json()["top_p"]
@@ -92,7 +102,7 @@ def put(self):
                 return "cannot set both top-k and top-p samplings."
             if not (0 <= top_p <= 1.0):
                 return "top_p must be less than or equal to 1.0"
-        
+
         top_p_decay = 0.0
         if "top_p_decay" in request.get_json():
             top_p_decay = request.get_json()["top_p_decay"]
@@ -102,23 +112,25 @@ def put(self):
                 return "top_p_decay cannot be set without top_p"
             if not (0 <= top_p_decay <= 1.0):
                 return "top_p_decay must be less than or equal to 1.0"
-        
+
         top_p_bound = 0.0
         if "top_p_bound" in request.get_json():
             top_p_bound = request.get_json()["top_p_bound"]
             if not (type(top_p_bound) == float):
-                return "top_p_bound must be a positive float less than or equal to top_p"
+                return (
+                    "top_p_bound must be a positive float less than or equal to top_p"
+                )
             if top_p == 0.0:
                 return "top_p_bound cannot be set without top_p"
             if not (0.0 < top_p_bound <= top_p):
                 return "top_p_bound must be greater than 0 and less than top_p"
-        
+
         add_BOS = False
         if "add_BOS" in request.get_json():
             add_BOS = request.get_json()["add_BOS"]
             if not isinstance(add_BOS, bool):
                 return "add_BOS must be a boolean value"
-        
+
         if any([len(prompt) == 0 for prompt in prompts]) and not add_BOS:
             return "Empty prompts require add_BOS=true"
 
@@ -127,7 +139,7 @@ def put(self):
             stop_on_double_eol = request.get_json()["stop_on_double_eol"]
             if not isinstance(stop_on_double_eol, bool):
                 return "stop_on_double_eol must be a boolean value"
-        
+
         stop_on_eol = False
         if "stop_on_eol" in request.get_json():
             stop_on_eol = request.get_json()["stop_on_eol"]
@@ -136,7 +148,9 @@ def put(self):
 
         prevent_newline_after_colon = False
         if "prevent_newline_after_colon" in request.get_json():
-            prevent_newline_after_colon = request.get_json()["prevent_newline_after_colon"]
+            prevent_newline_after_colon = request.get_json()[
+                "prevent_newline_after_colon"
+            ]
             if not isinstance(prevent_newline_after_colon, bool):
                 return "prevent_newline_after_colon must be a boolean value"
 
@@ -145,7 +159,7 @@ def put(self):
             random_seed = request.get_json()["random_seed"]
             if not isinstance(random_seed, int):
                 return "random_seed must be integer"
-            if random_seed < 0: 
+            if random_seed < 0:
                 return "random_seed must be a positive integer"
 
         no_log = False
@@ -153,7 +167,7 @@ def put(self):
             no_log = request.get_json()["no_log"]
             if not isinstance(no_log, bool):
                 return "no_log must be a boolean value"
-        
+
         beam_width = None
         if "beam_width" in request.get_json():
             beam_width = request.get_json()["beam_width"]
@@ -164,78 +178,90 @@ def put(self):
             if len(prompts) > 1:
                 return "When doing beam_search, batch size must be 1"
 
-        stop_token=50256
+        stop_token = 50256
         if "stop_token" in request.get_json():
             stop_token = request.get_json()["stop_token"]
             if not isinstance(stop_token, int):
                 return "stop_token must be an integer"
-        
-        length_penalty = 1 
+
+        length_penalty = 1
         if "length_penalty" in request.get_json():
             length_penalty = request.get_json()["length_penalty"]
             if not isinstance(length_penalty, float):
                 return "length_penalty must be a float"
-        
+
         with lock:  # Need to get lock to keep multiple threads from hitting code
-            
+
             if not no_log:
                 print("request IP: " + str(request.remote_addr))
-                print(json.dumps(request.get_json()),flush=True)
+                print(json.dumps(request.get_json()), flush=True)
                 print("start time: ", datetime.datetime.now())
-            
+
             try:
                 if beam_width is not None:
                     MegatronGenerate.send_do_beam_search()  # Tell other ranks we're doing beam_search
-                    response, response_seg, response_scores = \
+                    response, response_seg, response_scores = (
                         beam_search_and_post_process(
-                        self.model,
-                        prompts=prompts,
-                        tokens_to_generate=tokens_to_generate,
-                        beam_size = beam_width,
-                        add_BOS=add_BOS,
-                        stop_token=stop_token,
-                        num_return_gen=beam_width,  # Returning whole beam
-                        length_penalty=length_penalty,
-                        prevent_newline_after_colon=prevent_newline_after_colon
+                            self.model,
+                            prompts=prompts,
+                            tokens_to_generate=tokens_to_generate,
+                            beam_size=beam_width,
+                            add_BOS=add_BOS,
+                            stop_token=stop_token,
+                            num_return_gen=beam_width,  # Returning whole beam
+                            length_penalty=length_penalty,
+                            prevent_newline_after_colon=prevent_newline_after_colon,
                         )
-                    
-                    return jsonify({"text": response,
-                        "segments": response_seg,
-                        "scores": response_scores})
+                    )
+
+                    return jsonify(
+                        {
+                            "text": response,
+                            "segments": response_seg,
+                            "scores": response_scores,
+                        }
+                    )
                 else:
                     MegatronGenerate.send_do_generate()  # Tell other ranks we're doing generate
-                    response, response_seg, response_logprobs, _ = \
+                    response, response_seg, response_logprobs, _ = (
                         generate_and_post_process(
-                        self.model,
-                        prompts=prompts,
-                        tokens_to_generate=tokens_to_generate,
-                        return_output_log_probs=logprobs,
-                        top_k_sampling=top_k,
-                        top_p_sampling=top_p,
-                        top_p_decay=top_p_decay,
-                        top_p_bound=top_p_bound,
-                        temperature=temperature,
-                        add_BOS=add_BOS,
-                        use_eod_token_for_early_termination=True,
-                        stop_on_double_eol=stop_on_double_eol,
-                        stop_on_eol=stop_on_eol,
-                        prevent_newline_after_colon=prevent_newline_after_colon,
-                        random_seed=random_seed)
-
-                    return jsonify({"text": response,
-                        "segments": response_seg,
-                        "logprobs": response_logprobs})
+                            self.model,
+                            prompts=prompts,
+                            tokens_to_generate=tokens_to_generate,
+                            return_output_log_probs=logprobs,
+                            top_k_sampling=top_k,
+                            top_p_sampling=top_p,
+                            top_p_decay=top_p_decay,
+                            top_p_bound=top_p_bound,
+                            temperature=temperature,
+                            add_BOS=add_BOS,
+                            use_eod_token_for_early_termination=True,
+                            stop_on_double_eol=stop_on_double_eol,
+                            stop_on_eol=stop_on_eol,
+                            prevent_newline_after_colon=prevent_newline_after_colon,
+                            random_seed=random_seed,
+                        )
+                    )
+
+                    return jsonify(
+                        {
+                            "text": response,
+                            "segments": response_seg,
+                            "logprobs": response_logprobs,
+                        }
+                    )
 
             except ValueError as ve:
                 return ve.args[0]
             print("end time: ", datetime.datetime.now())
-        
+
 
 class MegatronServer(object):
+
     def __init__(self, model):
-        self.app = Flask(__name__, static_url_path='')
+        self.app = Flask(__name__, static_url_path="")
         api = Api(self.app)
-        api.add_resource(MegatronGenerate, '/api', resource_class_args=[model])
-        
-    def run(self, url): 
+        api.add_resource(MegatronGenerate, "/api", resource_class_args=[model])
+
+    def run(self, url):
         self.app.run(url, threaded=True, debug=False)
diff --git a/megatron/text_generation_utils.py b/megatron/text_generation_utils.py
index f5ee09dd09c..f0f2ed16dcb 100644
--- a/megatron/text_generation_utils.py
+++ b/megatron/text_generation_utils.py
@@ -33,29 +33,36 @@
 from megatron.model import DistributedDataParallel as LocalDDP
 from megatron.model import Float16Module
 from deepspeed.accelerator import get_accelerator
+
+
 def get_batch(context_tokens):
     """Generate batch from context tokens."""
     args = get_args()
     tokenizer = get_tokenizer()
 
     # Move to GPU.
-    tokens = context_tokens.view(args.micro_batch_size, -1).contiguous().to(get_accelerator().device_name())
+    tokens = (
+        context_tokens.view(args.micro_batch_size, -1)
+        .contiguous()
+        .to(get_accelerator().device_name())
+    )
     # Get the attention mask and postition ids.
     attention_mask, _, position_ids = get_ltor_masks_and_position_ids(
         tokens,
         tokenizer.eod,
         args.reset_position_ids,
         args.reset_attention_mask,
-        args.eod_mask_loss)
+        args.eod_mask_loss,
+    )
 
     return tokens, attention_mask, position_ids
 
 
-def top_k_logits(logits, top_k=0, top_p=0.0, filter_value=-float('Inf')):
-    """ This function has been mostly taken from huggingface conversational
-     ai code at
-         https://medium.com/huggingface/how-to-build-a-state-of-the-art-
-              conversational-ai-with-transfer-learning-2d818ac26313 """
+def top_k_logits(logits, top_k=0, top_p=0.0, filter_value=-float("Inf")):
+    """This function has been mostly taken from huggingface conversational
+    ai code at
+        https://medium.com/huggingface/how-to-build-a-state-of-the-art-
+             conversational-ai-with-transfer-learning-2d818ac26313"""
 
     if top_k > 0:
         # Remove all tokens with a probability less than the
@@ -65,17 +72,14 @@ def top_k_logits(logits, top_k=0, top_p=0.0, filter_value=-float('Inf')):
 
     if top_p > 0.0:
         # Cconvert to 1D
-        sorted_logits, sorted_indices = torch.sort(
-            logits, descending=True, dim=-1)
-        cumulative_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1),
-                                        dim=-1)
+        sorted_logits, sorted_indices = torch.sort(logits, descending=True, dim=-1)
+        cumulative_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)
 
         # Remove tokens with cumulative probability above the threshold
         sorted_indices_to_remove = cumulative_probs > top_p
         # Shift the indices to the right to keep also the first token
         # above the threshold
-        sorted_indices_to_remove[..., 1:] \
-            = sorted_indices_to_remove[..., :-1].clone()
+        sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
         sorted_indices_to_remove[..., 0] = 0
         for i in range(sorted_indices.size(0)):
             indices_to_remove = sorted_indices[i][sorted_indices_to_remove[i]]
@@ -90,8 +94,7 @@ def generate_samples_input_from_file(model):
     tokenizer = get_tokenizer()
 
     # Read the sample file and open the output file.
-    assert args.sample_input_file is not None, \
-        'sample input file is not provided.'
+    assert args.sample_input_file is not None, "sample input file is not provided."
     if mpu.is_pipeline_first_stage() and mpu.get_tensor_model_parallel_rank() == 0:
         fname = open(args.sample_input_file, "r")
         all_raw_text = fname.readlines()
@@ -99,8 +102,10 @@ def generate_samples_input_from_file(model):
         input_pos = 0
         if args.sample_output_file is None:
             sample_output_file = args.sample_input_file + ".out"
-            print('`sample-output-file` not specified, setting '
-                  'it to {}'.format(sample_output_file))
+            print(
+                "`sample-output-file` not specified, setting "
+                "it to {}".format(sample_output_file)
+            )
         else:
             sample_output_file = args.sample_output_file
         fname_out = open(sample_output_file, "w+")
@@ -112,8 +117,10 @@ def generate_samples_input_from_file(model):
             terminate_runs = 0
             raw_text_len = 0
 
-            if mpu.is_pipeline_first_stage() \
-               and mpu.get_tensor_model_parallel_rank() == 0:
+            if (
+                mpu.is_pipeline_first_stage()
+                and mpu.get_tensor_model_parallel_rank() == 0
+            ):
                 raw_text = all_raw_text[input_pos]
                 input_pos += 1
                 if input_pos == input_count:
@@ -127,9 +134,13 @@ def generate_samples_input_from_file(model):
                     context_length = len(context_tokens)
 
                     if context_length >= (args.seq_length // 2):
-                        print("\nContext length", context_length,
-                              "\nPlease give smaller context (half of the "
-                              "sequence length)!", flush=True)
+                        print(
+                            "\nContext length",
+                            context_length,
+                            "\nPlease give smaller context (half of the "
+                            "sequence length)!",
+                            flush=True,
+                        )
                         continue
             else:
                 context_tokens = tokenizer.tokenize("EMPTY TEXT")
@@ -137,8 +148,9 @@ def generate_samples_input_from_file(model):
 
             input_info = [terminate_runs, raw_text_len, context_length]
             input_info_tensor = get_accelerator().LongTensor(input_info)
-            torch.distributed.all_reduce(input_info_tensor,
-                                         group=mpu.get_model_parallel_group())
+            torch.distributed.all_reduce(
+                input_info_tensor, group=mpu.get_model_parallel_group()
+            )
             terminate_runs = input_info_tensor[0].item()
             raw_text_len = input_info_tensor[1].item()
             context_length = input_info_tensor[2].item()
@@ -148,8 +160,10 @@ def generate_samples_input_from_file(model):
 
             # For pipeline parallel we send context tokens to other stages
             # so they get the lengths correct
-            if mpu.get_tensor_model_parallel_rank() == 0 \
-               and args.pipeline_model_parallel_size > 1:
+            if (
+                mpu.get_tensor_model_parallel_rank() == 0
+                and args.pipeline_model_parallel_size > 1
+            ):
                 if mpu.is_pipeline_first_stage():
                     src = mpu.get_pipeline_model_parallel_first_rank()
                     group = mpu.get_pipeline_model_parallel_group()
@@ -158,9 +172,11 @@ def generate_samples_input_from_file(model):
                 else:
                     src = mpu.get_pipeline_model_parallel_first_rank()
                     group = mpu.get_pipeline_model_parallel_group()
-                    context_tokens_tensor = torch.empty(context_length,
-                                                        dtype=torch.int64,
-                                                        device=get_accelerator().current_device_name())
+                    context_tokens_tensor = torch.empty(
+                        context_length,
+                        dtype=torch.int64,
+                        device=get_accelerator().current_device_name(),
+                    )
                     torch.distributed.broadcast(context_tokens_tensor, src, group)
                     context_tokens = context_tokens_tensor.cpu().numpy().tolist()
 
@@ -170,7 +186,7 @@ def generate_samples_input_from_file(model):
 
             if mpu.get_tensor_model_parallel_rank() == 0:
                 if mpu.is_pipeline_first_stage():
-                    os.system('clear')
+                    os.system("clear")
                     print("\nContext:", raw_text, flush=True)
 
                     fname_out.write("\nContext:")
@@ -178,8 +194,9 @@ def generate_samples_input_from_file(model):
 
                     decode_tokens, _ = decode_tokens
                     decode_tokens = decode_tokens[0].cpu().numpy().tolist()
-                    trim_decode_tokens = tokenizer.detokenize(
-                        decode_tokens)[raw_text_len:]
+                    trim_decode_tokens = tokenizer.detokenize(decode_tokens)[
+                        raw_text_len:
+                    ]
                     print("\nMegatron-LM:", trim_decode_tokens, flush=True)
 
                     fname_out.write("\n\nMegatron-LM:")
@@ -189,6 +206,7 @@ def generate_samples_input_from_file(model):
             raw_text = None
             context_count += 1
 
+
 # We added this function to support the tasks evaluation such as squad
 # and drop in the https://github.com/EleutherAI/lm-evaluation-harness
 # codebase. The lm-evaluation-harness code can now call this function
@@ -215,8 +233,7 @@ def generate_samples_eval(model, context, max_gen_length, eos_token_id):
 
     decode_tokens, _ = decode_tokens
     decode_tokens = decode_tokens[0].cpu().numpy().tolist()
-    trim_decode_tokens = tokenizer.detokenize(
-        decode_tokens)[raw_text_len:]
+    trim_decode_tokens = tokenizer.detokenize(decode_tokens)[raw_text_len:]
 
     return trim_decode_tokens
 
@@ -233,12 +250,14 @@ def generate_samples_interactive(model, print_frequency=24):
             terminate_runs = 0
             raw_text_len = 0
 
-            if mpu.is_pipeline_first_stage() \
-               and mpu.get_tensor_model_parallel_rank() == 0:
-                os.system('clear')
+            if (
+                mpu.is_pipeline_first_stage()
+                and mpu.get_tensor_model_parallel_rank() == 0
+            ):
+                os.system("clear")
                 raw_text = input("\nContext prompt (stop to exit) >>> ")
                 while not raw_text:
-                    print('Prompt should not be empty!')
+                    print("Prompt should not be empty!")
                     raw_text = input("\nContext prompt (stop to exit) >>> ")
                 raw_text_len = len(raw_text)
 
@@ -249,9 +268,13 @@ def generate_samples_interactive(model, print_frequency=24):
                     context_length = len(context_tokens)
 
                     if context_length >= (args.seq_length // 2):
-                        print("\nContext length", context_length,
-                              "\nPlease give smaller context (half of the "
-                              "sequence length)!", flush=True)
+                        print(
+                            "\nContext length",
+                            context_length,
+                            "\nPlease give smaller context (half of the "
+                            "sequence length)!",
+                            flush=True,
+                        )
                         continue
             else:
                 context_tokens = tokenizer.tokenize("EMPTY TEXT")
@@ -259,8 +282,9 @@ def generate_samples_interactive(model, print_frequency=24):
 
             input_info = [terminate_runs, raw_text_len, context_length]
             input_info_tensor = get_accelerator().LongTensor(input_info)
-            torch.distributed.all_reduce(input_info_tensor,
-                                         group=mpu.get_model_parallel_group())
+            torch.distributed.all_reduce(
+                input_info_tensor, group=mpu.get_model_parallel_group()
+            )
             terminate_runs = input_info_tensor[0].item()
             raw_text_len = input_info_tensor[1].item()
             context_length = input_info_tensor[2].item()
@@ -270,8 +294,10 @@ def generate_samples_interactive(model, print_frequency=24):
 
             # For pipeline parallel we send context tokens to other stages
             # so they get the lengths correct
-            if mpu.get_tensor_model_parallel_rank() == 0 \
-               and args.pipeline_model_parallel_size > 1:
+            if (
+                mpu.get_tensor_model_parallel_rank() == 0
+                and args.pipeline_model_parallel_size > 1
+            ):
                 if mpu.is_pipeline_first_stage():
                     src = mpu.get_pipeline_model_parallel_first_rank()
                     group = mpu.get_pipeline_model_parallel_group()
@@ -280,39 +306,43 @@ def generate_samples_interactive(model, print_frequency=24):
                 else:
                     src = mpu.get_pipeline_model_parallel_first_rank()
                     group = mpu.get_pipeline_model_parallel_group()
-                    context_tokens_tensor = torch.empty(context_length,
-                                                        dtype=torch.int64,
-                                                        device=torch.device(get_accelerator().device_name()))
+                    context_tokens_tensor = torch.empty(
+                        context_length,
+                        dtype=torch.int64,
+                        device=torch.device(get_accelerator().device_name()),
+                    )
                     torch.distributed.broadcast(context_tokens_tensor, src, group)
                     context_tokens = context_tokens_tensor.cpu().numpy().tolist()
 
             token_stream = get_token_stream(model, [context_tokens])
 
             for counter, decode_tokens in enumerate(token_stream):
-                if counter % print_frequency != 0 \
-                   or mpu.get_tensor_model_parallel_rank() != 0 \
-                   or not mpu.is_pipeline_first_stage():
+                if (
+                    counter % print_frequency != 0
+                    or mpu.get_tensor_model_parallel_rank() != 0
+                    or not mpu.is_pipeline_first_stage()
+                ):
                     continue
 
-                os.system('clear')
+                os.system("clear")
                 print("\nContext:", raw_text, flush=True)
 
                 decode_tokens, _ = decode_tokens
                 decode_tokens = decode_tokens[0].cpu().numpy().tolist()
-                trim_decode_tokens = tokenizer.detokenize(
-                    decode_tokens)[raw_text_len:]
+                trim_decode_tokens = tokenizer.detokenize(decode_tokens)[raw_text_len:]
                 print("\nMegatron-LM:", trim_decode_tokens, flush=True)
 
-            if mpu.is_pipeline_first_stage() \
-               and mpu.get_tensor_model_parallel_rank() == 0:
-                os.system('clear')
+            if (
+                mpu.is_pipeline_first_stage()
+                and mpu.get_tensor_model_parallel_rank() == 0
+            ):
+                os.system("clear")
                 print("\nContext:", raw_text, flush=True)
 
                 if not isinstance(decode_tokens, list):
                     decode_tokens, _ = decode_tokens
                     decode_tokens = decode_tokens[0].cpu().numpy().tolist()
-                trim_decode_tokens = tokenizer.detokenize(
-                    decode_tokens)[raw_text_len:]
+                trim_decode_tokens = tokenizer.detokenize(decode_tokens)[raw_text_len:]
                 print("\nMegatron-LM:", trim_decode_tokens, flush=True)
 
                 input("\nPress Enter to continue >>>")
@@ -321,28 +351,31 @@ def generate_samples_interactive(model, print_frequency=24):
             context_count += 1
 
 
-
-def generate_samples_unconditional(model, latencies=[], model_latencies=[], single_token_latency=[]):
+def generate_samples_unconditional(
+    model, latencies=[], model_latencies=[], single_token_latency=[]
+):
 
     args = get_args()
     tokenizer = get_tokenizer()
 
     num_samples = args.num_samples
-    context_tokens = [[tokenizer.eod]
-                      for _ in range(args.micro_batch_size)]
+    context_tokens = [[tokenizer.eod] for _ in range(args.micro_batch_size)]
     ctr = 0
     while True:
         get_accelerator().synchronize()
         start_time = time.time()
-        for token_stream in get_token_stream(model,
-                                             copy.deepcopy(context_tokens), model_latencies=model_latencies, single_token_latency=single_token_latency):
+        for token_stream in get_token_stream(
+            model,
+            copy.deepcopy(context_tokens),
+            model_latencies=model_latencies,
+            single_token_latency=single_token_latency,
+        ):
             pass
         get_accelerator().synchronize()
         latencies.append(time.time() - start_time)
         start_time = time.time()
-        if mpu.is_pipeline_last_stage() and \
-           mpu.get_tensor_model_parallel_rank() == 0:
-            #if ctr % args.log_interval == 0:
+        if mpu.is_pipeline_last_stage() and mpu.get_tensor_model_parallel_rank() == 0:
+            # if ctr % args.log_interval == 0:
             #    print('Avg s/batch:',
             #          (time.time() - start_time) / min(args.log_interval, ctr + 1))
             #    start_time = time.time()
@@ -351,10 +384,10 @@ def generate_samples_unconditional(model, latencies=[], model_latencies=[], sing
             length_batch = token_stream[1].cpu().numpy().tolist()
             assert len(length_batch) == args.micro_batch_size
             for tokens, length in zip(token_batch, length_batch):
-                tokens = tokens[1:length - 1]
+                tokens = tokens[1 : length - 1]
                 text = tokenizer.detokenize(tokens)
                 is_finished = length < args.seq_length - 1
-                datum = {'text': text, 'length': length - 1, 'finished': is_finished}
+                datum = {"text": text, "length": length - 1, "finished": is_finished}
                 yield datum
                 ctr += 1
                 if ctr >= num_samples:
@@ -369,15 +402,24 @@ def generate_samples_unconditional(model, latencies=[], model_latencies=[], sing
             break
 
 
-def generate_and_write_samples_unconditional(model, latencies=[], single_token_latency=[], model_latencies=[]):
+def generate_and_write_samples_unconditional(
+    model, latencies=[], single_token_latency=[], model_latencies=[]
+):
 
     args = get_args()
     assert args.genfile is not None
-    with open(args.genfile, 'w') as f:
-        for datum in generate_samples_unconditional(model, latencies=latencies, model_latencies=model_latencies, single_token_latency=single_token_latency):
-            if mpu.is_pipeline_last_stage() and \
-               mpu.get_tensor_model_parallel_rank() == 0:
-                f.write(json.dumps(datum) + '\n')
+    with open(args.genfile, "w") as f:
+        for datum in generate_samples_unconditional(
+            model,
+            latencies=latencies,
+            model_latencies=model_latencies,
+            single_token_latency=single_token_latency,
+        ):
+            if (
+                mpu.is_pipeline_last_stage()
+                and mpu.get_tensor_model_parallel_rank() == 0
+            ):
+                f.write(json.dumps(datum) + "\n")
 
 
 def pad_batch(batch, pad_id, args):
@@ -391,42 +433,52 @@ def pad_batch(batch, pad_id, args):
     return batch, context_lengths
 
 
-def get_token_stream(model, context_tokens, model_latencies=[], single_token_latency=[]):
+def get_token_stream(
+    model, context_tokens, model_latencies=[], single_token_latency=[]
+):
 
     args = get_args()
     tokenizer = get_tokenizer()
 
-    context_tokens, context_lengths = pad_batch(context_tokens,
-                                                tokenizer.eod, args)
+    context_tokens, context_lengths = pad_batch(context_tokens, tokenizer.eod, args)
 
     context_tokens_tensor = get_accelerator().LongTensor(context_tokens)
     context_length_tensor = get_accelerator().LongTensor(context_lengths)
 
-    torch.distributed.broadcast(context_length_tensor,
-                                mpu.get_tensor_model_parallel_src_rank(),
-                                group=mpu.get_tensor_model_parallel_group())
-    torch.distributed.broadcast(context_tokens_tensor,
-                                mpu.get_tensor_model_parallel_src_rank(),
-                                group=mpu.get_tensor_model_parallel_group())
+    torch.distributed.broadcast(
+        context_length_tensor,
+        mpu.get_tensor_model_parallel_src_rank(),
+        group=mpu.get_tensor_model_parallel_group(),
+    )
+    torch.distributed.broadcast(
+        context_tokens_tensor,
+        mpu.get_tensor_model_parallel_src_rank(),
+        group=mpu.get_tensor_model_parallel_group(),
+    )
 
     context_length = context_length_tensor.min().item()
     tokens, attention_mask, position_ids = get_batch(context_tokens_tensor)
 
-    batch_token_iterator = sample_sequence_batch(model, context_tokens_tensor,
-                                                 context_length_tensor,
-                                                 attention_mask, position_ids, model_latencies=model_latencies)
+    batch_token_iterator = sample_sequence_batch(
+        model,
+        context_tokens_tensor,
+        context_length_tensor,
+        attention_mask,
+        position_ids,
+        model_latencies=model_latencies,
+    )
 
     count = 0
 
-    t0=time.time()
+    t0 = time.time()
     for tokens, lengths in batch_token_iterator:
         if count > 1:
-           get_accelerator().synchronize()
-           t_elapsed = time.time() - t0
-           single_token_latency.append(t_elapsed)
+            get_accelerator().synchronize()
+            t_elapsed = time.time() - t0
+            single_token_latency.append(t_elapsed)
         get_accelerator().synchronize()
-        t0=time.time()
-        count+=1
+        t0 = time.time()
+        count += 1
         context_length += 1
         if tokens is not None:
             yield tokens[:, :context_length], lengths
@@ -440,9 +492,17 @@ def switch(val1, val2, boolean):
     return (1 - boolean) * val1 + boolean * val2
 
 
-def forward_step(model, tokens, position_ids, attention_mask, tokentype_ids,
-                 layer_past=None, get_key_value=None,
-                 forward_method_parallel_output=None, model_latencies=[]):
+def forward_step(
+    model,
+    tokens,
+    position_ids,
+    attention_mask,
+    tokentype_ids,
+    layer_past=None,
+    get_key_value=None,
+    forward_method_parallel_output=None,
+    model_latencies=[],
+):
 
     # Hidden size changes when not using recompute, need to tell p2p_communicate
     # functions the correct size
@@ -455,19 +515,22 @@ def forward_step(model, tokens, position_ids, attention_mask, tokentype_ids,
     input_tensor = recv_forward()
 
     # Forward pass through the model.
-    unwrapped_model = unwrap_model(
-        model, (torchDDP, LocalDDP, Float16Module))
+    unwrapped_model = unwrap_model(model, (torchDDP, LocalDDP, Float16Module))
 
-    if hasattr(unwrapped_model, 'set_input_tensor'):
+    if hasattr(unwrapped_model, "set_input_tensor"):
         unwrapped_model.set_input_tensor(input_tensor)
     elif args.deepspeed or args.ds_inference:
         unwrapped_model.module.set_input_tensor(input_tensor)
 
-    output_tensor = model(tokens, position_ids, attention_mask,
-                          tokentype_ids=tokentype_ids,
-                          layer_past=layer_past,
-                          get_key_value=get_key_value,
-                          forward_method_parallel_output=forward_method_parallel_output)
+    output_tensor = model(
+        tokens,
+        position_ids,
+        attention_mask,
+        tokentype_ids=tokentype_ids,
+        layer_past=layer_past,
+        get_key_value=get_key_value,
+        forward_method_parallel_output=forward_method_parallel_output,
+    )
 
     if get_key_value:
         output_tensor, layer_past = output_tensor
@@ -476,15 +539,22 @@ def forward_step(model, tokens, position_ids, attention_mask, tokentype_ids,
 
     args.seq_length = orig_seq_length
     get_accelerator().synchronize()
-    model_latencies.append(time.time()-t0)
+    model_latencies.append(time.time() - t0)
     if get_key_value:
         return output_tensor, layer_past
     return output_tensor
 
 
-def sample_sequence_batch(model, context_tokens, context_lengths,
-                          attention_mask, position_ids,
-                          maxlen=None, type_ids=None, model_latencies=[]):
+def sample_sequence_batch(
+    model,
+    context_tokens,
+    context_lengths,
+    attention_mask,
+    position_ids,
+    maxlen=None,
+    type_ids=None,
+    model_latencies=[],
+):
 
     args = get_args()
     tokenizer = get_tokenizer()
@@ -495,7 +565,7 @@ def sample_sequence_batch(model, context_tokens, context_lengths,
 
         # added eos_id to support the function generate_samples_eval that passes
         # eos_id as an argument and needs termination when that id id found.
-        if hasattr(args, 'eos_id'):
+        if hasattr(args, "eos_id"):
             eos_id = args.eos_id
         else:
             eos_id = tokenizer.eod
@@ -512,15 +582,20 @@ def sample_sequence_batch(model, context_tokens, context_lengths,
             if maxlen > (org_context_length + args.out_seq_length):
                 maxlen = org_context_length + args.out_seq_length
 
-        lengths = torch.ones([batch_size]).long().to(get_accelerator().device_name()) * maxlen
+        lengths = (
+            torch.ones([batch_size]).long().to(get_accelerator().device_name()) * maxlen
+        )
 
         while context_length <= (maxlen):
             if args.recompute:
-                output = forward_step(model, tokens,
-                                      position_ids,
-                                      attention_mask,
-                                      tokentype_ids=type_ids,
-                                      forward_method_parallel_output=False)
+                output = forward_step(
+                    model,
+                    tokens,
+                    position_ids,
+                    attention_mask,
+                    tokentype_ids=type_ids,
+                    forward_method_parallel_output=False,
+                )
                 if mpu.is_pipeline_last_stage():
                     assert output is not None
                     logits = output[:, context_length - 1, :]
@@ -532,20 +607,23 @@ def sample_sequence_batch(model, context_tokens, context_lengths,
                     if type_ids is not None:
                         types2use = type_ids[:, :context_length]
                 else:
-                    tokens2use = tokens[:, context_length - 1].view(
-                        batch_size, -1)
+                    tokens2use = tokens[:, context_length - 1].view(batch_size, -1)
                     positions2use = position_ids[:, context_length - 1].view(
-                        batch_size, -1)
+                        batch_size, -1
+                    )
                     if type_ids is not None:
-                        types2use = type_ids[:, context_length - 1].view(
-                            batch_size, -1)
-                output, layer_past = forward_step(model, tokens2use,
-                                                  positions2use,
-                                                  attention_mask,
-                                                  layer_past=layer_past,
-                                                  get_key_value=True,
-                                                  tokentype_ids=types2use,
-                                                  forward_method_parallel_output=False, model_latencies=model_latencies)
+                        types2use = type_ids[:, context_length - 1].view(batch_size, -1)
+                output, layer_past = forward_step(
+                    model,
+                    tokens2use,
+                    positions2use,
+                    attention_mask,
+                    layer_past=layer_past,
+                    get_key_value=True,
+                    tokentype_ids=types2use,
+                    forward_method_parallel_output=False,
+                    model_latencies=model_latencies,
+                )
                 if mpu.is_pipeline_last_stage():
                     assert output is not None
                     logits = output[:, -1].view(batch_size, -1).contiguous()
@@ -556,15 +634,13 @@ def sample_sequence_batch(model, context_tokens, context_lengths,
                 else:
                     logits = logits.float()
                     logits /= args.temperature
-                    logits = top_k_logits(logits, top_k=args.top_k,
-                                          top_p=args.top_p)
+                    logits = top_k_logits(logits, top_k=args.top_k, top_p=args.top_p)
                     log_probs = F.softmax(logits, dim=-1)
                     prev = torch.multinomial(log_probs, num_samples=1).view(-1)
 
                 started = context_lengths <= context_length
 
-                new_tokens = switch(
-                    tokens[:, context_length].view(-1), prev, started)
+                new_tokens = switch(tokens[:, context_length].view(-1), prev, started)
                 tokens[:, context_length] = new_tokens
                 src = mpu.get_pipeline_model_parallel_last_rank()
                 group = mpu.get_embedding_group()
diff --git a/megatron/timers.py b/megatron/timers.py
index 384c7c37a3c..c432b4c2af0 100644
--- a/megatron/timers.py
+++ b/megatron/timers.py
@@ -5,11 +5,20 @@
 from abc import ABC
 from abc import abstractmethod
 import time
+import ezpz
 
 import torch
 from deepspeed.accelerator import get_accelerator
+from tensorboard.summary import Writer
 from packaging import version
 
+logger = ezpz.get_logger(__name__)
+
+try:
+    import wandb
+except Exception:
+    wandb = None
+
 
 class TimerBase(ABC):
 
@@ -33,11 +42,10 @@ def elapsed(self, reset=True, barrier=False):
         pass
 
 
-
 class DummyTimer(TimerBase):
 
     def __init__(self):
-        super().__init__('dummy timer')
+        super().__init__("dummy timer")
 
     def start(self, barrier=False):
         return
@@ -49,9 +57,7 @@ def reset(self):
         return
 
     def elapsed(self, reset=True, barrier=False):
-        raise Exception('dummy timer should not be used to '
-                        'calculate elapsed time')
-
+        raise Exception("dummy timer should not be used to " "calculate elapsed time")
 
 
 class Timer(TimerBase):
@@ -72,37 +78,32 @@ def __init__(self, name):
         self._barrier_group = None
         self._start_time = time.time()
 
-
     def set_barrier_group(self, barrier_group):
         self._barrier_group = barrier_group
 
-
     def start(self, barrier=False):
         """Start the timer."""
-        assert not self._started, 'timer has already been started'
+        assert not self._started, "timer has already been started"
         if barrier:
             torch.distributed.barrier(group=self._barrier_group)
         get_accelerator().synchronize()
         self._start_time = time.time()
         self._started = True
 
-
     def stop(self, barrier=False):
         """Stop the timer."""
-        assert self._started, 'timer is not started'
+        assert self._started, "timer is not started"
         if barrier:
             torch.distributed.barrier(group=self._barrier_group)
         get_accelerator().synchronize()
-        self._elapsed += (time.time() - self._start_time)
+        self._elapsed += time.time() - self._start_time
         self._started = False
 
-
     def reset(self):
         """Reset timer."""
         self._elapsed = 0.0
         self._started = False
 
-
     def elapsed(self, reset=True, barrier=False):
         """Calculate the elapsed time."""
         _started = self._started
@@ -120,7 +121,6 @@ def elapsed(self, reset=True, barrier=False):
         return _elapsed
 
 
-
 class Timers:
     """Group of timers."""
 
@@ -132,24 +132,27 @@ def __init__(self, log_level, log_option):
         self._dummy_timer = DummyTimer()
         self._max_log_level = 2
 
-
     def __call__(self, name, log_level=None):
         # If the timer has already been set, then check if the log-level
         # is provided, it matches the one that the timer was created with.
         if name in self._timers:
             if log_level is not None:
-                assert log_level == self._log_levels[name], \
-                    'input log level {} does not match already existing '\
-                    'log level {} for {} timer'.format(
-                        log_level, self._log_levels[name], name)
+                assert log_level == self._log_levels[name], (
+                    "input log level {} does not match already existing "
+                    "log level {} for {} timer".format(
+                        log_level, self._log_levels[name], name
+                    )
+                )
             return self._timers[name]
         # If timer does not exist and no log level is provided,
         # set it to the max log level which is 2.
         if log_level is None:
             log_level = self._max_log_level
-        assert log_level <= self._max_log_level, \
-            'log level {} is larger than max supported log level {}'.format(
-                log_level, self._max_log_level)
+        assert (
+            log_level <= self._max_log_level
+        ), "log level {} is larger than max supported log level {}".format(
+            log_level, self._max_log_level
+        )
         # Now if the input log level is larger than the one set for
         # the timers class, just ignore it and return a dummy timer.
         if log_level > self._log_level:
@@ -159,7 +162,6 @@ def __call__(self, name, log_level=None):
         self._log_levels[name] = log_level
         return self._timers[name]
 
-
     def _get_elapsed_time_all_ranks(self, names, reset, barrier):
         """
         Assumptions:
@@ -185,71 +187,92 @@ def _get_elapsed_time_all_ranks(self, names, reset, barrier):
         # pytorch yet. It is simpler to deal with a single tensor
         # and since we are only gathering a small amount of data,
         # it should be ok to use all-gather instead of gather.
-        rank_name_to_time = torch.zeros((world_size, len(names)),
-                                        dtype=torch.float,
-                                        device=get_accelerator().current_device_name())
+        rank_name_to_time = torch.zeros(
+            (world_size, len(names)),
+            dtype=torch.float,
+            device=get_accelerator().current_device_name(),
+        )
         for i, name in enumerate(names):
             if name in self._timers:
                 # Here we don't need to pass the barrier flag as all
                 # the processes are already in sync. This avoids the
                 # issue of different timers having different barrier
                 # groups inside their class.
-                rank_name_to_time[rank, i] = self._timers[name].elapsed(
-                    reset=reset)
+                rank_name_to_time[rank, i] = self._timers[name].elapsed(reset=reset)
 
         # See the note above for why we are not using gather.
-        if version.parse(torch.__version__) >= version.parse('1.13'):
-            torch.distributed.all_gather_into_tensor(rank_name_to_time.view(-1),
-                                           rank_name_to_time[rank, :].view(-1))
+        if version.parse(torch.__version__) >= version.parse("1.13"):
+            torch.distributed.all_gather_into_tensor(
+                rank_name_to_time.view(-1), rank_name_to_time[rank, :].view(-1)
+            )
         else:
-            torch.distributed._all_gather_base(rank_name_to_time.view(-1),
-                                         rank_name_to_time[rank, :].view(-1))
+            torch.distributed._all_gather_base(
+                rank_name_to_time.view(-1), rank_name_to_time[rank, :].view(-1)
+            )
 
         return rank_name_to_time
 
-
     def _get_global_min_max_time(self, names, reset, barrier, normalizer):
         """Report only min and max times across all ranks."""
 
-        rank_name_to_time = self._get_elapsed_time_all_ranks(names, reset,
-                                                             barrier)
+        rank_name_to_time = self._get_elapsed_time_all_ranks(names, reset, barrier)
         name_to_min_max_time = {}
         for i, name in enumerate(names):
             rank_to_time = rank_name_to_time[:, i]
+            try:
+                times = rank_to_time[rank_to_time > 0.0]
+            except Exception:
+                # this can happen if rank_to_time is not a tensor
+                raise Exception(
+                    "timer {} did not return a tensor, got {}".format(
+                        name, type(rank_to_time)
+                    )
+                )
             # filter out the ones we did not have any timings for
-            rank_to_time = rank_to_time[rank_to_time > 0.0]
+            # try:
+            #     rank_to_time = rank_to_time[rank_to_time > 0.0]
+            # except Exception:
+            #     # this can happen if rank_to_time is not a tensor
+            #     raise Exception(
+            #         "timer {} did not return a tensor, got {}".format(
+            #             name, type(rank_to_time)
+            #         )
+            #     )
+
             # If the timer exists:
-            if rank_to_time.numel() > 0:
+            if times.numel() > 0:
                 name_to_min_max_time[name] = (
-                    rank_to_time.min().item() / normalizer,
-                    rank_to_time.max().item() / normalizer)
+                    times.min().item() / normalizer,
+                    times.max().item() / normalizer,
+                )
         return name_to_min_max_time
 
-
-    def _get_global_min_max_time_string(self, names, reset, barrier,
-                                        normalizer, max_only):
+    def _get_global_min_max_time_string(
+        self, names, reset, barrier, normalizer, max_only
+    ):
         name_to_min_max_time = self._get_global_min_max_time(
-            names, reset, barrier, normalizer)
+            names, reset, barrier, normalizer
+        )
         if not name_to_min_max_time:
             return None
-        output_string = '(min, max) time across ranks (ms):'
+        output_string = "(min, max) time across ranks (ms):"
         for name in name_to_min_max_time:
             min_time, max_time = name_to_min_max_time[name]
             if max_only:
-                output_string += '\n    {}: {:.2f}'.format(
-                    (name+' ').ljust(48, '.'), max_time)
+                output_string += "\n    {}: {:.2f}".format(
+                    (name + " ").ljust(48, "."), max_time
+                )
             else:
-                output_string += '\n    {}: ({:.2f}, {:.2f})'.format(
-                    (name+' ').ljust(48, '.'), min_time, max_time)
+                output_string += "\n    {}: ({:.2f}, {:.2f})".format(
+                    (name + " ").ljust(48, "."), min_time, max_time
+                )
         return output_string
 
-
     def _get_all_ranks_time_string(self, names, reset, barrier, normalizer):
         """Report times across all ranks."""
-        rank_name_to_time = self._get_elapsed_time_all_ranks(names, reset,
-                                                             barrier)
+        rank_name_to_time = self._get_elapsed_time_all_ranks(names, reset, barrier)
 
-        output_string = 'times across ranks (ms):'
+        output_string = "times across ranks (ms):"
         no_reported_timing = True
         for i, name in enumerate(names):
             not_yet_found = True
@@ -258,42 +281,48 @@ def _get_all_ranks_time_string(self, names, reset, barrier, normalizer):
                     no_reported_timing = False
                     if not_yet_found:
                         not_yet_found = False
-                        output_string += '\n  {}:'.format(name)
-                    output_string += '\n     rank {:2d}: {:.2f}'.format(
-                        rank, rank_name_to_time[rank, i] / normalizer)
+                        output_string += "\n  {}:".format(name)
+                    output_string += "\n     rank {:2d}: {:.2f}".format(
+                        rank, rank_name_to_time[rank, i] / normalizer
+                    )
         if no_reported_timing:
             return None
         return output_string
 
-
     def log(self, names, rank=None, normalizer=1.0, reset=True, barrier=False):
         """Log a group of timers."""
 
         # Print.
         assert normalizer > 0.0
-        if self._log_option in ['max', 'minmax']:
+        if self._log_option in ["max", "minmax"]:
             max_only = False
-            if self._log_option == 'max':
+            if self._log_option == "max":
                 max_only = True
             output_string = self._get_global_min_max_time_string(
-                names, reset, barrier, normalizer/1000.0, max_only)
-        elif self._log_option == 'all':
-            output_string = self._get_all_ranks_time_string(names,
-                                                            reset, barrier,
-                                                            normalizer/1000.0)
+                names, reset, barrier, normalizer / 1000.0, max_only
+            )
+        elif self._log_option == "all":
+            output_string = self._get_all_ranks_time_string(
+                names, reset, barrier, normalizer / 1000.0
+            )
         else:
-            raise Exception('unknown timing log option {}'.format(
-                self._log_option))
+            raise Exception("unknown timing log option {}".format(self._log_option))
 
         # If no input rank is provided, log on last rank.
         if rank is None:
             rank = torch.distributed.get_world_size() - 1
         if rank == torch.distributed.get_rank() and output_string is not None:
-            print(output_string, flush=True)
-
-
-    def write(self, names, writer, iteration, normalizer=1.0,
-              reset=False, barrier=False):
+            logger.info(output_string) #, flush=True)
+
+    def write(
+        self,
+        names: list[str],
+        writer: Writer,
+        iteration: int,
+        normalizer: float = 1.0,
+        reset: bool = False,
+        barrier: bool = False,
+    ):
         """Write timers to a tensorboard writer
         Note that we only report maximum time across ranks to tensorboard.
         """
@@ -302,8 +331,22 @@ def write(self, names, writer, iteration, normalizer=1.0,
         # polutes the runs list, so we just add each as a scalar
         assert normalizer > 0.0
         name_to_min_max_time = self._get_global_min_max_time(
-            names, reset, barrier, normalizer)
-        if writer is not None:
+            names, reset, barrier, normalizer
+        )
+        # <<<<<<< HEAD
+        timer_data = {
+            "timers/iteration": iteration,
+            **{
+                f"timers/{k}-time": name_to_min_max_time[k][1]
+                for k in name_to_min_max_time
+            },
+        }
+        if wandb is not None and getattr(wandb, "run", None) is not None:
+            wandb.log(timer_data, commit=False)
+        # =======
+        #         if writer.is_enabled():
+        # >>>>>>> 0d6e3793a1fc06eded9764ef15ad12bcc0281101
+        if writer is not None:  #  and writer.is_enabled():
             for name in name_to_min_max_time:
                 _, max_time = name_to_min_max_time[name]
-                writer.add_scalar(name + '-time', max_time, iteration)
+                writer.add_scalar(f"{name}-time", max_time, iteration)
diff --git a/megatron/tokenizer/bert_tokenization.py b/megatron/tokenizer/bert_tokenization.py
index 642041e778e..19fbc7716b6 100644
--- a/megatron/tokenizer/bert_tokenization.py
+++ b/megatron/tokenizer/bert_tokenization.py
@@ -43,13 +43,16 @@ def validate_case_matches_checkpoint(do_lower_case, init_checkpoint):
     model_name = m.group(1)
 
     lower_models = [
-        "uncased_L-24_H-1024_A-16", "uncased_L-12_H-768_A-12",
-        "multilingual_L-12_H-768_A-12", "chinese_L-12_H-768_A-12"
+        "uncased_L-24_H-1024_A-16",
+        "uncased_L-12_H-768_A-12",
+        "multilingual_L-12_H-768_A-12",
+        "chinese_L-12_H-768_A-12",
     ]
 
     cased_models = [
-        "cased_L-12_H-768_A-12", "cased_L-24_H-1024_A-16",
-        "multi_cased_L-12_H-768_A-12"
+        "cased_L-12_H-768_A-12",
+        "cased_L-24_H-1024_A-16",
+        "multi_cased_L-12_H-768_A-12",
     ]
 
     is_bad_config = False
@@ -71,8 +74,9 @@ def validate_case_matches_checkpoint(do_lower_case, init_checkpoint):
             "However, `%s` seems to be a %s model, so you "
             "should pass in `--do_lower_case=%s` so that the fine-tuning matches "
             "how the model was pre-training. If this error is wrong, please "
-            "just comment out this check." % (actual_flag, init_checkpoint,
-                                              model_name, case_name, opposite_flag))
+            "just comment out this check."
+            % (actual_flag, init_checkpoint, model_name, case_name, opposite_flag)
+        )
 
 
 def convert_to_unicode(text):
@@ -122,7 +126,7 @@ def load_vocab(vocab_file):
     """Loads a vocabulary file into a dictionary."""
     vocab = collections.OrderedDict()
     index = 0
-    with open(vocab_file, "r", encoding = "utf-8") as reader:
+    with open(vocab_file, "r", encoding="utf-8") as reader:
         while True:
             token = convert_to_unicode(reader.readline())
             if not token:
@@ -183,27 +187,27 @@ def convert_ids_to_tokens(self, ids):
 
     @staticmethod
     def convert_tokens_to_string(tokens, clean_up_tokenization_spaces=True):
-        """ Converts a sequence of tokens (string) in a single string. """
+        """Converts a sequence of tokens (string) in a single string."""
 
         def clean_up_tokenization(out_string):
-            """ Clean up a list of simple English tokenization artifacts
+            """Clean up a list of simple English tokenization artifacts
             like spaces before punctuations and abreviated forms.
             """
             out_string = (
                 out_string.replace(" .", ".")
-                    .replace(" ?", "?")
-                    .replace(" !", "!")
-                    .replace(" ,", ",")
-                    .replace(" ' ", "'")
-                    .replace(" n't", "n't")
-                    .replace(" 'm", "'m")
-                    .replace(" 's", "'s")
-                    .replace(" 've", "'ve")
-                    .replace(" 're", "'re")
+                .replace(" ?", "?")
+                .replace(" !", "!")
+                .replace(" ,", ",")
+                .replace(" ' ", "'")
+                .replace(" n't", "n't")
+                .replace(" 'm", "'m")
+                .replace(" 's", "'s")
+                .replace(" 've", "'ve")
+                .replace(" 're", "'re")
             )
             return out_string
 
-        text = ' '.join(tokens).replace(' ##', '').strip()
+        text = " ".join(tokens).replace(" ##", "").strip()
         if clean_up_tokenization_spaces:
             clean_text = clean_up_tokenization(text)
             return clean_text
@@ -303,14 +307,16 @@ def _is_chinese_char(self, cp):
         # as is Japanese Hiragana and Katakana. Those alphabets are used to write
         # space-separated words, so they are not treated specially and handled
         # like the all of the other languages.
-        if ((cp >= 0x4E00 and cp <= 0x9FFF) or  #
-            (cp >= 0x3400 and cp <= 0x4DBF) or  #
-            (cp >= 0x20000 and cp <= 0x2A6DF) or  #
-            (cp >= 0x2A700 and cp <= 0x2B73F) or  #
-            (cp >= 0x2B740 and cp <= 0x2B81F) or  #
-            (cp >= 0x2B820 and cp <= 0x2CEAF) or
-            (cp >= 0xF900 and cp <= 0xFAFF) or  #
-                (cp >= 0x2F800 and cp <= 0x2FA1F)):  #
+        if (
+            (cp >= 0x4E00 and cp <= 0x9FFF)  #
+            or (cp >= 0x3400 and cp <= 0x4DBF)  #
+            or (cp >= 0x20000 and cp <= 0x2A6DF)  #
+            or (cp >= 0x2A700 and cp <= 0x2B73F)  #
+            or (cp >= 0x2B740 and cp <= 0x2B81F)  #
+            or (cp >= 0x2B820 and cp <= 0x2CEAF)
+            or (cp >= 0xF900 and cp <= 0xFAFF)  #
+            or (cp >= 0x2F800 and cp <= 0x2FA1F)
+        ):  #
             return True
 
         return False
@@ -320,7 +326,7 @@ def _clean_text(self, text):
         output = []
         for char in text:
             cp = ord(char)
-            if cp == 0 or cp == 0xfffd or _is_control(char):
+            if cp == 0 or cp == 0xFFFD or _is_control(char):
                 continue
             if _is_whitespace(char):
                 output.append(" ")
@@ -422,8 +428,12 @@ def _is_punctuation(char):
     # Characters such as "^", "$", and "`" are not in the Unicode
     # Punctuation class but we treat them as punctuation anyways, for
     # consistency.
-    if ((cp >= 33 and cp <= 47) or (cp >= 58 and cp <= 64) or
-            (cp >= 91 and cp <= 96) or (cp >= 123 and cp <= 126)):
+    if (
+        (cp >= 33 and cp <= 47)
+        or (cp >= 58 and cp <= 64)
+        or (cp >= 91 and cp <= 96)
+        or (cp >= 123 and cp <= 126)
+    ):
         return True
     cat = unicodedata.category(char)
     if cat.startswith("P"):
diff --git a/megatron/tokenizer/gpt2_tokenization.py b/megatron/tokenizer/gpt2_tokenization.py
index 3f37e449089..380b6704575 100644
--- a/megatron/tokenizer/gpt2_tokenization.py
+++ b/megatron/tokenizer/gpt2_tokenization.py
@@ -15,8 +15,7 @@
 
 """Tokenization classes for OpenAI GPT."""
 
-from __future__ import (absolute_import, division, print_function,
-                        unicode_literals)
+from __future__ import (absolute_import, division, print_function, unicode_literals)
 
 import sys
 import json
@@ -38,17 +37,17 @@ def lru_cache():
 logger = logging.getLogger(__name__)
 
 PRETRAINED_VOCAB_ARCHIVE_MAP = {
-    'gpt2': "https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json",
+    "gpt2": "https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json",
 }
 PRETRAINED_MERGES_ARCHIVE_MAP = {
-    'gpt2': "https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt",
+    "gpt2": "https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt",
 }
 PRETRAINED_VOCAB_POSITIONAL_EMBEDDINGS_SIZE_MAP = {
-    'gpt2': 1024,
+    "gpt2": 1024,
 }
-VOCAB_NAME = 'vocab.json'
-MERGES_NAME = 'merges.txt'
-SPECIAL_TOKENS_NAME = 'special_tokens.txt'
+VOCAB_NAME = "vocab.json"
+MERGES_NAME = "merges.txt"
+SPECIAL_TOKENS_NAME = "special_tokens.txt"
 
 
 @lru_cache()
@@ -63,8 +62,11 @@ def bytes_to_unicode():
     And avoids mapping to whitespace/control characters the bpe code barfs on.
     """
     _chr = unichr if sys.version_info[0] == 2 else chr
-    bs = list(range(ord("!"), ord("~") + 1)) + list(range(ord("¡"), ord("¬") + 1)) + \
-        list(range(ord("®"), ord("ÿ") + 1))
+    bs = (
+        list(range(ord("!"), ord("~") + 1))
+        + list(range(ord("¡"), ord("¬") + 1))
+        + list(range(ord("®"), ord("ÿ") + 1))
+    )
     cs = bs[:]
     n = 0
     for b in range(2**8):
@@ -94,8 +96,11 @@ class GPT2Tokenizer(object):
     GPT-2 BPE tokenizer. Peculiarities:
         - Byte-level BPE
     """
+
     @classmethod
-    def from_pretrained(cls, pretrained_model_name_or_path, cache_dir=None, *inputs, **kwargs):
+    def from_pretrained(
+        cls, pretrained_model_name_or_path, cache_dir=None, *inputs, **kwargs
+    ):
         """
         Instantiate a PreTrainedBertModel from a pre-trained model file.
         Download and cache the pre-trained model file if needed.
@@ -107,14 +112,19 @@ def from_pretrained(cls, pretrained_model_name_or_path, cache_dir=None, *inputs,
         else:
             vocab_file = os.path.join(pretrained_model_name_or_path, VOCAB_NAME)
             merges_file = os.path.join(pretrained_model_name_or_path, MERGES_NAME)
-            special_tokens_file = os.path.join(pretrained_model_name_or_path, SPECIAL_TOKENS_NAME)
+            special_tokens_file = os.path.join(
+                pretrained_model_name_or_path, SPECIAL_TOKENS_NAME
+            )
             if not os.path.exists(special_tokens_file):
                 special_tokens_file = None
             else:
-                logger.info("loading special tokens file {}".format(special_tokens_file))
+                logger.info(
+                    "loading special tokens file {}".format(special_tokens_file)
+                )
         # redirect to the cache, if necessary
         try:
             from .file_utils import cached_path
+
             resolved_vocab_file = cached_path(vocab_file, cache_dir=cache_dir)
             resolved_merges_file = cached_path(merges_file, cache_dir=cache_dir)
         except EnvironmentError:
@@ -123,45 +133,68 @@ def from_pretrained(cls, pretrained_model_name_or_path, cache_dir=None, *inputs,
                 "We assumed '{}' was a path or url but couldn't find files {} and {} "
                 "at this path or url.".format(
                     pretrained_model_name_or_path,
-                    ', '.join(PRETRAINED_VOCAB_ARCHIVE_MAP.keys()),
+                    ", ".join(PRETRAINED_VOCAB_ARCHIVE_MAP.keys()),
                     pretrained_model_name_or_path,
-                    vocab_file, merges_file))
+                    vocab_file,
+                    merges_file,
+                )
+            )
             return None
         if resolved_vocab_file == vocab_file and resolved_merges_file == merges_file:
             logger.info("loading vocabulary file {}".format(vocab_file))
             logger.info("loading merges file {}".format(merges_file))
         else:
-            logger.info("loading vocabulary file {} from cache at {}".format(
-                vocab_file, resolved_vocab_file))
-            logger.info("loading merges file {} from cache at {}".format(
-                merges_file, resolved_merges_file))
-        if pretrained_model_name_or_path in PRETRAINED_VOCAB_POSITIONAL_EMBEDDINGS_SIZE_MAP:
+            logger.info(
+                "loading vocabulary file {} from cache at {}".format(
+                    vocab_file, resolved_vocab_file
+                )
+            )
+            logger.info(
+                "loading merges file {} from cache at {}".format(
+                    merges_file, resolved_merges_file
+                )
+            )
+        if (
+            pretrained_model_name_or_path
+            in PRETRAINED_VOCAB_POSITIONAL_EMBEDDINGS_SIZE_MAP
+        ):
             # if we're using a pretrained model, ensure the tokenizer wont index sequences longer
             # than the number of positional embeddings
-            max_len = PRETRAINED_VOCAB_POSITIONAL_EMBEDDINGS_SIZE_MAP[pretrained_model_name_or_path]
-            kwargs['max_len'] = min(kwargs.get('max_len', int(1e12)), max_len)
+            max_len = PRETRAINED_VOCAB_POSITIONAL_EMBEDDINGS_SIZE_MAP[
+                pretrained_model_name_or_path
+            ]
+            kwargs["max_len"] = min(kwargs.get("max_len", int(1e12)), max_len)
         # Instantiate tokenizer.
-        if special_tokens_file and 'special_tokens' not in kwargs:
-            special_tokens = open(special_tokens_file, encoding='utf-8').read().split('\n')[:-1]
+        if special_tokens_file and "special_tokens" not in kwargs:
+            special_tokens = (
+                open(special_tokens_file, encoding="utf-8").read().split("\n")[:-1]
+            )
         else:
-            special_tokens = kwargs.pop('special_tokens', [])
+            special_tokens = kwargs.pop("special_tokens", [])
         tokenizer = cls(
             resolved_vocab_file,
             resolved_merges_file,
             special_tokens=special_tokens,
             *inputs,
-            **kwargs)
+            **kwargs
+        )
         return tokenizer
 
-    def __init__(self, vocab_file, merges_file, errors='replace',
-                 special_tokens=None, max_len=None):
+    def __init__(
+        self,
+        vocab_file,
+        merges_file,
+        errors="replace",
+        special_tokens=None,
+        max_len=None,
+    ):
         self.max_len = max_len if max_len is not None else int(1e12)
         self.encoder = json.load(open(vocab_file))
         self.decoder = {v: k for k, v in self.encoder.items()}
         self.errors = errors  # how to handle errors in decoding
         self.byte_encoder = bytes_to_unicode()
         self.byte_decoder = {v: k for k, v in self.byte_encoder.items()}
-        bpe_data = open(merges_file, encoding='utf-8').read().split('\n')[1:-1]
+        bpe_data = open(merges_file, encoding="utf-8").read().split("\n")[1:-1]
         bpe_merges = [tuple(merge.split()) for merge in bpe_data]
         self.bpe_ranks = dict(zip(bpe_merges, range(len(bpe_merges))))
         self.cache = {}
@@ -169,7 +202,8 @@ def __init__(self, vocab_file, merges_file, errors='replace',
         # Should haved added re.IGNORECASE so BPE merges can happen for
         # capitalized versions of contractions
         self.pat = re.compile(
-            r"""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+""")
+            r"""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""
+        )
 
         self.special_tokens = {}
         self.special_tokens_decoder = {}
@@ -179,16 +213,17 @@ def __len__(self):
         return len(self.encoder) + len(self.special_tokens)
 
     def set_special_tokens(self, special_tokens):
-        """ Add a list of additional tokens to the encoder.
-            The additional tokens are indexed starting from the last index of the
-            current vocabulary in the order of the `special_tokens` list.
+        """Add a list of additional tokens to the encoder.
+        The additional tokens are indexed starting from the last index of the
+        current vocabulary in the order of the `special_tokens` list.
         """
         if not special_tokens:
             self.special_tokens = {}
             self.special_tokens_decoder = {}
             return
-        self.special_tokens = dict((tok, len(self.encoder) + i)
-                                   for i, tok in enumerate(special_tokens))
+        self.special_tokens = dict(
+            (tok, len(self.encoder) + i) for i, tok in enumerate(special_tokens)
+        )
         self.special_tokens_decoder = {v: k for k, v in self.special_tokens.items()}
         logger.info("Special tokens {}".format(self.special_tokens))
 
@@ -202,7 +237,7 @@ def bpe(self, token):
             return token
 
         while True:
-            bigram = min(pairs, key=lambda pair: self.bpe_ranks.get(pair, float('inf')))
+            bigram = min(pairs, key=lambda pair: self.bpe_ranks.get(pair, float("inf")))
             if bigram not in self.bpe_ranks:
                 break
             first, second = bigram
@@ -229,25 +264,27 @@ def bpe(self, token):
                 break
             else:
                 pairs = get_pairs(word)
-        word = ' '.join(word)
+        word = " ".join(word)
         self.cache[token] = word
         return word
 
     def tokenize(self, text):
-        """ Tokenize a string. """
+        """Tokenize a string."""
         bpe_tokens = []
         for token in re.findall(self.pat, text):
             if sys.version_info[0] == 2:
-                token = ''.join(self.byte_encoder[ord(b)] for b in token)
+                token = "".join(self.byte_encoder[ord(b)] for b in token)
             else:
-                token = ''.join(self.byte_encoder[b] for b in token.encode('utf-8'))
-            bpe_tokens.extend(bpe_token for bpe_token in self.bpe(token).split(' '))
+                token = "".join(self.byte_encoder[b] for b in token.encode("utf-8"))
+            bpe_tokens.extend(bpe_token for bpe_token in self.bpe(token).split(" "))
         return bpe_tokens
 
     def convert_tokens_to_ids(self, tokens):
-        """ Converts a sequence of tokens into ids using the vocab. """
+        """Converts a sequence of tokens into ids using the vocab."""
         ids = []
-        if isinstance(tokens, str) or (sys.version_info[0] == 2 and isinstance(tokens, unicode)):
+        if isinstance(tokens, str) or (
+            sys.version_info[0] == 2 and isinstance(tokens, unicode)
+        ):
             if tokens in self.special_tokens:
                 return self.special_tokens[tokens]
             else:
@@ -262,7 +299,8 @@ def convert_tokens_to_ids(self, tokens):
                 "Token indices sequence length is longer than the specified maximum "
                 " sequence length for this OpenAI GPT model ({} > {}). Running this"
                 " sequence through the model will result in indexing errors".format(
-                    len(ids), self.max_len)
+                    len(ids), self.max_len
+                )
             )
         return ids
 
@@ -281,41 +319,57 @@ def encode(self, text):
         return self.convert_tokens_to_ids(self.tokenize(text))
 
     def decode(self, tokens):
-        text = ''.join([self.decoder[token] for token in tokens])
-        text = bytearray([self.byte_decoder[c] for c in text]).decode('utf-8', errors=self.errors)
+        text = "".join([self.decoder[token] for token in tokens])
+        text = bytearray([self.byte_decoder[c] for c in text]).decode(
+            "utf-8", errors=self.errors
+        )
         return text
 
     def save_vocabulary(self, vocab_path):
         """Save the tokenizer vocabulary and merge files to a directory."""
         if not os.path.isdir(vocab_path):
-            logger.error("Vocabulary path ({}) should be a directory".format(vocab_path))
+            logger.error(
+                "Vocabulary path ({}) should be a directory".format(vocab_path)
+            )
             return
         vocab_file = os.path.join(vocab_path, VOCAB_NAME)
         merge_file = os.path.join(vocab_path, MERGES_NAME)
         special_tokens_file = os.path.join(vocab_path, SPECIAL_TOKENS_NAME)
 
-        with open(vocab_file, 'w', encoding='utf-8') as f:
+        with open(vocab_file, "w", encoding="utf-8") as f:
             f.write(json.dumps(self.encoder, ensure_ascii=False))
 
         index = 0
         with open(merge_file, "w", encoding="utf-8") as writer:
-            writer.write(u'#version: 0.2\n')
-            for bpe_tokens, token_index in sorted(self.bpe_ranks.items(), key=lambda kv: kv[1]):
+            writer.write("#version: 0.2\n")
+            for bpe_tokens, token_index in sorted(
+                self.bpe_ranks.items(), key=lambda kv: kv[1]
+            ):
                 if index != token_index:
-                    logger.warning("Saving vocabulary to {}: BPE merge indices are not consecutive."
-                                   " Please check that the tokenizer is not corrupted!".format(merge_file))
+                    logger.warning(
+                        "Saving vocabulary to {}: BPE merge indices are not consecutive."
+                        " Please check that the tokenizer is not corrupted!".format(
+                            merge_file
+                        )
+                    )
                     index = token_index
-                writer.write(' '.join(bpe_tokens) + u'\n')
+                writer.write(" ".join(bpe_tokens) + "\n")
                 index += 1
 
         index = len(self.encoder)
-        with open(special_tokens_file, 'w', encoding='utf-8') as writer:
-            for token, token_index in sorted(self.special_tokens.items(), key=lambda kv: kv[1]):
+        with open(special_tokens_file, "w", encoding="utf-8") as writer:
+            for token, token_index in sorted(
+                self.special_tokens.items(), key=lambda kv: kv[1]
+            ):
                 if index != token_index:
-                    logger.warning("Saving special tokens vocabulary to {}: BPE indices are not consecutive."
-                                   " Please check that the tokenizer is not corrupted!".format(special_tokens_file))
+                    logger.warning(
+                        "Saving special tokens vocabulary to {}: BPE indices are not consecutive."
+                        " Please check that the tokenizer is not corrupted!".format(
+                            special_tokens_file
+                        )
+                    )
                     index = token_index
-                writer.write(token + u'\n')
+                writer.write(token + "\n")
                 index += 1
 
         return vocab_file, merge_file, special_tokens_file
diff --git a/megatron/tokenizer/tokenizer.py b/megatron/tokenizer/tokenizer.py
index 023c2f756c4..0776a087411 100644
--- a/megatron/tokenizer/tokenizer.py
+++ b/megatron/tokenizer/tokenizer.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 """Megatron tokenizers."""
@@ -13,46 +14,54 @@
 def build_tokenizer(args):
     """Initialize tokenizer."""
     if args.rank == 0:
-        print('> building {} tokenizer ...'.format(args.tokenizer_type),
-              flush=True)
+        print("> building {} tokenizer ...".format(args.tokenizer_type), flush=True)
 
     # Select and instantiate the tokenizer.
-    if args.tokenizer_type == 'BertWordPieceLowerCase':
+    if args.tokenizer_type == "BertWordPieceLowerCase":
         assert args.vocab_file is not None
-        tokenizer = _BertWordPieceTokenizer(vocab_file=args.vocab_file,
-                                            lower_case=True,
-                                            vocab_extra_ids=args.vocab_extra_ids)
-    elif args.tokenizer_type == 'BertWordPieceCase':
+        tokenizer = _BertWordPieceTokenizer(
+            vocab_file=args.vocab_file,
+            lower_case=True,
+            vocab_extra_ids=args.vocab_extra_ids,
+        )
+    elif args.tokenizer_type == "BertWordPieceCase":
         assert args.vocab_file is not None
-        tokenizer = _BertWordPieceTokenizer(vocab_file=args.vocab_file,
-                                            lower_case=False,
-                                            vocab_extra_ids=args.vocab_extra_ids)
-    elif args.tokenizer_type == 'GPT2BPETokenizer':
+        tokenizer = _BertWordPieceTokenizer(
+            vocab_file=args.vocab_file,
+            lower_case=False,
+            vocab_extra_ids=args.vocab_extra_ids,
+        )
+    elif args.tokenizer_type == "GPT2BPETokenizer":
         assert args.vocab_file is not None
         assert args.merge_file is not None
         tokenizer = _GPT2BPETokenizer(args.vocab_file, args.merge_file)
-    elif args.tokenizer_type == 'SentencePieceTokenizer':
+    elif args.tokenizer_type == "SentencePieceTokenizer":
         assert args.tokenizer_model is not None
-        tokenizer = _SentencePieceTokenizer(args.tokenizer_model, vocab_extra_ids=args.vocab_extra_ids)
-    elif args.tokenizer_type == 'GPTSentencePieceTokenizer':
+        tokenizer = _SentencePieceTokenizer(
+            args.tokenizer_model, vocab_extra_ids=args.vocab_extra_ids
+        )
+    elif args.tokenizer_type == "GPTSentencePieceTokenizer":
         assert args.tokenizer_model is not None
         tokenizer = _GPTSentencePieceTokenizer(args.tokenizer_model)
-    elif args.tokenizer_type == 'Llama2Tokenizer':
+    elif args.tokenizer_type == "Llama2Tokenizer":
         assert args.tokenizer_model is not None
         tokenizer = _Llama2Tokenizer(args.tokenizer_model)
-    elif args.tokenizer_type == 'NullTokenizer':
+    elif args.tokenizer_type == "NullTokenizer":
         assert args.vocab_size is not None
         tokenizer = _NullTokenizer(args.vocab_size)
-    elif args.tokenizer_type == 'HFTokenizer':
+    elif args.tokenizer_type == "HFTokenizer":
         assert args.tokenizer_model is not None
-        tokenizer = _HFTokenizer(args.tokenizer_model)
+        # tokenizer = _HFTokenizer(args.tokenizer_model)
+        tokenizer = _HFTokenizer(
+            args.tokenizer_model, args.seq_length, args.trust_remote_code
+        )
     else:
-        raise NotImplementedError('{} tokenizer is not '
-                                  'implemented.'.format(args.tokenizer_type))
-    
+        raise NotImplementedError(
+            "{} tokenizer is not " "implemented.".format(args.tokenizer_type)
+        )
+
     # Add vocab size.
-    args.padded_vocab_size = _vocab_size_with_padding(tokenizer.vocab_size,
-                                                      args)
+    args.padded_vocab_size = _vocab_size_with_padding(tokenizer.vocab_size, args)
 
     return tokenizer
 
@@ -62,14 +71,15 @@ def _vocab_size_with_padding(orig_vocab_size, args):
     still having GPU friendly size."""
 
     after = orig_vocab_size
-    multiple = args.make_vocab_size_divisible_by * \
-        args.tensor_model_parallel_size
+    multiple = args.make_vocab_size_divisible_by * args.tensor_model_parallel_size
     while (after % multiple) != 0:
         after += 1
     if args.rank == 0:
-        print(' > padded vocab (size: {}) with {} dummy tokens '
-              '(new size: {})'.format(
-                  orig_vocab_size, after - orig_vocab_size, after), flush=True)
+        print(
+            " > padded vocab (size: {}) with {} dummy tokens "
+            "(new size: {})".format(orig_vocab_size, after - orig_vocab_size, after),
+            flush=True,
+        )
     return after
 
 
@@ -102,33 +112,39 @@ def tokenize(self, text):
         pass
 
     def detokenize(self, token_ids):
-        raise NotImplementedError('detokenizer is not implemented for {} '
-                                  'tokenizer'.format(self.name))
+        raise NotImplementedError(
+            "detokenizer is not implemented for {} " "tokenizer".format(self.name)
+        )
 
     @property
     def cls(self):
-        raise NotImplementedError('CLS is not provided for {} '
-                                  'tokenizer'.format(self.name))
+        raise NotImplementedError(
+            "CLS is not provided for {} " "tokenizer".format(self.name)
+        )
 
     @property
     def sep(self):
-        raise NotImplementedError('SEP is not provided for {} '
-                                  'tokenizer'.format(self.name))
+        raise NotImplementedError(
+            "SEP is not provided for {} " "tokenizer".format(self.name)
+        )
 
     @property
     def pad(self):
-        raise NotImplementedError('PAD is not provided for {} '
-                                  'tokenizer'.format(self.name))
+        raise NotImplementedError(
+            "PAD is not provided for {} " "tokenizer".format(self.name)
+        )
 
     @property
     def eod(self):
-        raise NotImplementedError('EOD is not provided for {} '
-                                  'tokenizer'.format(self.name))
+        raise NotImplementedError(
+            "EOD is not provided for {} " "tokenizer".format(self.name)
+        )
 
     @property
     def mask(self):
-        raise NotImplementedError('MASK is not provided for {} '
-                                  'tokenizer'.format(self.name))
+        raise NotImplementedError(
+            "MASK is not provided for {} " "tokenizer".format(self.name)
+        )
 
 
 class _BertWordPieceTokenizer(AbstractTokenizer):
@@ -136,25 +152,24 @@ class _BertWordPieceTokenizer(AbstractTokenizer):
 
     def __init__(self, vocab_file, lower_case=True, vocab_extra_ids=0):
         if lower_case:
-            name = 'BERT Lower Case'
+            name = "BERT Lower Case"
         else:
-            name = 'BERT Upper Case'
+            name = "BERT Upper Case"
         super().__init__(name)
         self.tokenizer = FullBertTokenizer(vocab_file, do_lower_case=lower_case)
-        self.cls_id = self.tokenizer.vocab['[CLS]']
-        self.sep_id = self.tokenizer.vocab['[SEP]']
-        self.pad_id = self.tokenizer.vocab['[PAD]']
-        self.mask_id = self.tokenizer.vocab['[MASK]']
+        self.cls_id = self.tokenizer.vocab["[CLS]"]
+        self.sep_id = self.tokenizer.vocab["[SEP]"]
+        self.pad_id = self.tokenizer.vocab["[PAD]"]
+        self.mask_id = self.tokenizer.vocab["[MASK]"]
         self._additional_special_tokens = []
 
         # (dsachan) Add BOS and EOS tokens
-        SPECIAL_TOKENS = {'eos_token': '[EOS]',
-                          'bos_token': '[BOS]'}
-        self._bos_token = '[BOS]'
+        SPECIAL_TOKENS = {"eos_token": "[EOS]", "bos_token": "[BOS]"}
+        self._bos_token = "[BOS]"
         self.add_token(self._bos_token)
         self._bos_token_id = self.vocab.get(self._bos_token)
 
-        self._eos_token = '[EOS]'
+        self._eos_token = "[EOS]"
         self.add_token(self._eos_token)
         self._eos_token_id = self.vocab.get(self._eos_token)
 
@@ -162,7 +177,8 @@ def __init__(self, vocab_file, lower_case=True, vocab_extra_ids=0):
         # These can be used as sentinel tokens in T5 model inputs
         additional_special_tokens = []
         additional_special_tokens.extend(
-            ["<extra_id_{}>".format(i) for i in range(vocab_extra_ids)])
+            ["<extra_id_{}>".format(i) for i in range(vocab_extra_ids)]
+        )
         self.add_additional_special_tokens(additional_special_tokens)
 
     def add_token(self, token):
@@ -199,7 +215,7 @@ def decode(self, ids):
 
     def decode_token_ids(self, token_ids):
         tokens = self.tokenizer.convert_ids_to_tokens(token_ids)
-        exclude_list = ['[PAD]', '[CLS]']
+        exclude_list = ["[PAD]", "[CLS]"]
         non_pads = [t for t in tokens if t not in exclude_list]
 
         result = ""
@@ -229,32 +245,32 @@ def mask(self):
 
     @property
     def bos_token(self):
-        """ Beginning of sentence token id """
+        """Beginning of sentence token id"""
         return self._bos_token
 
     @property
     def eos_token(self):
-        """ End of sentence token id """
+        """End of sentence token id"""
         return self._eos_token
 
     @property
     def additional_special_tokens(self):
-        """ All the additional special tokens you may want to use (list of strings)."""
+        """All the additional special tokens you may want to use (list of strings)."""
         return self._additional_special_tokens
 
     @property
     def bos_token_id(self):
-        """ Id of the beginning of sentence token in the vocabulary."""
+        """Id of the beginning of sentence token in the vocabulary."""
         return self._bos_token_id
 
     @property
     def eos_token_id(self):
-        """ Id of the end of sentence token in the vocabulary."""
+        """Id of the end of sentence token in the vocabulary."""
         return self._eos_token_id
 
     @property
     def additional_special_tokens_ids(self):
-        """ Ids of all the additional special tokens in the vocabulary (list of integers)."""
+        """Ids of all the additional special tokens in the vocabulary (list of integers)."""
         return [self.vocab.get(token) for token in self._additional_special_tokens]
 
     @additional_special_tokens.setter
@@ -266,12 +282,13 @@ class _GPT2BPETokenizer(AbstractTokenizer):
     """Original GPT2 BPE tokenizer."""
 
     def __init__(self, vocab_file, merge_file):
-        name = 'GPT2 BPE'
+        name = "GPT2 BPE"
         super().__init__(name)
 
-        self.tokenizer = GPT2Tokenizer(vocab_file, merge_file, errors='replace',
-                                       special_tokens=[], max_len=None)
-        self.eod_id = self.tokenizer.encoder['<|endoftext|>']
+        self.tokenizer = GPT2Tokenizer(
+            vocab_file, merge_file, errors="replace", special_tokens=[], max_len=None
+        )
+        self.eod_id = self.tokenizer.encoder["<|endoftext|>"]
 
     @property
     def vocab_size(self):
@@ -300,10 +317,11 @@ class _SentencePieceTokenizer(AbstractTokenizer):
     """SentencePieceTokenizer-Megatron wrapper"""
 
     def __init__(self, model_file, vocab_extra_ids=0):
-        name = 'SentencePieceTokenizer'
+        name = "SentencePieceTokenizer"
         super().__init__(name)
 
         import sentencepiece
+
         self.tokenizer = sentencepiece.SentencePieceProcessor(model_file=model_file)
         self._initalize(vocab_extra_ids)
 
@@ -331,20 +349,20 @@ def _add_special_token(t):
             self._special_tokens[t] = self._vocab[t]
             self._inv_special_tokens[self._vocab[t]] = t
 
-        _add_special_token('<CLS>')
-        self._cls_id = self._vocab['<CLS>']
-        _add_special_token('<SEP>')
-        self._sep_id = self._vocab['<SEP>']
-        _add_special_token('<EOD>')
-        self._eod_id = self._vocab['<EOD>']
-        _add_special_token('<MASK>')
-        self._mask_id = self._vocab['<MASK>']
+        _add_special_token("<CLS>")
+        self._cls_id = self._vocab["<CLS>"]
+        _add_special_token("<SEP>")
+        self._sep_id = self._vocab["<SEP>"]
+        _add_special_token("<EOD>")
+        self._eod_id = self._vocab["<EOD>"]
+        _add_special_token("<MASK>")
+        self._mask_id = self._vocab["<MASK>"]
 
         pad_id = self.tokenizer.pad_id()
         try:
             pad_token = self.tokenizer.id_to_piece(pad_id)
         except IndexError:
-            pad_token = '<PAD>'
+            pad_token = "<PAD>"
         _add_special_token(pad_token)
         self._pad_id = self._vocab[pad_token]
 
@@ -352,7 +370,7 @@ def _add_special_token(t):
         try:
             bos_token = self.tokenizer.id_to_piece(bos_id)
         except IndexError:
-            bos_token = '<BOS>'
+            bos_token = "<BOS>"
         _add_special_token(bos_token)
         self._bos_id = self._vocab[bos_token]
 
@@ -360,7 +378,7 @@ def _add_special_token(t):
         try:
             eos_token = self.tokenizer.id_to_piece(eos_id)
         except IndexError:
-            eos_token = '<EOS>'
+            eos_token = "<EOS>"
         _add_special_token(eos_token)
         self._eos_id = self._vocab[eos_token]
 
@@ -470,10 +488,14 @@ def mask(self):
     def additional_special_tokens_ids(self):
         return [self.vocab[k] for k in self._t5_tokens]
 
+
 class _GPTSentencePieceTokenizer(_SentencePieceTokenizer):
     """SentencePieceTokenizer-Megatron wrapper"""
 
-    def __init__(self, model_file,):
+    def __init__(
+        self,
+        model_file,
+    ):
         super().__init__(model_file, vocab_extra_ids=0)
 
     def _initalize(self, vocab_extra_ids):
@@ -513,7 +535,10 @@ def additional_special_tokens_ids(self):
 class _Llama2Tokenizer(_SentencePieceTokenizer):
     """SentencePieceTokenizer-Megatron wrapper"""
 
-    def __init__(self, model_file,):
+    def __init__(
+        self,
+        model_file,
+    ):
         super().__init__(model_file, vocab_extra_ids=0)
 
     def _initalize(self, vocab_extra_ids):
@@ -527,7 +552,7 @@ def _initalize(self, vocab_extra_ids):
         assert self.tokenizer.vocab_size() == self.tokenizer.get_piece_size()
 
     def tokenize(self, s: str, bos=True, eos=False):
-        '''Default args for text completion, not chat/dialog.'''
+        """Default args for text completion, not chat/dialog."""
         assert type(s) is str
         t = self.tokenizer.encode(s)
         if bos:
@@ -559,18 +584,20 @@ def eod(self):
     def additional_special_tokens_ids(self):
         return None
 
+
 class _NullTokenizer:
+
     def __init__(self, vocab_size):
         vocab_size = int(vocab_size)
         self._eos_id = vocab_size
-        self.vocab_size = vocab_size+1
+        self.vocab_size = vocab_size + 1
 
     def tokenize(self, text):
-        return [int(x) for x in text.split(' ')]
+        return [int(x) for x in text.split(" ")]
 
     def detokenize(self, ids):
         text = [str(x) for x in ids]
-        return ' '.join(text)
+        return " ".join(text)
 
     @property
     def cls(self):
@@ -595,10 +622,33 @@ def additional_special_tokens_ids(self):
 
 class _HFTokenizer(AbstractTokenizer):
     """HF Tokenizer"""
-    def __init__(self, tokenizer_name_or_path):
+
+    def __init__(self, tokenizer_name_or_path, max_seq_len, trust_remote_code):
         name = tokenizer_name_or_path
         super().__init__(name)
-        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path)
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            tokenizer_name_or_path,
+            padding_side="right",
+            trust_remote_code=trust_remote_code,
+            use_fast=False,
+        )
+        DEFAULT_PAD_TOKEN = "[PAD]"
+        DEFAULT_EOS_TOKEN = "</s>"
+        DEFAULT_BOS_TOKEN = "<s>"
+        DEFAULT_UNK_TOKEN = "<unk>"
+        special_tokens_dict = dict()
+        if self.tokenizer.pad_token is None:
+            special_tokens_dict["pad_token"] = DEFAULT_PAD_TOKEN
+        if self.tokenizer.eos_token is None:
+            special_tokens_dict["eos_token"] = DEFAULT_EOS_TOKEN
+        if self.tokenizer.bos_token is None:
+            special_tokens_dict["bos_token"] = DEFAULT_BOS_TOKEN
+        if self.tokenizer.unk_token is None:
+            special_tokens_dict["unk_token"] = DEFAULT_UNK_TOKEN
+        self.tokenizer.add_special_tokens(special_tokens_dict)
+        # if self.tokenizer.pad_token == None:
+        #     self.tokenizer.pad_token= "[PAD]"
+        self.tokenizer.model_max_length = max_seq_len
         self.encoder = self.tokenizer.get_vocab()
         self.decoder = {v: k for k, v in self.encoder.items()}
 
diff --git a/megatron/training.py b/megatron/training.py
index 7e6c7dc6bb2..89c17e0d80d 100644
--- a/megatron/training.py
+++ b/megatron/training.py
@@ -1,98 +1,138 @@
+# noqa: E402
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
-
 """Pretrain utilities."""
 
+import time
+
+# The earliest we can measure the start time.
+_TRAIN_START_TIME = time.time()
+
+import ezpz
+import ezpz.dist
+
+from collections import OrderedDict
 from datetime import datetime
+import json
+import logging
 import math
+import os
 import sys
 import time
-import json
-# The earliest we can measure the start time.
-_TRAIN_START_TIME = time.time()
+
+import deepspeed
+from deepspeed.accelerator import get_accelerator
+from deepspeed.compression.compress import init_compression, redundancy_clean
+from deepspeed.runtime.data_pipeline.data_routing.helper import (
+    convert_to_random_ltd,
+)
 import torch
+import torch.distributed as tdist
 from torch.nn.parallel.distributed import DistributedDataParallel as torchDDP
 
-from megatron import get_args
-from megatron import get_signal_handler
-from megatron import get_timers
-from megatron import get_tensorboard_writer
-from megatron import get_current_global_batch_size
-from megatron import get_num_microbatches
-from megatron import is_last_rank
-from megatron import update_num_microbatches
+import wandb
+from megatron import (
+    get_args,
+    get_current_global_batch_size,
+    get_num_microbatches,
+    get_signal_handler,
+    get_tensorboard_writer,
+    get_timers,
+    is_last_rank,
+    update_num_microbatches,
+)
+from megatron.arguments import core_transformer_config_from_args
+from megatron.checkpointing import load_checkpoint, save_checkpoint
 from megatron.core import mpu, tensor_parallel
-from megatron import print_rank_0, is_rank_0
-from megatron import print_rank_last
-from megatron.checkpointing import load_checkpoint
-from megatron.checkpointing import save_checkpoint
-from megatron.model import Float16Module
-from megatron.model import GPTModel
 from megatron.core.enums import ModelType
-from megatron.optimizer import get_megatron_optimizer
-from megatron.initialize import initialize_megatron
-from megatron.initialize import write_args_to_tensorboard
-from megatron.initialize import set_jit_fusion_options
-from megatron.optimizer_param_scheduler import OptimizerParamScheduler
-from megatron.model import DistributedDataParallel as LocalDDP
-from megatron.utils import check_adlr_autoresume_termination
-from megatron.utils import unwrap_model
-from megatron.data.data_samplers import build_pretraining_data_loader
-from megatron.utils import calc_params_l2_norm
 from megatron.core.pipeline_parallel import get_forward_backward_func
-from megatron.utils import report_memory, throughput_calculator, checkpoint_throughput_calculator, update_rotary_pos_emb
+from megatron.data.data_samplers import build_pretraining_data_loader
+from megatron.initialize import (
+    initialize_megatron,
+    set_jit_fusion_options,
+    write_args_to_tensorboard,
+)
+from megatron.model import Float16Module, GPTModel
+from megatron.model import DistributedDataParallel as LocalDDP
+from megatron.model.transformer import ParallelTransformerLayer
 from megatron.model.vision.knn_monitor import compute_feature_bank
-from megatron.arguments import core_transformer_config_from_args
+from megatron.optimizer import get_megatron_optimizer
+from megatron.optimizer_param_scheduler import OptimizerParamScheduler
+from megatron.training_log import training_log
+from megatron.utils import (
+    PerfTrace,
+    Profile,
+    calc_params_l2_norm,
+    check_adlr_autoresume_termination,
+    checkpoint_throughput_calculator,
+    found_kill_switch,
+    unwrap_model,
+    update_rotary_pos_emb,
+)
 
-import deepspeed
-from deepspeed.accelerator import get_accelerator
-from deepspeed.compression.compress import init_compression, redundancy_clean
-from deepspeed.runtime.data_pipeline.data_routing.helper import convert_to_random_ltd
-from megatron.model.transformer import ParallelTransformerLayer
+from megatron.profiler import (
+    setup_profiler,
+    trigger,
+    on_step_begin,
+    on_step_end,
+)
 
-from deepspeed import comm as dist
 
-try:
-    import wandb
-except (ImportError, ModuleNotFoundError):
-    wandb = None
+dlp = Profile("TRAINING")
+
+# from deepspeed import comm as dist
+
+RANK: int = ezpz.get_rank()
+WORLD_SIZE: int = ezpz.get_world_size()
+# DEVICE_TYPE: str = ezpz.get_torch_device()
+DEVICE_TYPE: str = ezpz.get_torch_device_type()
+DEVICE: torch.device = torch.device(DEVICE_TYPE)
+
+log: logging.Logger = logging.getLogger(__name__)
+LOG_LEVEL: str = str(os.environ.get("LOG_LEVEL", "INFO")).upper()
+log.setLevel(LOG_LEVEL) if RANK == 0 else log.setLevel("CRITICAL")
 
 
 def print_datetime(string):
     """Note that this call will sync across all ranks."""
-    torch.distributed.barrier()
-    time_str = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
-    print_rank_0('[' + string + '] datetime: {} '.format(time_str))
+    tdist.barrier()
+    time_str = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+    log.info("[" + string + "] datetime={} ".format(time_str))
+
 
-'''
+"""
 Since v0.9.0, deepspeed.initialize() has forbidden simultaneous setting of args.deepspeed_config (Path) and ds_config dict.
-So, we use ds_config dict which is the more flexible option. 
-'''
+So, we use ds_config dict which is the more flexible option
+"""
+
+
 def _create_ds_config_dict():
     args = get_args()
-    if isinstance(args.deepspeed_config, dict) :
+    assert args is not None
+    if isinstance(args.deepspeed_config, dict):
         ds_config_dict = args.deepspeed_config
     else:
-        with open(args.deepspeed_config, 'r', encoding='utf-8') as config_file:
+        with open(args.deepspeed_config, "r", encoding="utf-8") as config_file:
             ds_config_dict = json.load(config_file)
-
     if args.universal_checkpoint:
         ds_config_dict["checkpoint"] = {"load_universal": True}
-
     # Clear config path
-    args.deepspeed_config = None 
-
+    args.deepspeed_config = None
     return ds_config_dict
-    
-
-def pretrain(train_valid_test_dataset_provider,
-             model_provider,
-             model_type,
-             forward_step_func,
-             process_non_loss_data_func=None,
-             extra_args_provider=None,
-             args_defaults={},
-             data_post_process=None,
-             external_args={}):
+
+
+@dlp.log
+def pretrain(
+    train_valid_test_dataset_provider,
+    model_provider,
+    model_type,
+    forward_step_func,
+    process_non_loss_data_func=None,
+    extra_args_provider=None,
+    args_defaults={},
+    data_post_process=None,
+    external_args={},
+) -> list[torch.nn.Module]:
     """Main training program.
 
     This function will run the followings in the order provided:
@@ -120,72 +160,112 @@ def pretrain(train_valid_test_dataset_provider,
             to it. It is used for programs to add their own arguments.
         args_defaults: a dictionary from argument-name to argument-value. It
             to set already parse arguments.
-    """
 
+    Returns:
+        model (torch.nn.Module)
+    """
     # Initalize and get arguments, timers, and Tensorboard writer.
-    initialize_megatron(extra_args_provider=extra_args_provider,
-                        args_defaults=args_defaults, external_args=external_args)
+    initialize_megatron(
+        extra_args_provider=extra_args_provider,
+        args_defaults=args_defaults,
+        external_args=external_args,
+    )
+    args = get_args()
+    assert args is not None
+    if found_kill_switch():
+        print_datetime(f"Detected kill switch at {args.kill_switch_file}. Exiting")
+        sys.exit()
+
     # Set pytorch JIT layer fusion options and warmup JIT functions.
-    if get_accelerator().device_name() == 'cuda':
+    # if get_accelerator().device_name() == "cuda":
+    if DEVICE_TYPE == "cuda" and torch.cuda.is_available():
         set_jit_fusion_options()
 
     # Adjust the startup time so it reflects the largest value.
     # This will be closer to what scheduler will see (outside of
     # image ... launches.
+    before_allreduce = time.time()
     global _TRAIN_START_TIME
-    start_time_tensor = get_accelerator().DoubleTensor([_TRAIN_START_TIME])
-    torch.distributed.all_reduce(start_time_tensor,
-                                 op=torch.distributed.ReduceOp.MIN)
+    log.info(
+        f"time to finish initialize_megatron: {time.time() - _TRAIN_START_TIME} seconds"
+    )
+    # start_time_tensor = DEVICE.DoubleTensor([_TRAIN_START_TIME])
+    start_time_tensor = torch.tensor(
+        [_TRAIN_START_TIME], dtype=torch.double, device=DEVICE_TYPE
+    )
+    tdist.all_reduce(start_time_tensor, op=tdist.ReduceOp.MIN)
+    log.info(f"allreduce call time: {time.time() - before_allreduce} seconds")
     _TRAIN_START_TIME = start_time_tensor.item()
-    print_rank_0('time to initialize megatron (seconds): {:.3f}'.format(
-        time.time() - _TRAIN_START_TIME))
-    print_datetime('after megatron is initialized')
-
-    args = get_args()
+    log.info(
+        "time to initialize megatron (seconds)={:.3f}".format(
+            time.time() - _TRAIN_START_TIME
+        )
+    )
+    print_datetime("after megatron is initialized")
+    if os.getenv("DLIO_PROFILER_DATASET_DIR") is not None:
+        extra_trace_path = os.environ["DLIO_PROFILER_DATASET_DIR"]
+    else:
+        extra_trace_path = ""
+    os.makedirs(args.trace_dir, exist_ok=True)
+    PerfTrace.initialize_log(
+        f"{args.trace_dir}/trace-{ezpz.get_rank()}-of-{ezpz.get_world_size()}.pfw",
+        f"{args.data_cache_path}:{extra_trace_path}:{args.data_path}:{args.save}:{args.load}",
+        process_id=ezpz.get_rank(),
+    )
     timers = get_timers()
-
+    assert args is not None
+    assert timers is not None
     if args.deepspeed:
         args.deepspeed_config_dict = _create_ds_config_dict()
-        if "curriculum_learning" in args.deepspeed_config_dict and \
-            "enabled" in args.deepspeed_config_dict["curriculum_learning"]:
-            args.curriculum_learning_legacy = args.deepspeed_config_dict[ \
-                "curriculum_learning"]["enabled"]
+        if (
+            "curriculum_learning" in args.deepspeed_config_dict
+            and "enabled" in args.deepspeed_config_dict["curriculum_learning"]
+        ):
+            args.curriculum_learning_legacy = args.deepspeed_config_dict[
+                "curriculum_learning"
+            ]["enabled"]
         if args.curriculum_learning_legacy and not args.no_pipeline_parallel:
-            from deepspeed.runtime.data_pipeline.curriculum_scheduler \
-                import CurriculumScheduler
-            args.curriculum_scheduler = CurriculumScheduler( \
-                args.deepspeed_config_dict["curriculum_learning"])
+            from deepspeed.runtime.data_pipeline.curriculum_scheduler import (
+                CurriculumScheduler,
+            )
+
+            args.curriculum_scheduler = CurriculumScheduler(
+                args.deepspeed_config_dict["curriculum_learning"]
+            )
         if "compression_training" in args.deepspeed_config_dict:
             args.compression_training = True
 
     # Model, optimizer, and learning rate.
-    timers('model-and-optimizer-setup', log_level=0).start(barrier=True)
+    timers("model-and-optimizer-setup", log_level=0).start(barrier=True)
     model, optimizer, opt_param_scheduler = setup_model_and_optimizer(
-        model_provider, model_type, teacher=False, data_post_process=data_post_process,
-        build_train_valid_test_datasets_provider=train_valid_test_dataset_provider)
-    timers('model-and-optimizer-setup').stop()
-    print_datetime('after model, optimizer, and learning rate '
-                   'scheduler are built')
-
+        model_provider,
+        model_type,
+        teacher=False,
+        data_post_process=data_post_process,
+        build_train_valid_test_datasets_provider=train_valid_test_dataset_provider,
+    )
+    timers("model-and-optimizer-setup").stop()
+    print_datetime("after model, optimizer, and learning rate scheduler are built")
     # Data stuff.
-    timers('train/valid/test-data-iterators-setup', log_level=0).start(
-        barrier=True)
+    timers("train/valid/test-data-iterators-setup", log_level=0).start(barrier=True)
     if args.virtual_pipeline_model_parallel_size is not None:
         all_data_iterators = [
-            build_train_valid_test_data_iterators(
-                train_valid_test_dataset_provider)
+            build_train_valid_test_data_iterators(train_valid_test_dataset_provider)
             for _ in range(len(model))
         ]
-        train_data_iterator = [data_iterators[0]
-                               for data_iterators in all_data_iterators]
-        valid_data_iterator = [data_iterators[1]
-                               for data_iterators in all_data_iterators]
-        test_data_iterator = [data_iterators[2]
-                              for data_iterators in all_data_iterators]
+        train_data_iterator = [
+            data_iterators[0] for data_iterators in all_data_iterators
+        ]
+        valid_data_iterator = [
+            data_iterators[1] for data_iterators in all_data_iterators
+        ]
+        test_data_iterator = [
+            data_iterators[2] for data_iterators in all_data_iterators
+        ]
     else:
-        train_data_iterator, valid_data_iterator, test_data_iterator \
-            = build_train_valid_test_data_iterators(
-                train_valid_test_dataset_provider)
+        train_data_iterator, valid_data_iterator, test_data_iterator = (
+            build_train_valid_test_data_iterators(train_valid_test_dataset_provider)
+        )
     if args.data_efficiency_curriculum_learning:
         if args.deepspeed_dataloader is not None:
             # We use args to pass the deepspeed_dataloader because adding
@@ -198,67 +278,79 @@ def pretrain(train_valid_test_dataset_provider,
             args.deepspeed_dataloader = None
         else:
             train_data_iterator = None
-    timers('train/valid/test-data-iterators-setup').stop()
-    print_datetime('after dataloaders are built')
-
+    timers("train/valid/test-data-iterators-setup").stop()
+    print_datetime("after dataloaders are built")
     # args.teacher_model is used as global variable to pass the teacher model
     # for knowledge distillation. Users do not need to set it in the command
     # line to use kd, but users do need to provide teacher model configurations
     # like args.num_layers_teacher as described in setup_teacher_model()
     args.teacher_model = None
-    if args.mos or args.kd: # Set up teacher model
+    if args.mos or args.kd:  # Set up teacher model
         args.teacher_model = setup_teacher_model(args, model_provider)
-
     # Print setup timing.
-    print_rank_0('done with setup ...')
-    timers.log(['model-and-optimizer-setup',
-                'train/valid/test-data-iterators-setup'], barrier=True)
-
+    log.info("done with setup ...")
+    timers.log(
+        ["model-and-optimizer-setup", "train/valid/test-data-iterators-setup"],
+        barrier=True,
+    )
     if not args.skip_train:
-        print_rank_0('training ...')
-
-        if args.dataloader_type == 'cyclic' and args.retro_add_retriever:
+        log.info("training ...")
+        if args.dataloader_type == "cyclic" and args.retro_add_retriever:
             args.train_iters = args.retro_cyclic_train_iters
-            print_rank_0("retro cyclic train iters : %d" % args.train_iters)
-
+            log.info("retro cyclic train iters : %d" % args.train_iters)
         iteration = 0
         if args.do_train and args.train_iters > 0:
-            iteration = train(forward_step_func,
-                            model, optimizer, opt_param_scheduler,
-                            train_data_iterator, valid_data_iterator,
-                            process_non_loss_data_func)
-
-        print_datetime('after training is done')
+            iteration = train(
+                forward_step_func,
+                model,
+                optimizer,
+                opt_param_scheduler,
+                train_data_iterator,
+                valid_data_iterator,
+                process_non_loss_data_func,
+            )
+        print_datetime("after training is done")
         # Clean the model
         if args.compression_training:
             model = [redundancy_clean(model[0], args.deepspeed_config_dict, mpu)]
-
         if args.save and iteration != 0:
             save_checkpoint(iteration, model, optimizer, opt_param_scheduler)
     else:
-        print_rank_0('skipping training (--skip-train is on) ...')
-
+        log.info("skipping training (--skip-train is on) ...")
         iteration = args.iteration
-
     config = core_transformer_config_from_args(args)
     if args.do_valid:
-        prefix = f'iteration {iteration} on {args.eval_iters * args.global_batch_size}-sample draw from validation set'
-        evaluate_and_print_results(prefix, forward_step_func,
-                                   valid_data_iterator, model,
-                                   iteration, process_non_loss_data_func, config,
-                                   verbose=True, write_to_tensorboard=not args.skip_train)
-
+        prefix = f"iteration {iteration} on {args.eval_iters * args.global_batch_size}-sample draw from validation set"
+        _ = evaluate_and_print_results(
+            prefix,
+            forward_step_func,
+            valid_data_iterator,
+            model,
+            iteration,
+            process_non_loss_data_func,
+            config,
+            verbose=True,
+            write_to_tensorboard=not args.skip_train,
+        )
     if args.do_test:
-        prefix = f'iteration {iteration} on {args.eval_iters * args.global_batch_size}-sample draw from test set'
-        evaluate_and_print_results(prefix, forward_step_func,
-                                   test_data_iterator, model,
-                                   iteration, process_non_loss_data_func, config,
-                                   verbose=True, write_to_tensorboard=not args.skip_train, test=True)
+        prefix = f"iteration {iteration} on {args.eval_iters * args.global_batch_size}-sample draw from test set"
+        _ = evaluate_and_print_results(
+            prefix,
+            forward_step_func,
+            test_data_iterator,
+            model,
+            iteration,
+            process_non_loss_data_func,
+            config,
+            verbose=True,
+            write_to_tensorboard=not args.skip_train,
+            test=True,
+        )
     return model
 
 
+@dlp.log
 def update_train_iters(args):
-
     # For iteration-based training, we don't need to do anything
     if args.train_iters:
         return
@@ -280,16 +372,15 @@ def update_train_iters(args):
         update_num_microbatches(0, consistency_check=False)
         # Constant phase
         # Note that we throw away any partial last batch.
-        iterations += (args.train_samples - consumed_samples) // \
-                      args.global_batch_size
+        iterations += (args.train_samples - consumed_samples) // args.global_batch_size
         args.train_iters = iterations
 
-    print_rank_0('setting training iterations to {}'.format(args.train_iters))
+    log.info("setting training iterations to {}".format(args.train_iters))
 
 
-def setup_teacher_model(args, model_provider):        
-    
-    print_rank_0('***>>>>> Student model checkpoint iteration:{}'.format(args.iteration))
+@dlp.log
+def setup_teacher_model(args, model_provider):
+    log.info("***>>>>> Student model checkpoint iteration:{}".format(args.iteration))
     iteration_stuent = args.iteration
     num_layers_student = args.num_layers
     num_experts_student = args.num_experts
@@ -297,7 +388,7 @@ def setup_teacher_model(args, model_provider):
     num_attention_heads_student = args.num_attention_heads
     load_student = args.load
 
-    print_rank_0('***>>>>> Setting up the teacher model')
+    log.info("***>>>>> Setting up the teacher model")
 
     args.num_layers = args.num_layers_teacher
     args.num_experts = args.num_experts_teacher
@@ -305,7 +396,7 @@ def setup_teacher_model(args, model_provider):
     args.num_attention_heads = args.num_attention_heads_teacher
     args.load = args.load_teacher
     teacher_model, _, _ = load_model_weights_only(model_provider)
-    print_rank_0('***>>>>> Teacher model:{}'.format(teacher_model))
+    log.info("***>>>>> Teacher model:{}".format(teacher_model))
 
     args.num_layers = num_layers_student
     args.num_experts = num_experts_student
@@ -316,16 +407,27 @@ def setup_teacher_model(args, model_provider):
 
     return teacher_model
 
-def get_model(model_provider_func, model_type=ModelType.encoder_or_decoder, wrap_with_ddp=True):
+
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
+def get_model(
+    model_provider_func, model_type=ModelType.encoder_or_decoder, wrap_with_ddp=True
+):
     """Build the model."""
     args = get_args()
+    accelerator = get_accelerator()
+    assert accelerator is not None
+    assert args is not None
     args.model_type = model_type
 
     # Build model.
-    if mpu.get_pipeline_model_parallel_world_size() > 1 and \
-       args.virtual_pipeline_model_parallel_size is not None:
-        assert model_type != ModelType.encoder_and_decoder, \
+    if (
+        mpu.get_pipeline_model_parallel_world_size() > 1
+        and args.virtual_pipeline_model_parallel_size is not None
+    ):
+        assert model_type != ModelType.encoder_and_decoder, (
             "Interleaved schedule not supported for model with both encoder and decoder"
+        )
         model = []
         for i in range(args.virtual_pipeline_model_parallel_size):
             mpu.set_virtual_pipeline_model_parallel_rank(i)
@@ -333,8 +435,7 @@ def get_model(model_provider_func, model_type=ModelType.encoder_or_decoder, wrap
             pre_process = mpu.is_pipeline_first_stage()
             post_process = mpu.is_pipeline_last_stage()
             this_model = model_provider_func(
-                pre_process=pre_process,
-                post_process=post_process
+                pre_process=pre_process, post_process=post_process
             )
             this_model.model_type = model_type
             model.append(this_model)
@@ -345,37 +446,37 @@ def get_model(model_provider_func, model_type=ModelType.encoder_or_decoder, wrap
         add_decoder = True
         if model_type == ModelType.encoder_and_decoder:
             if mpu.get_pipeline_model_parallel_world_size() > 1:
-                assert args.pipeline_model_parallel_split_rank is not None, \
+                assert args.pipeline_model_parallel_split_rank is not None, (
                     "Split rank needs to be specified for model with both encoder and decoder"
+                )
                 rank = mpu.get_pipeline_model_parallel_rank()
                 split_rank = args.pipeline_model_parallel_split_rank
                 world_size = mpu.get_pipeline_model_parallel_world_size()
                 pre_process = rank == 0 or rank == split_rank
-                post_process = (rank == (split_rank - 1)) or (
-                        rank == (world_size - 1))
+                post_process = (rank == (split_rank - 1)) or (rank == (world_size - 1))
                 add_encoder = mpu.is_pipeline_stage_before_split()
                 add_decoder = mpu.is_pipeline_stage_after_split()
             model = model_provider_func(
                 pre_process=pre_process,
                 post_process=post_process,
                 add_encoder=add_encoder,
-                add_decoder=add_decoder)
+                add_decoder=add_decoder,
+            )
         else:
             model = model_provider_func(
-                pre_process=pre_process,
-                post_process=post_process
+                pre_process=pre_process, post_process=post_process
             )
         model.model_type = model_type
 
-
     if not isinstance(model, list):
         model = [model]
 
     # Disallow training and inference with Transformer Engine
     # for non-GPT models
     args.allow_transformer_engine = all([type(m) == GPTModel for m in model])
-    assert args.allow_transformer_engine or args.transformer_impl == 'local', \
-        'Transformer Engine is only approved for GPT models'
+    assert args.allow_transformer_engine or args.transformer_impl == "local", (
+        "Transformer Engine is only approved for GPT models"
+    )
 
     # Set tensor model parallel attributes if not set.
     # Only parameters that are already tensor model parallel have these
@@ -383,66 +484,108 @@ def get_model(model_provider_func, model_type=ModelType.encoder_or_decoder, wrap
     # are set for all params so the optimizer can use them.
     for model_module in model:
         for param in model_module.parameters():
-            tensor_parallel.set_defaults_if_not_set_tensor_model_parallel_attributes(param)
+            tensor_parallel.set_defaults_if_not_set_tensor_model_parallel_attributes(
+                param
+            )
 
     # Print number of parameters.
     if mpu.get_data_parallel_rank() == 0:
-        print(' > number of parameters on (tensor, pipeline) '
-              'model parallel rank ({}, {}): {}'.format(
-            mpu.get_tensor_model_parallel_rank(),
-            mpu.get_pipeline_model_parallel_rank(),
-            sum([sum([p.ds_numel if hasattr(p,'ds_id') else p.nelement() for p in model_module.parameters()])
-                 for model_module in model])), flush=True)
+        print(
+            " > number of parameters on (tensor, pipeline) "
+            "model parallel rank ({}, {})={}".format(
+                mpu.get_tensor_model_parallel_rank(),
+                mpu.get_pipeline_model_parallel_rank(),
+                sum(
+                    [
+                        sum(
+                            [
+                                p.ds_numel if hasattr(p, "ds_id") else p.nelement()
+                                for p in model_module.parameters()
+                            ]
+                        )
+                        for model_module in model
+                    ]
+                ),
+            ),
+            flush=True,
+        )
 
     if args.deepspeed:
         return model
 
     # GPU allocation.
     for model_module in model:
-        model_module.to(get_accelerator().current_device_name())
- 
+        model_module.to(DEVICE_TYPE)
 
     # Fp16 conversion.
     if args.fp16 or args.bf16:
         model = [Float16Module(model_module, args) for model_module in model]
 
     if wrap_with_ddp:
-        if args.DDP_impl == 'torch':
-            i = get_accelerator().current_device()
-            model = [torchDDP(model_module, device_ids=[i], output_device=i,
-                              process_group=mpu.get_data_parallel_group())
-                     for model_module in model]
-
-        elif args.DDP_impl == 'local':
-            model = [LocalDDP(model_module,
-                              args.accumulate_allreduce_grads_in_fp32,
-                              args.use_contiguous_buffers_in_local_ddp)
-                     for model_module in model]
+        if args.DDP_impl == "torch":
+            i = accelerator.current_device()
+            model = [
+                torchDDP(
+                    model_module,
+                    device_ids=[i],
+                    output_device=i,
+                    process_group=mpu.get_data_parallel_group(),
+                )
+                for model_module in model
+            ]
+
+        elif args.DDP_impl == "local":
+            model = [
+                LocalDDP(
+                    model_module,
+                    args.accumulate_allreduce_grads_in_fp32,
+                    args.use_contiguous_buffers_in_local_ddp,
+                )
+                for model_module in model
+            ]
             # broad cast params from data parallel src rank to other data parallel ranks
             if args.data_parallel_random_init:
                 for model_module in model:
                     model_module.broadcast_params()
         else:
-            raise NotImplementedError('Unknown DDP implementation specified: '
-                                      '{}. Exiting.'.format(args.DDP_impl))
+            raise NotImplementedError(
+                "Unknown DDP implementation specified: {}. Exiting.".format(
+                    args.DDP_impl
+                )
+            )
 
     return model
 
 
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
 def get_optimizer_param_scheduler(optimizer):
     """Build the learning rate scheduler."""
     args = get_args()
-
+    assert args is not None
     # Iteration-based training.
     if args.train_iters:
         if args.lr_decay_iters is None:
             args.lr_decay_iters = args.train_iters
+
         lr_decay_steps = args.lr_decay_iters * args.global_batch_size
         wd_incr_steps = args.train_iters * args.global_batch_size
         if args.lr_warmup_fraction is not None:
             lr_warmup_steps = args.lr_warmup_fraction * lr_decay_steps
         else:
             lr_warmup_steps = args.lr_warmup_iters * args.global_batch_size
+
+        if args.lr_constant_fraction is not None:
+            lr_constant_steps = args.lr_constant_fraction * lr_decay_steps
+        else:
+            lr_constant_steps = args.lr_constant_iters * args.global_batch_size
+        if args.lr_constant_plus_cooldown:
+            lr_constant_plus_cooldown_steps = (
+                args.lr_constant_plus_cooldown_frac * lr_decay_steps
+            )
+        else:
+            lr_constant_plus_cooldown_steps = 0
+        lr_cooldown_steps = args.lr_cooldown_fraction * lr_decay_steps
     # Sample-based training.
     elif args.train_samples:
         # We need to set training iters for later use. Technically
@@ -457,14 +600,25 @@ def get_optimizer_param_scheduler(optimizer):
             lr_warmup_steps = args.lr_warmup_fraction * lr_decay_steps
         else:
             lr_warmup_steps = args.lr_warmup_samples
+        if args.lr_constant_fraction is not None:
+            lr_constant_steps = args.lr_constant_fraction * lr_decay_steps
+        else:
+            lr_constant_steps = args.lr_constant_samples
+        if args.lr_constant_plus_cooldown:
+            lr_constant_plus_cooldown_steps = (
+                args.lr_constant_plus_cooldown_frac * lr_decay_steps
+            )
+        else:
+            lr_constant_plus_cooldown_steps = 0
+        lr_cooldown_steps = args.lr_cooldown_fraction * lr_decay_steps
     else:
-        raise Exception(
-            'either train-iters or train-samples should be provided.')
+        raise Exception("either train-iters or train-samples should be provided.")
 
     opt_param_scheduler = OptimizerParamScheduler(
         optimizer,
         max_lr=args.lr,
         min_lr=args.min_lr,
+        lr_constant_plus_cooldown_steps=lr_constant_plus_cooldown_steps,
         lr_warmup_steps=lr_warmup_steps,
         lr_decay_steps=lr_decay_steps,
         lr_decay_style=args.lr_decay_style,
@@ -472,75 +626,79 @@ def get_optimizer_param_scheduler(optimizer):
         end_wd=args.end_weight_decay,
         wd_incr_steps=wd_incr_steps,
         wd_incr_style=args.weight_decay_incr_style,
+        constant_lr=args.constant_lr,
+        lr_constant_steps=lr_constant_steps,
+        lr_cooldown_steps=lr_cooldown_steps,
         use_checkpoint_opt_param_scheduler=args.use_checkpoint_opt_param_scheduler,
-        override_opt_param_scheduler=args.override_opt_param_scheduler)
+        override_opt_param_scheduler=args.override_opt_param_scheduler,
+    )
 
     return opt_param_scheduler
 
+
+@dlp.log
 def load_model_weights_only(model_provider_func):
     """Setup model and optimizer."""
     args = get_args()
-    print_rank_0('***>>>>> Args:{}'.format(args))
-
+    assert args is not None
+    log.info("***>>>>> Args:{}".format(args))
     model = get_model(model_provider_func)
-
     optimizer = None
     lr_scheduler = None
-
     if args.deepspeed:
         # When loading just the model weights, ZeRO can be disabled.
-        if 'zero_optimization' in args.deepspeed_config_dict:
-            del args.deepspeed_config_dict['zero_optimization']
+        if "zero_optimization" in args.deepspeed_config_dict:
+            del args.deepspeed_config_dict["zero_optimization"]
 
         model, optimizer, _, lr_scheduler = deepspeed.initialize(
-            model=model[0],
-            config=args.deepspeed_config_dict
+            model=model[0], config=args.deepspeed_config_dict
         )
 
-        assert not isinstance(model, deepspeed.PipelineEngine), \
-            'Weight loading only mode is not supported in pipeline parallelism yet.'
-
+        assert not isinstance(model, deepspeed.PipelineEngine), (
+            "Weight loading only mode is not supported in pipeline parallelism yet."
+        )
         model = [model]
-
-    print_datetime('before load checkpoint')
+    print_datetime("before load checkpoint")
     if args.load is not None:
-        iteration = load_checkpoint(model, optimizer, lr_scheduler, strict=True, load_only_weights=True)
-
-    print_datetime('after load checkpoint weights')
-
+        _ = load_checkpoint(
+            model, optimizer, lr_scheduler, strict=True, load_only_weights=True
+        )
+    print_datetime("after load checkpoint weights")
     return model, optimizer, lr_scheduler
 
 
-def setup_model_and_optimizer(model_provider_func,
-                              model_type,
-                              no_wd_decay_cond=None,
-                              scale_lr_cond=None,
-                              lr_mult=1.0,
-                              teacher=False,
-                              data_post_process=None,
-                              build_train_valid_test_datasets_provider=None):
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
+def setup_model_and_optimizer(
+    model_provider_func,
+    model_type,
+    no_wd_decay_cond=None,
+    scale_lr_cond=None,
+    lr_mult=1.0,
+    teacher=False,
+    data_post_process=None,
+    build_train_valid_test_datasets_provider=None,
+):
     """Setup model and optimizer."""
     args = get_args()
-
+    assert args is not None
     model = get_model(model_provider_func, model_type)
-
     # initialize the compression here
     student_global_steps = 0
     if args.kd or args.mos:
         model, _, _, _ = deepspeed.initialize(
-                model=model[0],
-                args=args,
-                mpu=mpu if args.no_pipeline_parallel else None,
-                config=args.deepspeed_config_dict,
-            )
+            model=model[0],
+            args=args,
+            mpu=mpu if args.no_pipeline_parallel else None,
+            config=args.deepspeed_config_dict,
+        )
         model = [model]
         if args.load is not None:
             args.iteration = load_checkpoint(model, None, None, strict=False)
         else:
             args.iteration = 0
         student_global_steps = model[0].global_steps
-        print_rank_0('***>>>>> Student model, global step:{}'.format(student_global_steps))
-
+        log.info("***>>>>> Student model, global step:{}".format(student_global_steps))
     if args.compression_training:
         model, _, _, _ = deepspeed.initialize(
             model=model[0],
@@ -550,10 +708,7 @@ def setup_model_and_optimizer(model_provider_func,
         )
         model = [model]
         model = [init_compression(model[0].module, args.deepspeed_config_dict, mpu)]
-
-    unwrapped_model = unwrap_model(model,
-                                   (torchDDP, LocalDDP, Float16Module))
-
+    unwrapped_model = unwrap_model(model, (torchDDP, LocalDDP, Float16Module))
     if args.inference:
         optimizer = None
         opt_param_scheduler = None
@@ -561,125 +716,180 @@ def setup_model_and_optimizer(model_provider_func,
         if teacher:
             optimizer = None
         else:
-            optimizer = get_megatron_optimizer(model, no_wd_decay_cond,
-                                               scale_lr_cond, lr_mult)
+            optimizer = get_megatron_optimizer(
+                model, no_wd_decay_cond, scale_lr_cond, lr_mult
+            )
         # opt_param_scheduler is the old lr_scheduler plus weight decay scheduling
         opt_param_scheduler = get_optimizer_param_scheduler(optimizer)
-
     if args.deepspeed:
-        print_rank_0("DeepSpeed is enabled.")
-        pp = mpu.get_pipeline_model_parallel_world_size()
-        if args.data_efficiency_curriculum_learning and build_train_valid_test_datasets_provider is not None:
+        log.info("DeepSpeed is enabled.")
+        # pp = mpu.get_pipeline_model_parallel_world_size()
+        if (
+            args.data_efficiency_curriculum_learning
+            and build_train_valid_test_datasets_provider is not None
+        ):
+            log.info(
+                "Caught 'args.data_efficiency_curriculum_learning' "
+                "and 'build_train_valid_test_datasets_provider is not None'"
+            )
             train_ds = None
             # Only need to build dataset on tp rank 0 since Megatron has the
             # broadcast_data() function that broadcast data from tp rank 0.
             if mpu.get_tensor_model_parallel_rank() == 0:
+                log.info("Caught 'mpu.get_tensor_model_parallel_rank() == 0'")
                 # Number of train/valid/test samples.
                 if args.train_samples:
                     train_samples = args.train_samples
                     update_train_iters(args)
                 else:
                     train_samples = args.train_iters * args.global_batch_size
+                log.info(f"{train_samples=}")
                 # eval_iters and test_iters here are not actually used, only for
                 # satisfying the input of build_train_valid_test_datasets_provider.
                 # We only need to build the training data here. And we follow
                 # baseline's logic to build eval/test dataset later in
                 # build_train_valid_test_data_iterators.
-                eval_iters = (args.train_iters // args.eval_interval + 1) * \
-                            args.eval_iters
+                eval_iters = (
+                    args.train_iters // args.eval_interval + 1
+                ) * args.eval_iters
                 test_iters = args.eval_iters
-                train_val_test_num_samples = [train_samples,
-                                            eval_iters * args.global_batch_size,
-                                            test_iters * args.global_batch_size]
+                train_val_test_num_samples = [
+                    train_samples,
+                    eval_iters * args.global_batch_size,
+                    test_iters * args.global_batch_size,
+                ]
+                log.info(f"{train_val_test_num_samples=}")
                 # Build the datasets.
                 train_ds, _, _ = build_train_valid_test_datasets_provider(
-                    train_val_test_num_samples)
-            model, optimizer, args.deepspeed_dataloader, opt_param_scheduler = deepspeed.initialize(
-                model=model[0],
-                optimizer=optimizer,
-                args=args,
-                lr_scheduler=opt_param_scheduler,
-                training_data=train_ds,
-                mpu=mpu if args.no_pipeline_parallel else None,
-                config=args.deepspeed_config_dict,
-            )
+                    train_val_test_num_samples
+                )
+            with Profile("deepspeed.initialize"):
+                model, optimizer, args.deepspeed_dataloader, opt_param_scheduler = (
+                    deepspeed.initialize(
+                        model=model[0],
+                        optimizer=optimizer,
+                        args=args,
+                        lr_scheduler=opt_param_scheduler,
+                        training_data=train_ds,
+                        mpu=mpu if args.no_pipeline_parallel else None,
+                        config=args.deepspeed_config_dict,
+                    )
+                )
             model.set_data_post_process_func(data_post_process)
         else:
-            model, optimizer, _, opt_param_scheduler = deepspeed.initialize(
-                model=model[0],
-                optimizer=optimizer,
-                args=args,
-                lr_scheduler=opt_param_scheduler,
-                mpu=mpu if args.no_pipeline_parallel else None,
-                config=args.deepspeed_config_dict,
+            log.info(
+                "Did NOT catch: ('args.data_efficiency_curriculum_learning' "
+                "and 'build_train_valid_test_datasets_provider is not None')"
             )
+            tds0 = time.time()
+            if os.environ.get("PYINSTRUMENT_PROFILER", None):
+                profiler = ezpz.profile.get_context_manager(rank=RANK, outdir=args.save)
+            else:
+                profiler = Profile("deepspeed.initialize")
+            log.info("Calling 'deepspeed.initialize'...")
+            log.info(f"Wrapped with: {profiler=}")
+            with profiler:
+                model, optimizer, _, opt_param_scheduler = deepspeed.initialize(
+                    model=model[0],
+                    optimizer=optimizer,
+                    args=args,
+                    lr_scheduler=opt_param_scheduler,
+                    mpu=mpu if args.no_pipeline_parallel else None,
+                    config=args.deepspeed_config_dict,
+                )
+            log.info(f"'deepspeed.initialize' took: {time.time() - tds0:.5f}s")
         if isinstance(model, deepspeed.PipelineEngine):
             # hack to get batch_fn from pretrain_gpt.py
             model.set_batch_fn(model.module._megatron_batch_fn)
-
-            assert model.grid.get_pipe_parallel_rank() == mpu.get_pipeline_model_parallel_rank()
-            assert model.grid.get_slice_parallel_rank() == mpu.get_tensor_model_parallel_rank()
+            assert (
+                model.grid.get_pipe_parallel_rank()
+                == mpu.get_pipeline_model_parallel_rank()
+            )
+            assert (
+                model.grid.get_slice_parallel_rank()
+                == mpu.get_tensor_model_parallel_rank()
+            )
             assert model.grid.get_data_parallel_rank() == mpu.get_data_parallel_rank()
         model = [model]
-
-    # Compression has its own checkpoint loading path (e.g, loading both teacher and student models). So if compression is enabled, we skip the following checkpoint loading.
+    # Compression has its own checkpoint loading path (e.g, loading both teacher
+    # and student models). So if compression is enabled, we skip the following
+    # checkpoint loading.
     no_post_init_checkpoint_loading = args.kd or args.mos
     if not no_post_init_checkpoint_loading:
         if args.load is not None:
             timers = get_timers()
-            timers('load-checkpoint', log_level=0).start(barrier=True)
+            assert timers is not None
+            # timers("load-checkpoint", log_level=0).start(barrier=True)
+            t0 = time.perf_counter()
             args.iteration = load_checkpoint(model, optimizer, opt_param_scheduler)
-            timers('load-checkpoint').stop(barrier=True)
-            timers.log(['load-checkpoint'])
+            ezpz.dist.synchronize()
+            dtl = time.perf_counter() - t0
+            try:
+                wandb.log({"timers/load-checkpoint": dtl}, step=args.iteration)
+            except Exception:
+                log.info(f"timers/load-checkpoint took {dtl:.3f} seconds")
+            # timers("load-checkpoint").stop(barrier=True)
+            # timers.log(["load-checkpoint"])
         else:
             args.iteration = 0
     else:
         model[0].global_steps = student_global_steps
-
     # We only support local DDP with multiple micro-batches.
     if len(model) > 1 or mpu.get_pipeline_model_parallel_world_size() > 1:
-        assert args.DDP_impl == 'local'
-
+        assert args.DDP_impl == "local"
     # get model without FP16 and/or TorchDDP wrappers
-    if args.iteration == 0 and len(unwrapped_model) == 1 \
-        and hasattr(unwrapped_model[0], 'init_state_dict_from_bert'):
-        print_rank_0("Initializing ICT from pretrained BERT model")
+    if (
+        args.iteration == 0
+        and len(unwrapped_model) == 1
+        and hasattr(unwrapped_model[0], "init_state_dict_from_bert")
+    ):
+        log.info("Initializing ICT from pretrained BERT model")
         unwrapped_model[0].init_state_dict_from_bert()
         if args.fp16:
+            assert optimizer is not None
             optimizer.reload_model_params()
-
     # random-LTD requires converting transformer layers
     if args.random_ltd:
         model[0] = convert_to_random_ltd(model[0], ParallelTransformerLayer)
-
     return model, optimizer, opt_param_scheduler
 
 
-
-def train_step(forward_step_func, data_iterator,
-               model, optimizer, opt_param_scheduler, config):
+@dlp.log
+def train_step(
+    forward_step_func, data_iterator, model, optimizer, opt_param_scheduler, config
+):
     """Single training step."""
     args = get_args()
     timers = get_timers()
-
+    accelerator = get_accelerator()
+    assert args is not None and timers is not None and accelerator is not None
+    grad_norm = None
+    num_zeros_in_grad = None
     if args.deepspeed and args.ds_pipeline_enabled:
-        skipped_iter = 0
         num_zeros_in_grad = 0
         assert isinstance(model[0], deepspeed.PipelineEngine)
         loss = model[0].train_batch(data_iter=data_iterator)
+        additional_losses = model[0].get_additional_losses()
+        loss_key = (
+            "lm loss" if additional_losses is None else "loss"
+        )  # use "lm loss" for backward compatibility
+        loss_dict = OrderedDict({loss_key: loss})
+        if additional_losses is not None:
+            loss_dict.update(additional_losses)
         grad_norm = model[0].get_global_grad_norm()
-        return {'lm loss' : loss}, skipped_iter, grad_norm, num_zeros_in_grad
+        update_successful = model[0].was_step_applied()
+        skipped_iter = 0 if update_successful else 1
+        return loss_dict, skipped_iter, grad_norm, num_zeros_in_grad
 
     # Set grad to zero.
     if not args.deepspeed:
-        if args.DDP_impl == 'local' and args.use_contiguous_buffers_in_local_ddp:
+        if args.DDP_impl == "local" and args.use_contiguous_buffers_in_local_ddp:
             for partition in model:
                 partition.zero_grad_buffer()
         optimizer.zero_grad()
 
     # Forward pass.
-    timers('forward-backward', log_level=1).start(
-        barrier=args.barrier_with_L1_time)
+    timers("forward-backward", log_level=1).start(barrier=args.barrier_with_L1_time)
     forward_backward_func = get_forward_backward_func()
     if args.mos or args.kd:
         # args.teacher_forward is used as global variable to enable kd loss
@@ -691,26 +901,29 @@ def train_step(forward_step_func, data_iterator,
     if args.timing_log_level < 2:
         config.timers = None
 
+    num_microbatches = get_num_microbatches()
+    assert num_microbatches is not None
     losses_reduced = forward_backward_func(
         forward_step_func=forward_step_func,
         data_iterator=data_iterator,
         model=model,
-        num_microbatches=get_num_microbatches(),
+        num_microbatches=num_microbatches,
         seq_length=args.seq_length,
         micro_batch_size=args.micro_batch_size,
         decoder_seq_length=args.decoder_seq_length,
-        forward_only=False)
+        forward_only=False,
+    )
 
     # reset timers if necessary
     if config.timers is None:
         config.timers = timers
-    timers('forward-backward').stop()
+    timers("forward-backward").stop()
     if args.mos or args.kd:
         args.teacher_forward = False
 
     # Empty unused memory.
-    if args.empty_unused_memory_level >= 1:
-        torch.cuda.empty_cache()
+    if args.empty_unused_memory_level >= 1 and accelerator is not None:
+        accelerator.empty_cache()
 
     # Reduce gradients.
     if not args.deepspeed:
@@ -718,21 +931,23 @@ def train_step(forward_step_func, data_iterator,
 
     # Vision gradients.
     if args.vision_pretraining and args.vision_pretraining_type == "dino":
-        unwrapped_model = unwrap_model(model[0],
-                                       (torchDDP, LocalDDP, Float16Module))
+        unwrapped_model = unwrap_model(model[0], (torchDDP, LocalDDP, Float16Module))
         unwrapped_model.cancel_gradients_last_layer(args.curr_iteration)
 
     # Update parameters.
-    timers('optimizer', log_level=1).start(barrier=args.barrier_with_L1_time)
+    timers("optimizer", log_level=1).start(barrier=args.barrier_with_L1_time)
     if args.deepspeed:
-        increment = get_num_microbatches() * \
-                    args.micro_batch_size * \
-                    args.data_parallel_size
-        model[0].step(lr_kwargs={'increment': increment})
-        update_successful = model[0].was_step_applied()
+        increment = (
+            get_num_microbatches() * args.micro_batch_size * args.data_parallel_size
+        )
+        try:
+            model[0].step(lr_kwargs={"increment": increment})
+            update_successful = model[0].was_step_applied()
+        except Exception:
+            update_successful = False
     else:
         update_successful, grad_norm, num_zeros_in_grad = optimizer.step(args, timers)
-    timers('optimizer').stop()
+    timers("optimizer").stop()
 
     # Gather params.
     if not args.deepspeed and update_successful:
@@ -740,511 +955,447 @@ def train_step(forward_step_func, data_iterator,
 
     # Vision momentum.
     if args.vision_pretraining and args.vision_pretraining_type == "dino":
-        unwrapped_model = unwrap_model(model[0],
-                                       (torchDDP, LocalDDP, Float16Module))
+        unwrapped_model = unwrap_model(model[0], (torchDDP, LocalDDP, Float16Module))
         unwrapped_model.update_momentum(args.curr_iteration)
 
     # Update learning rate.
     if args.deepspeed:
-        skipped_iter = 0
-        grad_norm = None
+        skipped_iter = 0 if update_successful else 1
+        grad_norm = model[0].get_global_grad_norm()
+        # Empty unused memory.
+        if args.empty_unused_memory_level >= 2 and accelerator is not None:
+            accelerator.empty_cache()
+        # XXX: [saforem2]: ----------------------------------------------------
+        # Is `num_zeros_in_grad` worth calculating (/ implementing) ??
+        # the `Megatron`-specific implementation is at:
+        # [megatron.optimizer.clip_grads.count_zeros_fp32](./optimizer/clip_grads.py)
+        # For now, explicitly set to None
+        # ---------------------------------------------------------------------
         num_zeros_in_grad = None
-        
         loss_reduced = {}
         for key in losses_reduced[0]:
             losses_reduced_for_key = [x[key] for x in losses_reduced]
-            loss_reduced[key] = sum(losses_reduced_for_key) / len(losses_reduced_for_key)
+            loss_reduced[key] = sum(losses_reduced_for_key) / len(
+                losses_reduced_for_key
+            )
         return loss_reduced, skipped_iter, grad_norm, num_zeros_in_grad
+    if update_successful:
+        increment = (
+            get_num_microbatches() * args.micro_batch_size * args.data_parallel_size
+        )
+        opt_param_scheduler.step(increment=increment)
+        skipped_iter = 0
     else:
-        if update_successful:
-            increment = get_num_microbatches() * \
-                        args.micro_batch_size * \
-                        args.data_parallel_size
-            opt_param_scheduler.step(increment=increment)
-            skipped_iter = 0
-        else:
-            skipped_iter = 1
-
-        # Empty unused memory.
-        if args.empty_unused_memory_level >= 2:
-            torch.cuda.empty_cache()
-
-        if mpu.is_pipeline_last_stage(ignore_virtual=True):
-            # Average loss across microbatches.
-            loss_reduced = {}
-            for key in losses_reduced[0]:
-                losses_reduced_for_key = [x[key] for x in losses_reduced]
-                loss_reduced[key] = sum(losses_reduced_for_key) / len(losses_reduced_for_key)
-            return loss_reduced, skipped_iter, grad_norm, num_zeros_in_grad
-    return {}, skipped_iter, grad_norm, num_zeros_in_grad
+        skipped_iter = 1
 
+    # Empty unused memory.
+    if args.empty_unused_memory_level >= 2 and accelerator is not None:
+        accelerator.empty_cache()
 
-def training_log(loss_dict, total_loss_dict, learning_rate, iteration,
-                 loss_scale, report_memory_flag, skipped_iter,
-                 grad_norm, params_norm, num_zeros_in_grad,
-                 model=None, optimizer=None):
-    """Log training information such as losses, timing, ...."""
-    args = get_args()
-    timers = get_timers()
-    writer = get_tensorboard_writer()
-
-    # Advanced, skipped, and Nan iterations.
-    advanced_iters_key = 'advanced iterations'
-    skipped_iters_key = 'skipped iterations'
-    nan_iters_key = 'nan iterations'
-    # Advanced iterations.
-    if not skipped_iter:
-        total_loss_dict[advanced_iters_key] = total_loss_dict.get(
-            advanced_iters_key, 0) + 1
-    else:
-        if advanced_iters_key not in total_loss_dict:
-            total_loss_dict[advanced_iters_key] = 0
-    # Skipped iterations.
-    total_loss_dict[skipped_iters_key] = total_loss_dict.get(
-        skipped_iters_key, 0) + skipped_iter
-    # Update losses and set nan iterations
-    got_nan = False
-    for key in loss_dict:
-        if not skipped_iter:
-            total_loss_dict[key] = total_loss_dict.get(
-                key, get_accelerator().FloatTensor([0.0])) + loss_dict[key]
-        else:
-            value = loss_dict[key].float().sum().item()
-            is_nan = value == float('inf') or \
-                     value == -float('inf') or \
-                     value != value
-            got_nan = got_nan or is_nan
-    total_loss_dict[nan_iters_key] = total_loss_dict.get(
-        nan_iters_key, 0) + int(got_nan)
-
-    # Logging.
-    timers_to_log = [
-        'forward-backward',
-        'forward-compute',
-        'backward-compute',
-        'batch-generator',
-        'forward-recv',
-        'forward-send',
-        'backward-recv',
-        'backward-send',
-        'forward-send-forward-recv',
-        'forward-send-backward-recv',
-        'backward-send-forward-recv',
-        'backward-send-backward-recv',
-        'forward-backward-send-forward-backward-recv',
-        'layernorm-grads-all-reduce',
-        'embedding-grads-all-reduce',
-        'grads-all-reduce',
-        'grads-reduce-scatter',
-        'params-all-gather',
-        'optimizer-copy-to-main-grad',
-        'optimizer-unscale-and-check-inf',
-        'optimizer-clip-main-grad',
-        'optimizer-count-zeros',
-        'optimizer-inner-step',
-        'optimizer-copy-main-to-model-params',
-        'optimizer']
-
-    # Calculate batch size.
-    batch_size = args.micro_batch_size * args.data_parallel_size * \
-        get_num_microbatches()
-
-    total_iterations = total_loss_dict[advanced_iters_key] + \
-                       total_loss_dict[skipped_iters_key]
-
-    # Tensorboard values.
-    # Timer requires all the ranks to call.
-    if args.log_timers_to_tensorboard and \
-       (iteration % args.tensorboard_log_interval == 0):
-        timers.write(timers_to_log, writer, iteration,
-                     normalizer=total_iterations)
-    if writer and (iteration % args.tensorboard_log_interval == 0):
-        writer.add_scalar('steps-vs-samples/y=steps,x=samples', iteration, args.consumed_train_samples)
-        writer.add_scalar('steps-vs-samples/y=samples,x=steps', args.consumed_train_samples, iteration)
-        writer.add_scalar('steps-vs-tokens/y=steps,x=tokens', iteration, args.consumed_train_tokens)
-        writer.add_scalar('steps-vs-tokens/y=tokens,x=steps', args.consumed_train_tokens, iteration)
-        if args.log_learning_rate_to_tensorboard:
-            writer.add_scalar('learning-rate/learning-rate', learning_rate, iteration)
-            writer.add_scalar('learning-rate/learning-rate vs samples', learning_rate,
-                              args.consumed_train_samples)
-            writer.add_scalar('learning-rate/learning-rate vs tokens', learning_rate,
-                              args.consumed_train_tokens)
-        if args.log_batch_size_to_tensorboard:
-            writer.add_scalar('batch-size/batch-size', batch_size, iteration)
-            writer.add_scalar('batch-size/batch-size vs samples', batch_size,
-                              args.consumed_train_samples)
-            writer.add_scalar('batch-size/batch-size vs tokens', batch_size,
-                              args.consumed_train_tokens)
-        for key in loss_dict:
-            writer.add_scalar(f"lm-loss-training/{key}", loss_dict[key], iteration)
-            writer.add_scalar(f"lm-loss-training/{key}" + ' vs samples', loss_dict[key],
-                              args.consumed_train_samples)
-            writer.add_scalar(f"lm-loss-training/{key}" + ' vs tokens', loss_dict[key],
-                              args.consumed_train_tokens)
-        if args.fp16 and args.log_loss_scale_to_tensorboard:
-            writer.add_scalar('loss-scale/loss-scale', loss_scale, iteration)
-            writer.add_scalar('loss-scale/loss-scale vs samples', loss_scale,
-                              args.consumed_train_samples)
-            writer.add_scalar('loss-scale/loss-scale vs tokens', loss_scale,
-                              args.consumed_train_tokens)
-        if args.log_world_size_to_tensorboard:
-            writer.add_scalar('world-size/world-size', args.world_size, iteration)
-            writer.add_scalar('world-size/world-size vs samples', args.world_size,
-                              args.consumed_train_samples)
-            writer.add_scalar('world-size/world-size vs tokens', args.world_size,
-                              args.consumed_train_tokens)
-        if grad_norm is not None:
-            writer.add_scalar('grad-norm/grad-norm', grad_norm, iteration)
-            writer.add_scalar('grad-norm/grad-norm vs samples', grad_norm,
-                              args.consumed_train_samples)
-            writer.add_scalar('grad-norm/grad-norm vs tokens', grad_norm,
-                              args.consumed_train_tokens)
-        if num_zeros_in_grad is not None:
-            writer.add_scalar('num-zeros/num-zeros', num_zeros_in_grad, iteration)
-            writer.add_scalar('num-zeros/num-zeros vs samples', num_zeros_in_grad,
-                              args.consumed_train_samples)
-            writer.add_scalar('num-zeros/num-zeros vs tokens', num_zeros_in_grad,
-                              args.consumed_train_tokens)
-        if params_norm is not None:
-            writer.add_scalar('params-norm/params-norm', params_norm, iteration)
-            writer.add_scalar('params-norm/params-norm vs samples', params_norm,
-                              args.consumed_train_samples)
-            writer.add_scalar('params-norm/params-norm vs tokens', params_norm,
-                              args.consumed_train_tokens)
-        if hasattr(args, 'actual_seq_length'):
-            writer.add_scalar('seqlen/actual_seq_length', args.actual_seq_length,
-                              iteration)
-            writer.add_scalar('seqlen/actual_seq_length vs samples', args.actual_seq_length,
-                              args.consumed_train_samples)
-            writer.add_scalar('seqlen/actual_seq_length vs tokens', args.actual_seq_length,
-                              args.consumed_train_tokens)
-        if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
-            writer.add_scalar('seqlen/curriculum_seqlen', args.curriculum_seqlen,
-                              iteration)
-            writer.add_scalar('seqlen/curriculum_seqlen vs samples', args.curriculum_seqlen,
-                              args.consumed_train_samples)
-            writer.add_scalar('seqlen/curriculum_seqlen vs tokens', args.curriculum_seqlen,
-                              args.consumed_train_tokens)
-        if args.random_ltd:
-            writer.add_scalar('seqlen/random_ltd_reserved_length', args.random_ltd_reserved_length,
-                              iteration)
-            writer.add_scalar('seqlen/random_ltd_reserved_length vs samples', args.random_ltd_reserved_length,
-                              args.consumed_train_samples)
-            writer.add_scalar('seqlen/random_ltd_reserved_length vs tokens', args.random_ltd_reserved_length,
-                              args.consumed_train_tokens)
-        if args.log_memory_to_tensorboard:
-            mem_stats = torch.cuda.memory_stats()
-            writer.add_scalar(
-                "mem-reserved-bytes",
-                mem_stats["reserved_bytes.all.current"],
-                iteration,
-            )
-            writer.add_scalar(
-                "mem-allocated-bytes",
-                mem_stats["allocated_bytes.all.current"],
-                iteration,
-            )
-            writer.add_scalar(
-                "mem-allocated-count",
-                mem_stats["allocation.all.current"],
-                iteration,
+    if mpu.is_pipeline_last_stage(ignore_virtual=True):
+        # Average loss across microbatches.
+        loss_reduced = {}
+        for key in losses_reduced[0]:
+            losses_reduced_for_key = [x[key] for x in losses_reduced]
+            loss_reduced[key] = sum(losses_reduced_for_key) / len(
+                losses_reduced_for_key
             )
-
-    if iteration % args.tensorboard_log_interval == 0:
-        # This logging write various optimizer states to tensorboard. This
-        # feature may consume extra GPU memory thus is set at false by default.
-        if args.log_optimizer_states_to_tensorboard and optimizer is not None:
-            opt_stats = [0.0] * 8
-            opt_stats_2 = [0.0] * 4
-            for _, group in enumerate(optimizer.param_groups):
-                for _, param in enumerate(group['params']):
-                    opt_stats[0] += (torch.norm(optimizer.state[param]['exp_avg_sq']).item())**2
-                    opt_stats[1] += (torch.norm(optimizer.state[param]['exp_avg_sq'].sqrt()).item())**2
-                    opt_stats[2] += (torch.norm(optimizer.state[param]['exp_avg']).item())**2
-                    opt_stats[3] += (torch.norm(param).item())**2
-                    opt_stats[4] += torch.norm(optimizer.state[param]['exp_avg_sq'],p=1).item()
-                    opt_stats[5] += torch.norm(optimizer.state[param]['exp_avg_sq'].sqrt(),p=1).item()
-                    opt_stats[6] += torch.norm(optimizer.state[param]['exp_avg'],p=1).item()
-                    opt_stats[7] += torch.norm(param,p=1).item()
-                    opt_stats_2[0] = max(opt_stats_2[0], abs(optimizer.state[param]['exp_avg_sq'].max().item()), abs(optimizer.state[param]['exp_avg_sq'].min().item()))
-                    opt_stats_2[1] = max(opt_stats_2[1], optimizer.state[param]['exp_avg_sq'].sqrt().abs_().max().item())
-                    opt_stats_2[2] = max(opt_stats_2[2], abs(optimizer.state[param]['exp_avg'].max().item()), abs(optimizer.state[param]['exp_avg'].min().item()))
-                    opt_stats_2[3] = max(opt_stats_2[3], abs(param.max().item()), abs(param.min().item()))
-            # print('step {} rank {} before sync opt_stats {}, {}'.format(iteration, torch.distributed.get_rank(), opt_stats_2, opt_stats))
-            if args.zero_stage > 0:
-                # ZeRO partiions optimizer states
-                opt_stats = get_accelerator().FloatTensor(opt_stats)
-                torch.distributed.all_reduce(opt_stats, group=mpu.get_sequence_data_parallel_group())
-                opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
-                torch.distributed.all_reduce(opt_stats_2, op=torch.distributed.ReduceOp.MAX,
-                    group=mpu.get_sequence_data_parallel_group())
-
-            if args.tensor_model_parallel_size > 1:
-                opt_stats = get_accelerator().FloatTensor(opt_stats)
-                torch.distributed.all_reduce(opt_stats, group=mpu.get_tensor_model_parallel_group())
-                opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
-                torch.distributed.all_reduce(opt_stats_2, op=torch.distributed.ReduceOp.MAX,
-                    group=mpu.get_tensor_model_parallel_group())
-
-            if args.pipeline_model_parallel_size > 1:
-                opt_stats = get_accelerator().FloatTensor(opt_stats)
-                torch.distributed.all_reduce(opt_stats, group=mpu.get_pipeline_model_parallel_group())
-                opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
-                torch.distributed.all_reduce(opt_stats_2, op=torch.distributed.ReduceOp.MAX,
-                    group=mpu.get_pipeline_model_parallel_group())
-
-            # print('step {} rank {} after sync opt_stats {}, {}'.format(iteration, torch.distributed.get_rank(), opt_stats_2, opt_stats))
-            if writer and is_last_rank():
-                writer.add_scalar('optimizer/variance_l2 vs tokens', opt_stats[0]**0.5, args.consumed_train_tokens)
-                writer.add_scalar('optimizer/variance_sqrt_l2 vs tokens', opt_stats[1]**0.5, args.consumed_train_tokens)
-                writer.add_scalar('optimizer/momentum_l2 vs tokens', opt_stats[2]**0.5, args.consumed_train_tokens)
-                writer.add_scalar('optimizer/weight_l2 vs tokens', opt_stats[3]**0.5, args.consumed_train_tokens)
-                writer.add_scalar('optimizer/variance_l1 vs tokens', opt_stats[4], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/variance_sqrt_l1 vs tokens', opt_stats[5], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/momentum_l1 vs tokens', opt_stats[6], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/weight_l1 vs tokens', opt_stats[7], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/variance_abs_max vs tokens', opt_stats_2[0], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/variance_sqrt_abs_max vs tokens', opt_stats_2[1], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/momentum_abs_max vs tokens', opt_stats_2[2], args.consumed_train_tokens)
-                writer.add_scalar('optimizer/weight_abs_max vs tokens', opt_stats_2[3], args.consumed_train_tokens)
-
-                writer.add_scalar('optimizer/variance_l2', opt_stats[0]**0.5, iteration)
-                writer.add_scalar('optimizer/variance_sqrt_l2', opt_stats[1]**0.5, iteration)
-                writer.add_scalar('optimizer/momentum_l2', opt_stats[2]**0.5, iteration)
-                writer.add_scalar('optimizer/weight_l2', opt_stats[3]**0.5, iteration)
-                writer.add_scalar('optimizer/variance_l1', opt_stats[4], iteration)
-                writer.add_scalar('optimizer/variance_sqrt_l1', opt_stats[5], iteration)
-                writer.add_scalar('optimizer/momentum_l1', opt_stats[6], iteration)
-                writer.add_scalar('optimizer/weight_l1', opt_stats[7], iteration)
-                writer.add_scalar('optimizer/variance_abs_max', opt_stats_2[0], iteration)
-                writer.add_scalar('optimizer/variance_sqrt_abs_max', opt_stats_2[1], iteration)
-                writer.add_scalar('optimizer/momentum_abs_max', opt_stats_2[2], iteration)
-                writer.add_scalar('optimizer/weight_abs_max', opt_stats_2[3], iteration)
-
-    assert args is not None
-    if iteration % args.log_interval == 0:
-        elapsed_time = timers('interval-time').elapsed(barrier=True)
-        elapsed_time_per_iteration = elapsed_time / total_iterations
-        seq_len = args.seq_length
-        if hasattr(args, 'actual_seq_length'):
-            seq_len = args.actual_seq_length
-        samples_per_sec, tflops, approx_parameters_in_billions = throughput_calculator(
-            model,
-            args,
-            elapsed_time,
-            total_iterations
-        )
-        samples_per_sec_per_replica = samples_per_sec / args.data_parallel_size
-        tokens_per_sec = samples_per_sec * seq_len
-        tokens_per_sec_per_replica = tokens_per_sec / args.data_parallel_size
-        tokens_per_gpu_per_second = tokens_per_sec / args.world_size
-        tokens_per_gpu_per_second_per_replica = tokens_per_gpu_per_second / args.data_parallel_size
-        wandb_metrics = {}
-        if wandb is not None and getattr(wandb, 'run', None) is not None:
-            assert wandb.run is not None
-            wandb_metrics = {
-                'throughput/iteration-time': elapsed_time_per_iteration,  # 1000 ms / s
-                'throughput/samples_per_sec': samples_per_sec,
-                'throughput/samples_per_sec_per_replica': samples_per_sec_per_replica,
-                'throughput/tokens_per_sec': tokens_per_sec,
-                'throughput/tokens_per_sec_per_replica': tokens_per_sec_per_replica,
-                'throughput/tokens_per_gpu_per_sec': tokens_per_gpu_per_second,
-                'throughput/tokens_per_gpu_per_sec_per_replica': tokens_per_gpu_per_second_per_replica,
-                'throughput/tflops': tflops,
-                'throughput/approx_params_in_billions': approx_parameters_in_billions,
-                'throughput/elapsed_ms_per_iteration': elapsed_time_per_iteration,
-                'throughput/iteration': iteration,
-            }
-            if loss_dict is not None:
-                wandb_metrics |= {
-                    'loss/iteration': iteration,
-                    **{f'loss/{k}': v for k, v in loss_dict.items()}
-                }
-        if writer and args.log_timers_to_tensorboard:
-            writer.add_scalar('iteration-time/iteration-time',
-                              elapsed_time_per_iteration, iteration)
-            writer.add_scalar('iteration-time/iteration-time vs samples',
-                              elapsed_time_per_iteration, args.consumed_train_samples)
-            writer.add_scalar('iteration-time/iteration-time vs tokens',
-                              elapsed_time_per_iteration, args.consumed_train_tokens)
-        log_string = ' iteration {:8d}/{:8d} |'.format(
-            iteration, args.train_iters)
-        log_string += ' consumed samples: {:12d} |'.format(
-            args.consumed_train_samples)
-        log_string += ' consumed tokens: {:12d} |'.format(
-            args.consumed_train_tokens)
-        log_string += ' elapsed time per iteration (ms): {:.1f} |'.format(
-            elapsed_time_per_iteration * 1000.0)
-        log_string += ' learning rate: {:.3E} |'.format(learning_rate)
-        log_string += ' global batch size: {:5d} |'.format(batch_size)
-        if wandb is not None and getattr(wandb, 'run', None) is not None:
-            wandb_metrics |= {
-                'training/iteration': iteration,
-                'training/iteration_time': elapsed_time_per_iteration,
-                'training/iteration_time_vs_tokens': (
-                    (elapsed_time_per_iteration
-                        / args.consumed_train_tokens)
-                ),
-                'training/iteration_time_vs_samples': (
-                    (elapsed_time_per_iteration
-                        / args.consumed_train_samples),
-                ),
-                'training/consumed_samples': args.consumed_train_samples,
-                'training/consumed_tokens': args.consumed_train_tokens,
-            }
-        for key in total_loss_dict:
-            if key not in [advanced_iters_key, skipped_iters_key,
-                           nan_iters_key]:
-                avg = total_loss_dict[key].item() / \
-                      float(max(1, total_loss_dict[advanced_iters_key]))
-                if avg > 0.0:
-                    log_string += ' {}: {:.6E} |'.format(key, avg)
-                total_loss_dict[key] = get_accelerator().FloatTensor([0.0])
-        if loss_scale is not None:
-            log_string += ' loss scale: {:.1f} |'.format(loss_scale)
-            wandb_metrics |= {'loss/loss_scale': loss_scale}
-        if grad_norm is not None:
-            log_string += ' grad norm: {:.3f} |'.format(grad_norm)
-            wandb_metrics |= {'loss/grad_norm': grad_norm}
-        if num_zeros_in_grad is not None:
-            log_string += ' num zeros: {:.1f} |'.format(num_zeros_in_grad)
-            wandb_metrics |= {'loss/num_zeros_in_grad': num_zeros_in_grad}
-        if params_norm is not None:
-            log_string += ' params norm: {:.3f} |'.format(params_norm)
-            wandb_metrics |= {'loss/params_norm': params_norm}
-        if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
-            log_string += ' curriculum seqlen: {:5d} |'.format(args.curriculum_seqlen)
-        if args.random_ltd:
-            log_string += ' random ltd reserved length: {:5d} |'.format(args.random_ltd_reserved_length)
-        log_string += ' actual seqlen: {:5d} |'.format(seq_len)
-        log_string += ' number of skipped iterations: {:3d} |'.format(
-            total_loss_dict[skipped_iters_key])
-        log_string += ' number of nan iterations: {:3d} |'.format(
-            total_loss_dict[nan_iters_key])
-        log_string += ' samples per second: {:.3f} |'.format(samples_per_sec)
-        log_string += ' tokens per gpu per second (tgs): {:.3f} |'.format(tokens_per_gpu_per_second)
-        log_string += ' TFLOPs: {:.2f} |'.format(tflops)
-        total_loss_dict[advanced_iters_key] = 0
-        total_loss_dict[skipped_iters_key] = 0
-        total_loss_dict[nan_iters_key] = 0
-        print_rank_last(log_string)
-        if report_memory_flag and learning_rate > 0.:
-            # Report memory after optimizer state has been initialized.
-            report_memory('(after {} iterations)'.format(iteration))
-            report_memory_flag = False
-        if wandb is not None and getattr(wandb, 'run', None) is not None:
-            wandb_metrics |= {'training/skiped_iterations': total_loss_dict[skipped_iters_key]}
-            wandb_metrics |= {'training/nan_iterations': total_loss_dict[nan_iters_key]}
-            wandb.log(wandb_metrics)
-        if timers is not None:
-            timers.log(timers_to_log, normalizer=args.log_interval)
-
-    return report_memory_flag
+        return loss_reduced, skipped_iter, grad_norm, num_zeros_in_grad
+    return {}, skipped_iter, grad_norm, num_zeros_in_grad
 
 
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
 def save_checkpoint_and_time(iteration, model, optimizer, opt_param_scheduler):
     timers = get_timers()
+    assert timers is not None
     # Extra barrier is added to make sure
     # all ranks report the max time.
     # assert timers is not None
-    timers('save-checkpoint', log_level=0).start(barrier=True)
+    timers("save-checkpoint", log_level=0).start(barrier=True)
     save_checkpoint(iteration, model, optimizer, opt_param_scheduler)
-    timers('save-checkpoint').stop(barrier=True)
-    checkpoint_throughput_calculator(model, timers('save-checkpoint').elapsed(reset=False))
-    timers.log(['save-checkpoint'])
-
-
-def train(forward_step_func, model, optimizer, opt_param_scheduler,
-          train_data_iterator, valid_data_iterator,
-          process_non_loss_data_func):
+    timers("save-checkpoint").stop(barrier=True)
+    checkpoint_throughput_calculator(
+        model, timers("save-checkpoint").elapsed(reset=False)
+    )
+    timers.log(["save-checkpoint"])
+
+
+@dlp.log
+def train(
+    forward_step_func,
+    model,
+    optimizer,
+    opt_param_scheduler,
+    train_data_iterator,
+    valid_data_iterator,
+    process_non_loss_data_func,
+):
     """Train the model function."""
     args = get_args()
     timers = get_timers()
-
+    accelerator = get_accelerator()
+    assert args is not None and timers is not None and accelerator is not None
     # Write args to tensorboard
     write_args_to_tensorboard()
+    assert accelerator is not None
+    setup_profiler(args, accelerator.device_name())
 
     if args.random_ltd:
         # random-ltd requires different randomness on each rank
         import random
-        random.seed(args.seed + torch.distributed.get_rank())
 
+        random.seed(args.seed + torch.distributed.get_rank())
     # Turn on training mode which enables dropout.
     for model_module in model:
         model_module.train()
-
+    grad_norm = None
     # Tracking loss.
     total_loss_dict = {}
-
+    loss_dict = {"skipped_iter": 0}
     # Iterations.
     iteration = args.iteration
-
     # Translate args to core configuration
     config = core_transformer_config_from_args(args)
+    num_skipped_iters = 0
     if not args.deepspeed:
         config.grad_scale_func = optimizer.scale_loss
     config.timers = timers
-
-    timers('interval-time', log_level=0).start(barrier=True)
-    print_datetime('before the start of training step')
+    timers("interval-time", log_level=0).start(barrier=True)
+    print_datetime("before the start of training step")
     report_memory_flag = True
     if args.random_ltd:
         assert model[0].random_ltd_enabled()
-        args.random_ltd_layer_num = model[0].random_ltd_scheduler.get_random_ltd_layer_num()
-        
-    while iteration < args.train_iters and (args.train_tokens is None or \
-        args.consumed_train_tokens < args.train_tokens):
+        args.random_ltd_layer_num = model[
+            0
+        ].random_ltd_scheduler.get_random_ltd_layer_num()
+    ranges_to_skip = None
+    if args.train_range_to_skip is not None:
+        assert (
+            len(args.train_range_to_skip) % 2 == 0
+        ), f"""Expected --train-range-to-skip to have an even number of values.
+            Received: {len(args.train_range_to_skip)}
+            """
+        ranges_to_skip = list(
+            zip(
+                args.train_range_to_skip[::2],
+                args.train_range_to_skip[1::2],
+            )
+        )
+
+    # Learning rate finder mode
+    if hasattr(args, "lr_finder") and args.lr_finder:
+        # Calculate number of iterations to use (10% of train_iters)
+        finder_iters = max(1, int(args.train_iters * 0.1))
+
+        # Initialize tracking variables for LR finder
+        lr_finder_losses = []
+        lr_finder_lrs = []
+
+        # Initialize loss smoothing variables
+        avg_loss = 0.0
+        best_loss = float("inf")
+        batch_num = 0
+        beta = 0.98  # Smoothing factor
+
+        # Set initial learning rate and calculate multiplier
+        init_lr = 1e-6
+        max_lr = 1.0
+        mult = (max_lr / init_lr) ** (1 / finder_iters)
+
+        # Set initial learning rate
+        curr_lr = init_lr
+        for param_group in optimizer.param_groups:
+            param_group["lr"] = curr_lr
+
+        # Turn on training mode which enables dropout
+        for model_module in model:
+            model_module.train()
+
+        # Get configuration for training
+        config = core_transformer_config_from_args(args)
+        if not args.deepspeed:
+            config.grad_scale_func = optimizer.scale_loss
+        config.timers = timers
+
+        log.info(
+            f"Running learning rate finder for {finder_iters} iterations (10% of {args.train_iters})"
+        )
+
+        # convenience handles for DP sync
+        dp_group = mpu.get_data_parallel_group()
+        dev = torch.device(DEVICE_TYPE)
+
+        # Main LR finder loop
+        for i in range(finder_iters):
+            # Execute training step
+            loss_dict, skipped_iter, grad_norm, num_zeros_in_grad = train_step(
+                forward_step_func,
+                train_data_iterator,
+                model,
+                optimizer,
+                opt_param_scheduler,
+                config,
+            )
+
+            # --- MAKE skipped_iter GLOBAL (any rank skip => all skip) ---
+            if tdist.is_available() and tdist.is_initialized():
+                _skip = torch.tensor([1 if skipped_iter else 0], device=dev)
+                tdist.all_reduce(_skip, op=tdist.ReduceOp.MAX, group=dp_group)
+                skipped_iter = bool(_skip.item())
+
+            # ---- PRESERVE ORIGINAL SEMANTICS: do NOT advance LR when skipped ----
+            if skipped_iter:
+                # Keep control flow identical across ranks
+                continue
+
+            # Get loss value (use first available loss if multiple present).
+            # Non-pipeline-last stages return {}, so contribute 0.
+            if "lm loss" in loss_dict:
+                local_loss = loss_dict["lm loss"]
+            elif loss_dict:
+                local_loss = next(iter(loss_dict.values()))
+            else:
+                local_loss = 0.0
+
+            if isinstance(local_loss, torch.Tensor):
+                local_loss = local_loss.item()
+
+            # --- REDUCE loss across DP (average of contributing ranks) ---
+            loss_t = torch.tensor([float(local_loss)], device=dev)
+            # Only pipeline-last ranks contribute 1.0 to the denominator
+            contrib = 1.0 if mpu.is_pipeline_last_stage(ignore_virtual=True) else 0.0
+            denom_t = torch.tensor([contrib], device=dev)
+
+            if tdist.is_available() and tdist.is_initialized():
+                tdist.all_reduce(loss_t, op=tdist.ReduceOp.SUM, group=dp_group)
+                tdist.all_reduce(denom_t, op=tdist.ReduceOp.SUM, group=dp_group)
+
+            dp_count = max(1.0, float(denom_t.item()))
+            loss_val = float(loss_t.item()) / dp_count
+
+            # Update batch counter
+            batch_num += 1
+
+            # Compute smoothed loss
+            avg_loss = beta * avg_loss + (1 - beta) * loss_val
+            smoothed_loss = avg_loss / (1 - beta**batch_num)
+
+            # Update best_loss with the SAME smoothed_loss across all ranks
+            if smoothed_loss < best_loss or batch_num == 1:
+                best_loss = smoothed_loss
+
+            #  explode = (batch_num > 1 and smoothed_loss > 4 * best_loss)
+
+            # if explode:
+            #     if mpu.get_data_parallel_rank() == 0:
+            #         log.info(f"Loss exploding at lr={curr_lr:.8f}, stopping LR finder")
+            #     break
+
+            ## Record the best loss (use the same global smoothed_loss)
+            # if smoothed_loss < best_loss or batch_num == 1:
+            #    best_loss = smoothed_loss
+
+            # --- GLOBALIZE the "loss exploding" decision (any rank => all ranks) ---
+            # explode_local = (batch_num > 1 and smoothed_loss > 4 * best_loss)
+            # print(f"Rank {mpu.get_data_parallel_rank()}: explode_local={explode_local}")
+            # if mpu.get_data_parallel_rank() == 0:
+
+            #    print(f"Iter {i}: batch_num={batch_num}, smoothed_loss={smoothed_loss:.8f}, best_loss={best_loss:.8f}, ratio={smoothed_loss/best_loss:.2f}")
+            # if tdist.is_available() and tdist.is_initialized():
+            #    _exp = torch.tensor([1 if explode_local else 0], device=dev)
+            #    tdist.all_reduce(_exp, op=tdist.ReduceOp.MAX, group=dp_group)
+            #    explode = bool(_exp.item())
+            # else:
+            #    explode = explode_local
+
+            # if explode:
+            #    if mpu.get_data_parallel_rank() == 0:
+            #        log.info(f"Loss exploding at lr={curr_lr:.8f}, stopping LR finder")
+            # Keep everyone in lockstep before breaking
+            #    if tdist.is_available() and tdist.is_initialized():
+            #        tdist.barrier(group=dp_group)
+            #    break
+
+            # Record values for plotting
+            lr_finder_losses.append(smoothed_loss)
+            lr_finder_lrs.append(curr_lr)
+
+            # Print progress
+            if (i + 1) % args.log_interval == 0 and mpu.get_data_parallel_rank() == 0:
+                log.info(
+                    f"LR Finder: iteration {i + 1}/{finder_iters}, "
+                    f"lr: {curr_lr:.8f}, loss: {smoothed_loss:.4f}"
+                )
+
+            # Update the learning rate for the next step (bypassing scheduler)
+            curr_lr *= mult
+            for param_group in optimizer.param_groups:
+                param_group["lr"] = curr_lr
+
+        # Save raw data (on rank 0 only)
+        if mpu.get_data_parallel_rank() == 0:
+            # Create the results directory if it doesn't exist
+            os.makedirs(f"{args.save}/lr_finder", exist_ok=True)
+
+            # Save raw data to a simple CSV file
+            import csv
+
+            with open(
+                f"{args.save}/lr_finder/lr_finder_data.csv", "w", newline=""
+            ) as f:
+                writer = csv.writer(f)
+                writer.writerow(["learning_rate", "loss"])
+                for lr, loss in zip(lr_finder_lrs, lr_finder_losses):
+                    writer.writerow([lr, loss])
+
+            # Also save as numpy arrays for convenience
+            try:
+                import numpy as np
+
+                np.savez(
+                    f"{args.save}/lr_finder/lr_finder_data.npz",
+                    learning_rates=np.array(lr_finder_lrs),
+                    losses=np.array(lr_finder_losses),
+                )
+            except ImportError:
+                pass
+
+            log.info(f"LR finder completed. Results saved to {args.save}/lr_finder/")
+
+        # Ensure all ranks exit LR-finder together (prevents stragglers)
+        if tdist.is_available() and tdist.is_initialized():
+            tdist.barrier(group=dp_group)
+
+        # Return after LR finder is done
+        return args.iteration
+
+    while iteration < args.train_iters and (
+        args.train_tokens is None or args.consumed_train_tokens < args.train_tokens
+    ):
+        trigger(on_step_begin)
         update_num_microbatches(args.consumed_train_samples)
         if args.deepspeed:
             # inform deepspeed of any batch size changes
-            global_batch_size = mpu.get_data_parallel_world_size() * \
-                                args.micro_batch_size * \
-                                get_num_microbatches()
+            global_batch_size = (
+                mpu.get_data_parallel_world_size()
+                * args.micro_batch_size
+                * get_num_microbatches()
+            )
             model[0].set_train_batch_size(global_batch_size)
-
         if args.curriculum_learning_legacy and not args.no_pipeline_parallel:
-            curriculum_seqlen = args.curriculum_scheduler.update_difficulty( \
-                    args.iteration + 1)
+            curriculum_seqlen = args.curriculum_scheduler.update_difficulty(
+                args.iteration + 1
+            )
             if iteration == 0 or curriculum_seqlen != args.curriculum_seqlen:
                 if args.use_rotary_position_embeddings:
                     update_rotary_pos_emb(curriculum_seqlen)
             args.curriculum_seqlen = curriculum_seqlen
         args.curr_iteration = iteration
-        loss_dict, skipped_iter, grad_norm, num_zeros_in_grad = \
-            train_step(forward_step_func,
-                       train_data_iterator,
-                       model,
-                       optimizer,
-                       opt_param_scheduler,
-                       config)
+        if ranges_to_skip is not None and any(
+            [i <= (iteration + 1) <= j for (i, j) in ranges_to_skip]
+        ):
+            log.info(f"Caught {iteration + 1} in 'ranges_to_skip', skipping!")
+            skipped_iter = 1
+            num_skipped_iters += 1
+            num_zeros_in_grad = None
+            gas = args.deepspeed_config_dict["gradient_accumulation_steps"]
+            for microstep in range(gas):
+                _batch = next(train_data_iterator)
+                _tokens = _batch["text"]
+                if (
+                    iteration < 10
+                    and os.environ.get("DUMP_SKIPPED_ITERS", None)
+                    and RANK == 0
+                ):
+                    log.info(f"{_tokens.shape}, {len(train_data_iterator)=}")
+                    log.info(
+                        f"{iteration=} [{microstep}/{gas}]: ({_tokens.shape})\n{_tokens[:10]=}"
+                    )
+
+            increment = (
+                get_num_microbatches() * args.micro_batch_size * args.data_parallel_size
+            )
+            model[0].skipped_steps += 1
+            model[0].global_steps += 1
+            model[0].micro_steps += 1
+            model[0].global_samples += model[0].train_batch_size()
+            opt_param_scheduler.step(increment=increment)
+        else:
+            if os.getenv("TORCH_PROFILER_ENABLE") == "2":
+                from torch.profiler import profile, ProfilerActivity
+
+                try:
+                    activities = [
+                        ProfilerActivity.CPU,
+                        ProfilerActivity.CUDA,
+                        ProfilerActivity.XPU,  # type:ignore
+                    ]
+                except Exception:
+                    log.warning("TORCH PROFILER WARNING: XPU is not supported")
+                    activities = [ProfilerActivity.CPU, ProfilerActivity.CUDA]
+                with profile(activities=activities) as prof:
+                    loss_dict, skipped_iter, grad_norm, num_zeros_in_grad = train_step(
+                        forward_step_func,
+                        train_data_iterator,
+                        model,
+                        optimizer,
+                        opt_param_scheduler,
+                        config,
+                    )
+                prof.export_chrome_trace(
+                    f"{args.trace_dir}/torch-trace-{RANK}-of-{WORLD_SIZE}-step{iteration}.json"
+                )
+            else:
+                loss_dict, skipped_iter, grad_norm, num_zeros_in_grad = train_step(
+                    forward_step_func,
+                    train_data_iterator,
+                    model,
+                    optimizer,
+                    opt_param_scheduler,
+                    config,
+                )
         iteration += 1
         args.iteration = iteration
-        new_samples = mpu.get_data_parallel_world_size() * \
-                                       args.micro_batch_size * \
-                                       get_num_microbatches()
+        new_samples = (
+            mpu.get_data_parallel_world_size()
+            * args.micro_batch_size
+            * get_num_microbatches()
+        )
         args.consumed_train_samples += new_samples
         # This actual_seq_length is used for actual consumed tokens calculation, flops calculation, and logging.
         args.actual_seq_length = args.seq_length
         if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
             args.actual_seq_length = args.curriculum_seqlen
         if args.random_ltd:
-            args.random_ltd_reserved_length = model[0].random_ltd_scheduler.get_current_seq()
+            args.random_ltd_reserved_length = model[
+                0
+            ].random_ltd_scheduler.get_current_seq()
             if args.random_ltd_reserved_length < args.actual_seq_length:
-                args.actual_seq_length = (args.actual_seq_length * (args.num_layers - args.random_ltd_layer_num) + args.random_ltd_reserved_length * args.random_ltd_layer_num) // args.num_layers
+                args.actual_seq_length = (
+                    args.actual_seq_length
+                    * (args.num_layers - args.random_ltd_layer_num)
+                    + args.random_ltd_reserved_length * args.random_ltd_layer_num
+                ) // args.num_layers
         if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
-            if hasattr(args, 'data_efficiency_curriculum_learning_numel'):
-                act_mbsz = args.data_efficiency_curriculum_learning_numel / args.curriculum_seqlen
+            if hasattr(args, "data_efficiency_curriculum_learning_numel"):
+                act_mbsz = (
+                    args.data_efficiency_curriculum_learning_numel
+                    / args.curriculum_seqlen
+                )
                 act_token = act_mbsz * args.actual_seq_length
-                args.consumed_train_tokens += mpu.get_data_parallel_world_size() * \
-                        get_num_microbatches() * act_token
+                args.consumed_train_tokens += (
+                    mpu.get_data_parallel_world_size()
+                    * get_num_microbatches()
+                    * act_token
+                )
             else:
                 args.consumed_train_tokens += new_samples * args.actual_seq_length
         else:
             args.consumed_train_tokens += new_samples * args.actual_seq_length
-        
         # Logging.
         if args.deepspeed:
-            if hasattr(model[0].optimizer, 'cur_scale'):
+            if hasattr(model[0].optimizer, "cur_scale"):
                 loss_scale = model[0].optimizer.cur_scale
             else:
                 loss_scale = None
@@ -1253,81 +1404,103 @@ def train(forward_step_func, model, optimizer, opt_param_scheduler,
         params_norm = None
         if args.log_params_norm:
             params_norm = calc_params_l2_norm(model)
-        report_memory_flag = training_log(loss_dict, total_loss_dict,
-                                          optimizer.param_groups[0]['lr'],
-                                          iteration, loss_scale,
-                                          report_memory_flag, skipped_iter,
-                                          grad_norm, params_norm, num_zeros_in_grad,
-                                          model, optimizer)
-
+        report_memory_flag = training_log(
+            loss_dict,
+            total_loss_dict,
+            optimizer.param_groups[0]["lr"],
+            iteration,
+            loss_scale,
+            report_memory_flag,
+            skipped_iter,
+            grad_norm,
+            params_norm,
+            num_zeros_in_grad,
+            model,
+            optimizer,
+        )
         # Autoresume
-        if args.adlr_autoresume and \
-           (iteration % args.adlr_autoresume_interval == 0):
-            check_adlr_autoresume_termination(iteration, model, optimizer,
-                                              opt_param_scheduler)
-
+        if args.adlr_autoresume and (iteration % args.adlr_autoresume_interval == 0):
+            check_adlr_autoresume_termination(
+                iteration, model, optimizer, opt_param_scheduler
+            )
         # Evaluation
-        if args.eval_interval and iteration % args.eval_interval == 0 and \
-           args.do_valid:
-            prefix = 'iteration {}'.format(iteration)
-            evaluate_and_print_results(prefix, forward_step_func,
-                                       valid_data_iterator, model,
-                                       iteration, process_non_loss_data_func,
-                                       config, False)
-
+        if args.eval_interval and iteration % args.eval_interval == 0 and args.do_valid:
+            prefix = "iteration {}".format(iteration)
+            evaluate_and_print_results(
+                prefix,
+                forward_step_func,
+                valid_data_iterator,
+                model,
+                iteration,
+                process_non_loss_data_func,
+                config,
+                False,
+            )
         # Checkpointing
         saved_checkpoint = False
         if args.exit_signal_handler:
             signal_handler = get_signal_handler()
-            if any(signal_handler.signals_received()):
-                save_checkpoint_and_time(iteration, model, optimizer,
-                                         opt_param_scheduler)
-                print_datetime('exiting program after receiving SIGTERM.')
+            # if any(signal_handler.signals_received()):
+            if signal_handler is not None and any(signal_handler.signals_received()):
+                save_checkpoint_and_time(
+                    iteration, model, optimizer, opt_param_scheduler
+                )
+                print_datetime("exiting program after receiving SIGTERM.")
                 sys.exit()
-
-        if args.save and args.save_interval and \
-           iteration % args.save_interval == 0:
-            save_checkpoint_and_time(iteration, model, optimizer,
-                                     opt_param_scheduler)
+        if args.save and args.save_interval and iteration % args.save_interval == 0:
+            save_checkpoint_and_time(iteration, model, optimizer, opt_param_scheduler)
             saved_checkpoint = True
-
         # Exiting based on duration
         if args.exit_duration_in_mins:
             train_time = (time.time() - _TRAIN_START_TIME) / 60.0
-            done_cuda = get_accelerator().IntTensor(
-                [train_time > args.exit_duration_in_mins])
-            torch.distributed.all_reduce(
-                done_cuda, op=torch.distributed.ReduceOp.MAX)
+            done_cuda = accelerator.IntTensor([train_time > args.exit_duration_in_mins])
+            torch.distributed.all_reduce(done_cuda, op=torch.distributed.ReduceOp.MAX)
             done = done_cuda.item()
             if done:
                 if not saved_checkpoint:
-                    save_checkpoint_and_time(iteration, model, optimizer,
-                                             opt_param_scheduler)
-                print_datetime('exiting program after {} minutes'.format(train_time))
+                    save_checkpoint_and_time(
+                        iteration, model, optimizer, opt_param_scheduler
+                    )
+                print_datetime("exiting program after {} minutes".format(train_time))
                 sys.exit()
-
         # Exiting based on iterations
         if args.exit_interval and iteration % args.exit_interval == 0:
             if args.save and not saved_checkpoint:
-                save_checkpoint_and_time(iteration, model, optimizer,
-                                         opt_param_scheduler)
+                save_checkpoint_and_time(
+                    iteration, model, optimizer, opt_param_scheduler
+                )
             torch.distributed.barrier()
-            print_datetime('exiting program at iteration {}'.format(iteration))
+            print_datetime("exiting program at iteration {}".format(iteration))
+            sys.exit()
+        trigger(on_step_end)
+        # Exiting based on kill switch file
+        if found_kill_switch():
+            if args.save and not saved_checkpoint:
+                save_checkpoint_and_time(
+                    iteration, model, optimizer, opt_param_scheduler
+                )
+            torch.distributed.barrier()
+            print_datetime(
+                f"Detected kill switch at {args.kill_switch_file}, "
+                f"iteration={iteration}. Exiting"
+            )
             sys.exit()
-
-
     return iteration
 
 
-def evaluate(forward_step_func,
-             data_iterator,
-             model,
-             process_non_loss_data_func,
-             config,
-             verbose=False):
+@dlp.log
+def evaluate(
+    forward_step_func,
+    data_iterator,
+    model,
+    process_non_loss_data_func,
+    config,
+    verbose=False,
+):
     """Evaluation."""
     args = get_args()
-
+    accelerator = get_accelerator()
+    assert args is not None and accelerator is not None
     if args.vision_pretraining and args.vision_pretraining_type == "dino":
         compute_feature_bank(model)
 
@@ -1349,73 +1522,82 @@ def evaluate(forward_step_func,
 
     total_loss_dict = {}
 
+    num_microbatches = get_num_microbatches()
+    assert num_microbatches is not None
+    forward_backward_func = get_forward_backward_func()
+
     with torch.no_grad():
         iteration = 0
         while iteration < args.eval_iters:
             iteration += 1
             if verbose and iteration % args.log_interval == 0:
-                print_rank_0('Evaluating iter {}/{}'.format(iteration,
-                                                            args.eval_iters))
+                log.info("Evaluating iter {}/{}".format(iteration, args.eval_iters))
 
-            forward_backward_func = get_forward_backward_func()
             # Don't care about timing during evaluation
             config.timers = None
             if args.deepspeed and args.ds_pipeline_enabled:
                 # DeepSpeed uses eval_batch() and already aggregates losses.
                 assert isinstance(model, list) and len(model) == 1
                 loss = model[0].eval_batch(data_iterator)
-                loss_dicts = [{'lm loss' : loss}] * get_num_microbatches()
+                loss_dicts = [{"lm loss": loss}] * num_microbatches
             else:
                 loss_dicts = forward_backward_func(
                     forward_step_func=forward_step_func,
                     data_iterator=data_iterator,
                     model=model,
-                    num_microbatches=get_num_microbatches(),
+                    num_microbatches=num_microbatches,
                     seq_length=args.seq_length,
                     micro_batch_size=args.micro_batch_size,
                     decoder_seq_length=args.decoder_seq_length,
-                    forward_only=True)
+                    forward_only=True,
+                )
             config.timers = get_timers()
 
             # Empty unused memory
             if args.empty_unused_memory_level >= 1:
-                torch.cuda.empty_cache()
+                accelerator.empty_cache()
 
             if mpu.is_pipeline_last_stage(ignore_virtual=True):
                 # Reduce across processes.
                 for loss_dict in loss_dicts:
                     for key in loss_dict:
-                        if 'moe' not in key:
-                            total_loss_dict[key] = total_loss_dict.get(
-                                key, get_accelerator().FloatTensor([0.0])) + loss_dict[key]
-
-            args.consumed_valid_samples += mpu.get_data_parallel_world_size() \
-                                           * args.micro_batch_size \
-                                           * get_num_microbatches()
+                        if "moe" not in key:
+                            total_loss_dict[key] = (
+                                total_loss_dict.get(key, accelerator.FloatTensor([0.0]))
+                                + loss_dict[key]
+                            )
+
+            args.consumed_valid_samples += (
+                mpu.get_data_parallel_world_size()
+                * args.micro_batch_size
+                * num_microbatches
+            )
         collected_non_loss_data = None
         if process_non_loss_data_func is not None and is_last_rank():
             collected_non_loss_data = forward_backward_func(
                 forward_step_func=forward_step_func,
                 data_iterator=data_iterator,
                 model=model,
-                num_microbatches=get_num_microbatches(),
+                num_microbatches=num_microbatches,
                 seq_length=args.seq_length,
                 micro_batch_size=args.micro_batch_size,
                 decoder_seq_length=args.decoder_seq_length,
                 forward_only=True,
-                collect_non_loss_data=True)
+                collect_non_loss_data=True,
+            )
 
     # Move model back to the train mode.
     for model_module in model:
         model_module.train()
 
     for key in total_loss_dict:
-        total_loss_dict[key] /= args.eval_iters * get_num_microbatches()
+        total_loss_dict[key] /= args.eval_iters * num_microbatches
 
     if args.curriculum_learning_legacy and not args.no_pipeline_parallel:
         # roll back to actual curriculum seqlen at the end of eval.
-        args.curriculum_seqlen = args.curriculum_scheduler.update_difficulty( \
-            args.iteration + 1)
+        args.curriculum_seqlen = args.curriculum_scheduler.update_difficulty(
+            args.iteration + 1
+        )
         if args.curriculum_seqlen < args.seq_length:
             if args.use_rotary_position_embeddings:
                 update_rotary_pos_emb(args.curriculum_seqlen)
@@ -1423,51 +1605,94 @@ def evaluate(forward_step_func,
 
     return total_loss_dict, collected_non_loss_data
 
-def evaluate_and_print_results(prefix, forward_step_func,
-                               data_iterator, model,
-                               iteration, process_non_loss_data_func, config,
-                               verbose=False, write_to_tensorboard=True, test=False):
+
+@dlp.log
+def evaluate_and_print_results(
+    prefix,
+    forward_step_func,
+    data_iterator,
+    model,
+    iteration,
+    process_non_loss_data_func,
+    config,
+    verbose=False,
+    write_to_tensorboard=True,
+    test=False,
+):
     """Helper function to evaluate and dump results on screen."""
     args = get_args()
+    assert args is not None
     if write_to_tensorboard:
         writer = get_tensorboard_writer()
     else:
         writer = None
 
     total_loss_dict, collected_non_loss_data = evaluate(
-        forward_step_func, data_iterator, model,
-        process_non_loss_data_func, config, verbose)
-    string = ' validation loss at {} | '.format(prefix)
+        forward_step_func,
+        data_iterator,
+        model,
+        process_non_loss_data_func,
+        config,
+        verbose,
+    )
+    key = "test" if test else "val"
+    if wandb is not None and wandb.run is not None:
+        wandb.log(
+            {
+                f"{key}/iteration": iteration,
+                **{f"{key}/{k}": v for k, v in total_loss_dict.items()},
+                **{
+                    f"{key}/ppl_{k}": math.exp(min(20, v.item()))
+                    for k, v in total_loss_dict.items()
+                },
+            }
+        )
+    string = " validation loss at {} | ".format(prefix)
     for key in total_loss_dict:
-        string += '{} value: {:.6E} | '.format(key, total_loss_dict[key].item())
+        string += f"{key} value={total_loss_dict[key].item():.6f}"
         ppl = math.exp(min(20, total_loss_dict[key].item()))
-        string += '{} PPL: {:.6E} | '.format(key, ppl)
-        if writer and is_last_rank():
-            data_type = 'test' if test else 'validation'
-            writer.add_scalar(f'lm-loss-validation/{key} {data_type}',
-                              total_loss_dict[key].item(),
-                              iteration)
-            writer.add_scalar(f'lm-loss-validation/{key} {data_type} vs samples',
-                              total_loss_dict[key].item(),
-                              args.consumed_train_samples)
-            writer.add_scalar(f'lm-loss-validation/{key} {data_type} vs tokens',
-                              total_loss_dict[key].item(),
-                              args.consumed_train_tokens)
+        string += f"{key} PPL={ppl:.6f}"
+        # string += '{} PPL={:.6f} | '.format(key, ppl)
+        if writer is not None and is_last_rank():
+            data_type = "test" if test else "validation"
+            writer.add_scalar(
+                f"lm-loss-validation/{key} {data_type}",
+                total_loss_dict[key].item(),
+                iteration,
+            )
+            writer.add_scalar(
+                f"lm-loss-validation/{key} {data_type} vs samples",
+                total_loss_dict[key].item(),
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                f"lm-loss-validation/{key} {data_type} vs tokens",
+                total_loss_dict[key].item(),
+                args.consumed_train_tokens,
+            )
             if args.log_validation_ppl_to_tensorboard:
-                writer.add_scalar(f'lm-loss-validation/{key} {data_type} ppl', ppl,
-                                  iteration)
-                writer.add_scalar(f'lm-loss-validation/{key} {data_type} ppl vs samples',
-                                  ppl, args.consumed_train_samples)
-                writer.add_scalar(f'lm-loss-validation/{key} {data_type} ppl vs tokens',
-                                  ppl, args.consumed_train_tokens)
+                writer.add_scalar(
+                    f"lm-loss-validation/{key} {data_type} ppl", ppl, iteration
+                )
+                writer.add_scalar(
+                    f"lm-loss-validation/{key} {data_type} ppl vs samples",
+                    ppl,
+                    args.consumed_train_samples,
+                )
+                writer.add_scalar(
+                    f"lm-loss-validation/{key} {data_type} ppl vs tokens",
+                    ppl,
+                    args.consumed_train_tokens,
+                )
 
     if process_non_loss_data_func is not None and writer and is_last_rank():
         process_non_loss_data_func(collected_non_loss_data, iteration, writer)
 
     length = len(string) + 1
-    print_rank_last('-' * length)
-    print_rank_last(string)
-    print_rank_last('-' * length)
+    log.info("-" * length)
+    log.info(string)
+    log.info("-" * length)
+    return total_loss_dict
 
 
 def cyclic_iter(iter):
@@ -1476,122 +1701,147 @@ def cyclic_iter(iter):
             yield x
 
 
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
 def build_train_valid_test_datasets(build_train_valid_test_datasets_provider):
     """Build pretraining datasets."""
 
     args = get_args()
 
     # Number of train/valid/test samples.
+    assert args is not None
     if args.train_samples:
         train_samples = args.train_samples
     else:
         train_samples = args.train_iters * args.global_batch_size
-    eval_iters = (args.train_iters // args.eval_interval + 1) * \
-                 args.eval_iters
+    eval_iters = (args.train_iters // args.eval_interval + 1) * args.eval_iters
     test_iters = args.eval_iters
-    train_val_test_num_samples = [train_samples,
-                                  eval_iters * args.global_batch_size,
-                                  test_iters * args.global_batch_size]
-    print_rank_0(' > datasets target sizes (minimum size):')
-    print_rank_0('    train:      {}'.format(train_val_test_num_samples[0]))
-    print_rank_0('    validation: {}'.format(train_val_test_num_samples[1]))
-    print_rank_0('    test:       {}'.format(train_val_test_num_samples[2]))
+    train_val_test_num_samples = [
+        train_samples,
+        eval_iters * args.global_batch_size,
+        test_iters * args.global_batch_size,
+    ]
+    log.info(" > datasets target sizes (minimum size):")
+    log.info("    train:      {}".format(train_val_test_num_samples[0]))
+    log.info("    validation: {}".format(train_val_test_num_samples[1]))
+    log.info("    test:       {}".format(train_val_test_num_samples[2]))
 
     # Build the datasets.
     return build_train_valid_test_datasets_provider(train_val_test_num_samples)
 
 
-def build_train_valid_test_data_loaders(
-        build_train_valid_test_datasets_provider):
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
+def build_train_valid_test_data_loaders(build_train_valid_test_datasets_provider):
     """Build pretraining data loaders."""
-
     args = get_args()
-
+    accelerator = get_accelerator()
+    assert args is not None and accelerator is not None
     (train_dataloader, valid_dataloader, test_dataloader) = (None, None, None)
-
-    print_rank_0('> building train, validation, and test datasets ...')
-
+    log.info("> building train, validation, and test datasets ...")
     # Backward compatibility, assume fixed batch size.
     if args.iteration > 0 and args.consumed_train_samples == 0:
-        assert args.train_samples is None, \
-            'only backward compatiblity support for iteration-based training'
+        assert args.train_samples is None, (
+            "only backward compatiblity support for iteration-based training"
+        )
         args.consumed_train_samples = args.iteration * args.global_batch_size
     if args.iteration > 0 and args.consumed_valid_samples == 0:
         if args.train_samples is None:
-            args.consumed_valid_samples = (args.iteration // args.eval_interval) * \
-                args.eval_iters * args.global_batch_size
-
+            args.consumed_valid_samples = (
+                (args.iteration // args.eval_interval)
+                * args.eval_iters
+                * args.global_batch_size
+            )
     # Data loader only on rank 0 of each model parallel group.
-    ds_sequence_parallel = mpu.get_sequence_parallel_world_size() > 1 or args.force_ds_sequence_parallel
-    rank_in_parallel_group = mpu.get_sequence_parallel_rank() if ds_sequence_parallel else mpu.get_tensor_model_parallel_rank()
+    ds_sequence_parallel = (
+        mpu.get_sequence_parallel_world_size() > 1 or args.force_ds_sequence_parallel
+    )
+    rank_in_parallel_group = (
+        mpu.get_sequence_parallel_rank()
+        if ds_sequence_parallel
+        else mpu.get_tensor_model_parallel_rank()
+    )
     if rank_in_parallel_group == 0:
         # Build datasets.
         train_ds, valid_ds, test_ds = build_train_valid_test_datasets(
-            build_train_valid_test_datasets_provider)
-
+            build_train_valid_test_datasets_provider
+        )
         # Build dataloders.
         train_dataloader = build_pretraining_data_loader(
-            train_ds, args.consumed_train_samples)
+            train_ds, args.consumed_train_samples
+        )
         valid_dataloader = build_pretraining_data_loader(
-            valid_ds, args.consumed_valid_samples)
+            valid_ds, args.consumed_valid_samples
+        )
         test_dataloader = build_pretraining_data_loader(test_ds, 0)
-
         # Flags to know if we need to do training/validation/testing.
         do_train = train_dataloader is not None and args.train_iters > 0
         do_valid = valid_dataloader is not None and args.eval_iters > 0
         do_test = test_dataloader is not None and args.eval_iters > 0
         # Need to broadcast num_tokens and num_type_tokens.
-        flags = get_accelerator().LongTensor(
-            [int(do_train), int(do_valid), int(do_test)])
+        flags = accelerator.LongTensor([int(do_train), int(do_valid), int(do_test)])
     else:
-        flags = get_accelerator().LongTensor([0, 0, 0])
-
+        flags = accelerator.LongTensor([0, 0, 0])
     # Broadcast num tokens.
     if ds_sequence_parallel:
-        torch.distributed.broadcast(flags,
-                                    mpu.get_sequence_parallel_src_rank(),
-                                    group=mpu.get_sequence_parallel_group())
+        torch.distributed.broadcast(
+            flags,
+            mpu.get_sequence_parallel_src_rank(),
+            group=mpu.get_sequence_parallel_group(),
+        )
     else:
-        torch.distributed.broadcast(flags,
-                                    mpu.get_tensor_model_parallel_src_rank(),
-                                    group=mpu.get_tensor_model_parallel_group())
+        torch.distributed.broadcast(
+            flags,
+            mpu.get_tensor_model_parallel_src_rank(),
+            group=mpu.get_tensor_model_parallel_group(),
+        )
     args.do_train = flags[0].item()
     args.do_valid = flags[1].item()
     args.do_test = flags[2].item()
-
     return train_dataloader, valid_dataloader, test_dataloader
 
 
-def build_train_valid_test_data_iterators(
-        build_train_valid_test_datasets_provider):
+@dlp.log
+@ezpz.dist.timeitlogit(rank=RANK)
+def build_train_valid_test_data_iterators(build_train_valid_test_datasets_provider):
     """Build pretraining data iterators."""
 
     args = get_args()
+    assert args is not None
 
     # Build loaders.
-    train_dataloader, valid_dataloader, test_dataloader = \
-        build_train_valid_test_data_loaders(
-            build_train_valid_test_datasets_provider)
+    train_dataloader, valid_dataloader, test_dataloader = (
+        build_train_valid_test_data_loaders(build_train_valid_test_datasets_provider)
+    )
 
     # Build iterators.
     dl_type = args.dataloader_type
-    assert dl_type in ['single', 'cyclic']
+    assert dl_type in ["single", "cyclic"]
 
     if train_dataloader is not None:
-        train_data_iterator = iter(train_dataloader) if dl_type == 'single' \
-                              else iter(cyclic_iter(train_dataloader))
+        train_data_iterator = (
+            iter(train_dataloader)
+            if dl_type == "single"
+            else iter(cyclic_iter(train_dataloader))
+        )
     else:
         train_data_iterator = None
 
     if valid_dataloader is not None:
-        valid_data_iterator = iter(valid_dataloader) if dl_type == 'single' \
-                              else iter(cyclic_iter(valid_dataloader))
+        valid_data_iterator = (
+            iter(valid_dataloader)
+            if dl_type == "single"
+            else iter(cyclic_iter(valid_dataloader))
+        )
     else:
         valid_data_iterator = None
 
     if test_dataloader is not None:
-        test_data_iterator = iter(test_dataloader) if dl_type == 'single' \
-                             else iter(cyclic_iter(test_dataloader))
+        test_data_iterator = (
+            iter(test_dataloader)
+            if dl_type == "single"
+            else iter(cyclic_iter(test_dataloader))
+        )
     else:
         test_data_iterator = None
 
diff --git a/megatron/training_log.py b/megatron/training_log.py
new file mode 100644
index 00000000000..c571855da87
--- /dev/null
+++ b/megatron/training_log.py
@@ -0,0 +1,410 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
+# Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
+"""
+training_log.py
+"""
+
+import logging
+import os
+
+import ezpz
+
+from deepspeed import get_accelerator
+import torch
+
+from megatron.core import mpu
+from megatron.global_vars import (
+    get_args,
+    get_num_microbatches,
+    get_tensorboard_writer,
+    get_timers,
+)
+from megatron.utils import (
+    Profile,
+    is_last_rank,
+    report_memory,
+    throughput_calculator,
+    num_floating_point_operations,
+)
+
+
+RANK: int = ezpz.get_rank()
+WORLD_SIZE: int = ezpz.get_world_size()
+DEVICE_TYPE: str = ezpz.dist.get_torch_device_type()
+DEVICE: torch.device = torch.device(DEVICE_TYPE)
+
+log: logging.Logger = logging.getLogger(__name__)
+LOG_LEVEL: str = str(os.environ.get("LOG_LEVEL", "INFO")).upper()
+log.setLevel(LOG_LEVEL) if RANK == 0 else log.setLevel("CRITICAL")
+
+try:
+    import wandb
+except (ImportError, ModuleNotFoundError):
+    wandb = None
+
+
+dlp = Profile("TRAINING_LOG")
+
+
+@dlp.log
+def training_log(
+    loss_dict,
+    total_loss_dict,
+    learning_rate,
+    iteration,
+    loss_scale,
+    report_memory_flag,
+    skipped_iter,
+    grad_norm,
+    params_norm,
+    num_zeros_in_grad,
+    model=None,
+    optimizer=None,
+):
+    """Log training information such as losses, timing, ...."""
+    args = get_args()
+    accelerator = get_accelerator()
+    timers = get_timers()
+    writer = get_tensorboard_writer()
+    assert args is not None and timers is not None and accelerator is not None
+    wandb_metrics = {}
+    # Advanced, skipped, and Nan iterations.
+    advanced_iters_key = "advanced iterations"
+    skipped_iters_key = "skipped iterations"
+    nan_iters_key = "nan iterations"
+    # Advanced iterations.
+    if not skipped_iter:
+        total_loss_dict[advanced_iters_key] = (
+            total_loss_dict.get(advanced_iters_key, 0) + 1
+        )
+    else:
+        if advanced_iters_key not in total_loss_dict:
+            total_loss_dict[advanced_iters_key] = 0
+    # Skipped iterations.
+    total_loss_dict[skipped_iters_key] = (
+        total_loss_dict.get(skipped_iters_key, 0) + skipped_iter
+    )
+    # Update losses and set nan iterations
+    got_nan = False
+    for key in loss_dict:
+        if not skipped_iter:
+            total_loss_dict[key] = (
+                total_loss_dict.get(key, accelerator.FloatTensor([0.0]))
+                + loss_dict[key]
+            )
+        else:
+            try:
+                value = loss_dict[key].float().sum().item()
+            except AttributeError:
+                value = loss_dict[key]
+            is_nan = value == float("inf") or value == -float("inf") or value != value
+            got_nan = got_nan or is_nan
+    total_loss_dict[nan_iters_key] = total_loss_dict.get(nan_iters_key, 0) + int(
+        got_nan
+    )
+
+    # Logging.
+    timers_to_log = [
+        "forward-backward",
+        "forward-compute",
+        "backward-compute",
+        "batch-generator",
+        "forward-recv",
+        "forward-send",
+        "backward-recv",
+        "backward-send",
+        "forward-send-forward-recv",
+        "forward-send-backward-recv",
+        "backward-send-forward-recv",
+        "backward-send-backward-recv",
+        "forward-backward-send-forward-backward-recv",
+        "layernorm-grads-all-reduce",
+        "embedding-grads-all-reduce",
+        "grads-all-reduce",
+        "grads-reduce-scatter",
+        "params-all-gather",
+        "optimizer-copy-to-main-grad",
+        "optimizer-unscale-and-check-inf",
+        "optimizer-clip-main-grad",
+        "optimizer-count-zeros",
+        "optimizer-inner-step",
+        "optimizer-copy-main-to-model-params",
+        "optimizer",
+    ]
+
+    # Calculate batch size.
+    batch_size = (
+        args.micro_batch_size * args.data_parallel_size * get_num_microbatches()
+    )
+    total_iterations = (
+        total_loss_dict[advanced_iters_key] + total_loss_dict[skipped_iters_key]
+    )
+
+    # Tensorboard values.
+    # Timer requires all the ranks to call.
+    if iteration % args.tensorboard_log_interval == 0:
+        if args.log_learning_rate_to_tensorboard:
+            wandb_metrics |= {
+                "learning-rate/iteration": iteration,
+                "learning-rate/learning-rate": learning_rate,
+            }
+        wandb_metrics |= {
+            "lm-loss-training/iteration": iteration,
+            "lm-loss-training/consumed_train_tokens": args.consumed_train_tokens,
+            **{f"lm-loss-training/{k}": v for k, v in loss_dict.items()},
+        }
+        if grad_norm is not None:
+            wandb_metrics |= {"training/grad-norm": grad_norm}
+        if num_zeros_in_grad is not None:
+            wandb_metrics |= {"training/num-zeros": num_zeros_in_grad}
+        if params_norm is not None:
+            wandb_metrics |= {"training/params-norm": params_norm}
+        # This logging write various optimizer states to tensorboard. This
+        # feature may consume extra GPU memory thus is set at false by default.
+        if args.log_optimizer_states_to_tensorboard and optimizer is not None:
+            opt_stats = [0.0] * 8
+            opt_stats_2 = [0.0] * 4
+            for _, group in enumerate(optimizer.param_groups):
+                for _, param in enumerate(group["params"]):
+                    state_param = getattr(optimizer, "state", None)
+                    if state_param is not None:
+                        exp_avg_sq = state_param.get("exp_avg_sq", torch.tensor(0.0))
+                        exp_avg = state_param.get("exp_avg", torch.tensor(0.0))
+                        opt_stats[0] += (torch.norm(exp_avg_sq).item()) ** 2
+                        opt_stats[1] += (torch.norm(exp_avg_sq.sqrt()).item()) ** 2
+                        opt_stats[2] += (torch.norm(exp_avg).item()) ** 2
+                        opt_stats[3] += (torch.norm(param).item()) ** 2
+                        opt_stats[4] += torch.norm(exp_avg_sq, p=1).item()
+                        opt_stats[5] += torch.norm(exp_avg_sq.sqrt(), p=1).item()
+                        opt_stats[6] += torch.norm(exp_avg, p=1).item()
+                        opt_stats[7] += torch.norm(param, p=1).item()
+                        opt_stats_2[0] = max(
+                            opt_stats_2[0],
+                            abs(exp_avg_sq.max().item()),
+                            abs(exp_avg_sq.min().item()),
+                        )
+                        opt_stats_2[1] = max(
+                            opt_stats_2[1], exp_avg_sq.sqrt().abs_().max().item()
+                        )
+                        opt_stats_2[2] = max(
+                            opt_stats_2[2],
+                            abs(exp_avg.max().item()),
+                            abs(exp_avg.min().item()),
+                        )
+                        opt_stats_2[3] = max(
+                            opt_stats_2[3],
+                            abs(param.max().item()),
+                            abs(param.min().item()),
+                        )
+            # print('step {} rank {} before sync opt_stats {}, {}'.format(iteration, torch.distributed.get_rank(), opt_stats_2, opt_stats))
+            if args.zero_stage > 0:
+                # ZeRO partiions optimizer states
+                # opt_stats = opt_stats.clone().detach()
+                # opt_stats = get_accelerator().FloatTensor
+                opt_stats = accelerator.FloatTensor(opt_stats)
+                torch.distributed.all_reduce(
+                    opt_stats, group=mpu.get_sequence_data_parallel_group()
+                )
+                # opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
+                # opt_stats_2 = opt_stats_2.clone().detach()
+                opt_stats_2 = accelerator.FloatTensor(opt_stats_2)
+                torch.distributed.all_reduce(
+                    opt_stats_2,
+                    op=torch.distributed.ReduceOp.MAX,
+                    group=mpu.get_sequence_data_parallel_group(),
+                )
+
+            if args.tensor_model_parallel_size > 1:
+                # opt_stats = opt_stats.clone().detach()
+                opt_stats = accelerator.FloatTensor(opt_stats)
+                torch.distributed.all_reduce(
+                    opt_stats, group=mpu.get_tensor_model_parallel_group()
+                )
+                # opt_stats_2 = opt_stats_2.clone().detach()
+                opt_stats_2 = accelerator.FloatTensor(opt_stats_2)
+                torch.distributed.all_reduce(
+                    opt_stats_2,
+                    op=torch.distributed.ReduceOp.MAX,
+                    group=mpu.get_tensor_model_parallel_group(),
+                )
+
+            if args.pipeline_model_parallel_size > 1:
+                # opt_stats = opt_stats.clone().detach()
+                opt_stats = accelerator.FloatTensor(opt_stats)
+                torch.distributed.all_reduce(
+                    opt_stats, group=mpu.get_pipeline_model_parallel_group()
+                )
+                # opt_stats_2 = opt_stats_2.clone().detach()
+                opt_stats_2 = accelerator.FloatTensor(opt_stats_2)
+                torch.distributed.all_reduce(
+                    opt_stats_2,
+                    op=torch.distributed.ReduceOp.MAX,
+                    group=mpu.get_pipeline_model_parallel_group(),
+                )
+            wandb_metrics |= {
+                "optimizer/learning_rate": learning_rate,
+                "optimizer/iteration": args.iteration,
+                "optimizer/consumed_train_tokens": args.consumed_train_tokens,
+                "optimizer/variance_l2": opt_stats[0] ** 0.5,
+                "optimizer/variance_sqrt_l2": opt_stats[1] ** 0.5,
+                "optimizer/momentum_l2": opt_stats[2] ** 0.5,
+                "optimizer/weight_l2": opt_stats[3] ** 0.5,
+                "optimizer/variance_l1": opt_stats[4],
+                "optimizer/variance_sqrt_l1": opt_stats[5],
+                "optimizer/momentum_l1": opt_stats[6],
+                "optimizer/weight_l1": opt_stats[7],
+                "optimizer/variance_abs_max": opt_stats_2[0],
+                "optimizer/variance_sqrt_abs_max": opt_stats_2[1],
+                "optimizer/momentum_abs_max": opt_stats_2[2],
+                "optimizer/weight_abs_max": opt_stats_2[3],
+            }
+            # print('step {} rank {} after sync opt_stats {}, {}'.format(iteration, torch.distributed.get_rank(), opt_stats_2, opt_stats))
+    assert args is not None
+    assert timers is not None
+    if iteration % args.log_interval == 0:
+        elapsed_time = timers("interval-time").elapsed(barrier=True)
+        elapsed_time_per_iteration = elapsed_time / total_iterations
+        seq_len = args.seq_length
+        if hasattr(args, "actual_seq_length"):
+            seq_len = args.actual_seq_length
+        samples_per_sec, tflops, approx_parameters_in_billions = throughput_calculator(
+            model, args, elapsed_time, total_iterations
+        )
+        samples_per_sec_per_replica = samples_per_sec / args.data_parallel_size
+        tokens_per_sec = samples_per_sec * seq_len
+        tokens_per_sec_per_replica = tokens_per_sec / args.data_parallel_size
+        tokens_per_gpu_per_second = tokens_per_sec / args.world_size
+        tokens_per_gpu_per_second_per_replica = (
+            tokens_per_gpu_per_second / args.data_parallel_size
+        )
+        # NOTE: [2024-06-19]
+        # Updated to use (more accurate) calculation according to
+        # `num_floating_point_operations` from NVIDIA/Megatron-LM
+        num_flop_lm = num_floating_point_operations(args, batch_size)
+        num_flop_per_sec_lm = num_flop_lm / elapsed_time_per_iteration
+        tflops_lm = num_flop_per_sec_lm / (10**12)
+        tflops_lm_per_gpu = tflops_lm / args.world_size
+        wandb_metrics |= {
+            "throughput/iteration": iteration,
+            "throughput/iteration-time": elapsed_time_per_iteration,  # 1000 ms / s
+            "throughput/samples_per_sec": samples_per_sec,
+            "throughput/samples_per_sec_per_replica": samples_per_sec_per_replica,
+            "throughput/tokens_per_sec": tokens_per_sec,
+            "throughput/tokens_per_sec_per_replica": tokens_per_sec_per_replica,
+            "throughput/tokens_per_gpu_per_sec": tokens_per_gpu_per_second,
+            "throughput/tokens_per_gpu_per_sec_per_replica": tokens_per_gpu_per_second_per_replica,
+            "throughput/tflops": tflops,
+            "throughput/tflops-new": num_flop_lm / elapsed_time_per_iteration,
+            "throughput/tflops-lm": tflops_lm_per_gpu,
+            "throughput/approx_params_in_billions": approx_parameters_in_billions,
+            "throughput/elapsed_ms_per_iteration": elapsed_time_per_iteration,
+        }
+        if loss_dict is not None:
+            wandb_metrics |= {
+                "loss/iteration": iteration,
+                **{f"loss/{k}": v for k, v in loss_dict.items()},
+            }
+        # metrics_to_log = {
+        #     'iteration': iteration,
+        #     'train_iters': args.train_iters,
+        #     'consumed_samples': args.consumed_train_samples,
+        #     'consumed_tokens': args.consumed_tokens,
+        # }
+        log_string = f" iteration={iteration:8d}/{args.train_iters:8d} |"
+        # .format( iteration, args.train_iters)
+        log_string += (
+            f" consumed_samples={args.consumed_train_samples:12d} |"
+            # .format(args.consumed_train_samples)
+        )
+        log_string += f" consumed_tokens={args.consumed_train_tokens:12d} |"
+        # .format( args.consumed_train_tokens)
+        log_string += (
+            " elapsed_time_per_iteration_ms="
+            f"{elapsed_time_per_iteration * 1000.0:.1f} |"
+            # .format( elapsed_time_per_iteration * 1000.0)
+        )
+        log_string += f" learning_rate={learning_rate:.6g} |"
+        log_string += f" global_batch_size={batch_size:5d} |"
+        # if wandb is not None and getattr(wandb, 'run', None) is not None:
+        wandb_metrics |= {
+            "training/iteration": iteration,
+            "training/iteration_time": elapsed_time_per_iteration,
+            "training/iteration_time_vs_tokens": (
+                elapsed_time_per_iteration / args.consumed_train_tokens
+            ),
+            "training/iteration_time_vs_samples": (
+                (elapsed_time_per_iteration / args.consumed_train_samples),
+            ),
+            "training/consumed_samples": args.consumed_train_samples,
+            "training/consumed_tokens": args.consumed_train_tokens,
+        }
+        for key in total_loss_dict:
+            if key not in [advanced_iters_key, skipped_iters_key, nan_iters_key]:
+                avg = total_loss_dict[key].item() / float(
+                    max(1, total_loss_dict[advanced_iters_key])
+                )
+                if avg > 0.0:
+                    log_string += " {}={:.6f} |".format(key, avg)
+                    wandb_metrics |= {f"loss/{key}_avg": avg}
+                total_loss_dict[key] = accelerator.FloatTensor([0.0])
+        if loss_scale is not None:
+            log_string += " loss_scale={:.1f} |".format(loss_scale)
+            wandb_metrics |= {"loss/loss_scale": loss_scale}
+        if grad_norm is not None:
+            log_string += " grad_norm={:.3f} |".format(grad_norm)
+            wandb_metrics |= {"loss/grad_norm": grad_norm}
+        if num_zeros_in_grad is not None:
+            log_string += " num_zeros={:.1f} |".format(num_zeros_in_grad)
+            wandb_metrics |= {"loss/num_zeros_in_grad": num_zeros_in_grad}
+        if params_norm is not None:
+            log_string += " params_norm={:.3f} |".format(params_norm)
+            wandb_metrics |= {"loss/params_norm": params_norm}
+        if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
+            log_string += " curriculum_seqlen={:5d} |".format(args.curriculum_seqlen)
+        if args.random_ltd:
+            log_string += " random_ltd reserved_length={:5d} |".format(
+                args.random_ltd_reserved_length
+            )
+            # log_string += " | ".join([
+            #     f"{seq_len=:5d} ",
+            #     f"{}"
+            #     f"number_of_skipped_iterations={:3d}",
+            #
+            # ])
+        log_string += " actual_seqlen={:5d} |".format(seq_len)
+        log_string += " number_of_skipped_iterations={:3d} |".format(
+            total_loss_dict[skipped_iters_key]
+        )
+        log_string += " number_of_nan_iterations={:3d} |".format(
+            total_loss_dict[nan_iters_key]
+        )
+        log_string += " samples_per_second={:.3f} |".format(samples_per_sec)
+        log_string += " tokens_per_gpu_per_second_tgs={:.3f} |".format(
+            tokens_per_gpu_per_second
+        )
+        log_string += " TFLOPs={:.2f} |".format(tflops_lm_per_gpu)
+        # log_string += " [LM]TFLOPs={:.2f} |".format(tflops_lm_per_gpu)
+        # log_string += " [DS]TFLOPs={:.2f} |".format(tflops)
+        if wandb is not None and getattr(wandb, "run", None) is not None:
+            wandb_metrics |= {
+                "training/skiped_iterations": total_loss_dict[skipped_iters_key]
+            }
+            wandb_metrics |= {"training/nan_iterations": total_loss_dict[nan_iters_key]}
+            if getattr(wandb, "log", None) is not None:
+                assert callable(wandb.log), (
+                    f"wandb.log is not callable, got {type(wandb.log)}"
+                )
+                wandb.log(wandb_metrics)
+        total_loss_dict[advanced_iters_key] = 0
+        total_loss_dict[skipped_iters_key] = 0
+        total_loss_dict[nan_iters_key] = 0
+        # print_rank_last(log_string)
+        log.info(log_string)
+        if report_memory_flag and learning_rate > 0.0:
+            # Report memory after optimizer state has been initialized.
+            report_memory("(after {} iterations)".format(iteration))
+            report_memory_flag = False
+        if timers is not None:
+            timers.log(timers_to_log, normalizer=args.log_interval)
+
+    return report_memory_flag
diff --git a/megatron/training_log_alcf.py b/megatron/training_log_alcf.py
new file mode 100644
index 00000000000..9982f868fd8
--- /dev/null
+++ b/megatron/training_log_alcf.py
@@ -0,0 +1,734 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
+# Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
+
+"""Pretrain utilities."""
+
+from enum import Enum
+
+# from deepspeed.accelerator import get_accelerator
+# from deepspeed.compression.compress import redundancy_clean
+import torch
+import os
+import logging
+
+from megatron import get_args
+from megatron import get_timers
+from megatron import get_tensorboard_writer
+from megatron import get_wandb_writer
+from megatron import get_num_microbatches
+from megatron.core import mpu
+
+# from megatron import is_rank_0, print_rank_0
+# from megatron import print_rank_last
+# from megatron.arguments import core_transformer_config_from_args
+# from megatron.checkpointing import load_checkpoint
+# from megatron.checkpointing import save_checkpoint
+# from megatron.core import mpu, tensor_parallel
+# from megatron.core.enums import ModelType
+# from megatron.core.pipeline_parallel import get_forward_backward_func
+# from megatron.data.data_samplers import build_pretraining_data_loader
+# from megatron.initialize import initialize_megatron
+# from megatron.initialize import write_args_to_tensorboard
+# from megatron.initialize import set_jit_fusion_options
+# from megatron.model import Float16Module
+# from megatron.model import GPTModel
+# from megatron.model import DistributedDataParallel as LocalDDP
+# from megatron.model.transformer import ParallelTransformerLayer
+# from megatron.model.vision.knn_monitor import compute_feature_bank
+# from megatron.optimizer import get_megatron_optimizer
+# from megatron.optimizer_param_scheduler import OptimizerParamScheduler
+# from megatron.profiler import on_step_begin, on_step_end, setup_profiler, trigger
+# from megatron.utils import check_adlr_autoresume_termination
+# from megatron.utils import found_kill_switch, unwrap_model
+import ezpz as ez
+
+# from megatron.utils import calc_params_l2_norm
+from megatron.utils import (
+    # checkpoint_throughput_calculator,
+    report_memory,
+    throughput_calculator,
+    # update_rotary_pos_emb,
+)
+
+try:
+    import wandb
+except (ImportError, ModuleNotFoundError):
+    wandb = None
+# The earliest we can measure the start time.
+# _TRAIN_START_TIME = time.time()
+
+
+log = logging.getLogger(__name__)
+
+
+class InteropLoggingTool(Enum):
+    TENSORBOARD = 1
+    WANDB = 2
+
+
+RANK: int = ez.get_rank()
+LOCAL_RANK: int = ez.get_local_rank()
+WORLD_SIZE: int = ez.get_world_size()
+DEVICE_TYPE: str = ez.dist.get_torch_device_type()
+DEVICE_ID: str = f"{DEVICE_TYPE}:{LOCAL_RANK}"
+DEVICE: torch.device = torch.device(DEVICE_TYPE)
+
+log: logging.Logger = logging.getLogger(__name__)
+LOG_LEVEL: str = str(os.environ.get("LOG_LEVEL", "INFO")).upper()
+log.setLevel(LOG_LEVEL) if RANK == 0 else log.setLevel("CRITICAL")
+
+
+def num_floating_point_operations(args, batch_size):
+    # Group Query Attention.
+    # if not args.group_query_attention:
+    if not args.num_key_value_heads:
+        args.num_key_value_heads = args.num_attention_heads
+        # args.num_query_groups = args.num_attention_heads
+    # MoE.
+    # num_experts_routed_to = 1 if args.num_experts is None else args.moe_router_topk
+    num_experts_routed_to = 1 if args.num_experts is None else args.topk
+    gated_linear_multiplier = 3 / 2 if args.swiglu else 1
+    return (
+        12
+        * batch_size
+        * args.seq_length
+        * args.num_layers
+        * args.hidden_size
+        * args.hidden_size
+        * (
+            1
+            + (
+                (args.ffn_hidden_size / args.hidden_size)
+                * num_experts_routed_to
+                * gated_linear_multiplier
+            )
+            + (args.num_key_value_heads / args.num_attention_heads)
+            + (args.seq_length / args.hidden_size)
+            + (args.padded_vocab_size / (2 * args.num_layers * args.hidden_size))
+        )
+    )
+
+
+def training_log(
+    loss_dict,
+    total_loss_dict,
+    learning_rate,
+    iteration,
+    loss_scale,
+    report_memory_flag,
+    skipped_iter,
+    grad_norm,
+    params_norm,
+    num_zeros_in_grad,
+    model=None,
+    optimizer=None,
+):
+    """Log training information such as losses, timing, ...."""
+    args = get_args()
+    timers = get_timers()
+    writer = get_tensorboard_writer()
+    assert args is not None and timers is not None
+    wandb_metrics = {}
+    # Advanced, skipped, and Nan iterations.
+    advanced_iters_key = "advanced iterations"
+    skipped_iters_key = "skipped iterations"
+    nan_iters_key = "nan iterations"
+    # Advanced iterations.
+    if not skipped_iter:
+        total_loss_dict[advanced_iters_key] = (
+            total_loss_dict.get(advanced_iters_key, 0) + 1
+        )
+    else:
+        if advanced_iters_key not in total_loss_dict:
+            total_loss_dict[advanced_iters_key] = 0
+    # Skipped iterations.
+    total_loss_dict[skipped_iters_key] = (
+        total_loss_dict.get(skipped_iters_key, 0) + skipped_iter
+    )
+    # Update losses and set nan iterations
+    got_nan = False
+    _zero = torch.tensor([0.0]).to(DEVICE)
+    for key in loss_dict:
+        if not skipped_iter:
+            total_loss_dict[key] = total_loss_dict.get(key, _zero) + loss_dict[key]
+        else:
+            value = loss_dict[key].float().sum().item()
+            is_nan = value == float("inf") or value == -float("inf") or value != value
+            got_nan = got_nan or is_nan
+    total_loss_dict[nan_iters_key] = total_loss_dict.get(nan_iters_key, 0) + int(
+        got_nan
+    )
+
+    # Logging.
+    timers_to_log = [
+        "forward-backward",
+        "forward-compute",
+        "backward-compute",
+        "batch-generator",
+        "forward-recv",
+        "forward-send",
+        "backward-recv",
+        "backward-send",
+        "forward-send-forward-recv",
+        "forward-send-backward-recv",
+        "backward-send-forward-recv",
+        "backward-send-backward-recv",
+        "forward-backward-send-forward-backward-recv",
+        "layernorm-grads-all-reduce",
+        "embedding-grads-all-reduce",
+        "grads-all-reduce",
+        "grads-reduce-scatter",
+        "params-all-gather",
+        "optimizer-copy-to-main-grad",
+        "optimizer-unscale-and-check-inf",
+        "optimizer-clip-main-grad",
+        "optimizer-count-zeros",
+        "optimizer-inner-step",
+        "optimizer-copy-main-to-model-params",
+        "optimizer",
+    ]
+
+    # Calculate batch size.
+    batch_size = (
+        args.micro_batch_size * args.data_parallel_size * get_num_microbatches()
+    )
+    total_iterations = (
+        total_loss_dict[advanced_iters_key] + total_loss_dict[skipped_iters_key]
+    )
+
+    # Tensorboard values.
+    # Timer requires all the ranks to call.
+    if args.log_timers_to_tensorboard and (
+        iteration % args.tensorboard_log_interval == 0 and writer is not None
+    ):
+        timers.write(timers_to_log, writer, iteration, normalizer=total_iterations)
+    if writer and (iteration % args.tensorboard_log_interval == 0):
+        writer.add_scalar(
+            "steps-vs-samples/y=steps,x=samples", iteration, args.consumed_train_samples
+        )
+        writer.add_scalar(
+            "steps-vs-samples/y=samples,x=steps", args.consumed_train_samples, iteration
+        )
+        writer.add_scalar(
+            "steps-vs-tokens/y=steps,x=tokens", iteration, args.consumed_train_tokens
+        )
+        writer.add_scalar(
+            "steps-vs-tokens/y=tokens,x=steps", args.consumed_train_tokens, iteration
+        )
+        if args.log_learning_rate_to_tensorboard:
+            wandb_metrics |= {
+                "learning-rate/iteration": iteration,
+                "learning-rate/learning-rate": learning_rate,
+            }
+            writer.add_scalar("learning-rate/learning-rate", learning_rate, iteration)
+            writer.add_scalar(
+                "learning-rate/learning-rate vs samples",
+                learning_rate,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "learning-rate/learning-rate vs tokens",
+                learning_rate,
+                args.consumed_train_tokens,
+            )
+        if args.log_batch_size_to_tensorboard:
+            writer.add_scalar("batch-size/batch-size", batch_size, iteration)
+            writer.add_scalar(
+                "batch-size/batch-size vs samples",
+                batch_size,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "batch-size/batch-size vs tokens",
+                batch_size,
+                args.consumed_train_tokens,
+            )
+        wandb_metrics |= {
+            "lm-loss-training/iteration": iteration,
+            "lm-loss-training/consumed_train_tokens": args.consumed_train_tokens,
+        }
+        for key in loss_dict:
+            wandb_metrics |= {f"lm-loss-training/{key}": loss_dict[key]}
+            writer.add_scalar(f"lm-loss-training/{key}", loss_dict[key], iteration)
+            writer.add_scalar(
+                f"lm-loss-training/{key}" + " vs samples",
+                loss_dict[key],
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                f"lm-loss-training/{key}" + " vs tokens",
+                loss_dict[key],
+                args.consumed_train_tokens,
+            )
+        if args.fp16 and loss_scale and args.log_loss_scale_to_tensorboard:
+            writer.add_scalar("loss-scale/loss-scale", loss_scale, iteration)
+            writer.add_scalar(
+                "loss-scale/loss-scale vs samples",
+                loss_scale,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "loss-scale/loss-scale vs tokens",
+                loss_scale,
+                args.consumed_train_tokens,
+            )
+        if args.log_world_size_to_tensorboard:
+            writer.add_scalar("world-size/world-size", args.world_size, iteration)
+            writer.add_scalar(
+                "world-size/world-size vs samples",
+                args.world_size,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "world-size/world-size vs tokens",
+                args.world_size,
+                args.consumed_train_tokens,
+            )
+        if grad_norm is not None:
+            wandb_metrics |= {"training/grad-norm": grad_norm}
+            writer.add_scalar("grad-norm/grad-norm", grad_norm, iteration)
+            writer.add_scalar(
+                "grad-norm/grad-norm vs samples", grad_norm, args.consumed_train_samples
+            )
+            writer.add_scalar(
+                "grad-norm/grad-norm vs tokens", grad_norm, args.consumed_train_tokens
+            )
+        if num_zeros_in_grad is not None:
+            wandb_metrics |= {"training/num-zeros": num_zeros_in_grad}
+            writer.add_scalar("num-zeros/num-zeros", num_zeros_in_grad, iteration)
+            writer.add_scalar(
+                "num-zeros/num-zeros vs samples",
+                num_zeros_in_grad,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "num-zeros/num-zeros vs tokens",
+                num_zeros_in_grad,
+                args.consumed_train_tokens,
+            )
+        if params_norm is not None:
+            wandb_metrics |= {"training/params-norm": params_norm}
+            writer.add_scalar("params-norm/params-norm", params_norm, iteration)
+            writer.add_scalar(
+                "params-norm/params-norm vs samples",
+                params_norm,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "params-norm/params-norm vs tokens",
+                params_norm,
+                args.consumed_train_tokens,
+            )
+        if hasattr(args, "actual_seq_length"):
+            writer.add_scalar(
+                "seqlen/actual_seq_length", args.actual_seq_length, iteration
+            )
+            writer.add_scalar(
+                "seqlen/actual_seq_length vs samples",
+                args.actual_seq_length,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "seqlen/actual_seq_length vs tokens",
+                args.actual_seq_length,
+                args.consumed_train_tokens,
+            )
+        if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
+            writer.add_scalar(
+                "seqlen/curriculum_seqlen", args.curriculum_seqlen, iteration
+            )
+            writer.add_scalar(
+                "seqlen/curriculum_seqlen vs samples",
+                args.curriculum_seqlen,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "seqlen/curriculum_seqlen vs tokens",
+                args.curriculum_seqlen,
+                args.consumed_train_tokens,
+            )
+        if args.random_ltd:
+            writer.add_scalar(
+                "seqlen/random_ltd_reserved_length",
+                args.random_ltd_reserved_length,
+                iteration,
+            )
+            writer.add_scalar(
+                "seqlen/random_ltd_reserved_length vs samples",
+                args.random_ltd_reserved_length,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "seqlen/random_ltd_reserved_length vs tokens",
+                args.random_ltd_reserved_length,
+                args.consumed_train_tokens,
+            )
+        if args.log_memory_to_tensorboard:
+            mem_stats = torch.cuda.memory_stats()
+            writer.add_scalar(
+                "mem-reserved-bytes",
+                mem_stats["reserved_bytes.all.current"],
+                iteration,
+            )
+            writer.add_scalar(
+                "mem-allocated-bytes",
+                mem_stats["allocated_bytes.all.current"],
+                iteration,
+            )
+            writer.add_scalar(
+                "mem-allocated-count",
+                mem_stats["allocation.all.current"],
+                iteration,
+            )
+    if iteration % args.tensorboard_log_interval == 0:
+        # This logging write various optimizer states to tensorboard. This
+        # feature may consume extra GPU memory thus is set at false by default.
+        if args.log_optimizer_states_to_tensorboard and optimizer is not None:
+            opt_stats = [0.0] * 8
+            opt_stats_2 = [0.0] * 4
+            for _, group in enumerate(optimizer.param_groups):
+                for _, param in enumerate(group["params"]):
+                    state_param = getattr(optimizer, "state", None)
+                    if state_param is not None:
+                        exp_avg_sq = state_param.get("exp_avg_sq", torch.tensor(0.0))
+                        exp_avg = state_param.get("exp_avg", torch.tensor(0.0))
+                        opt_stats[0] += (torch.norm(exp_avg_sq).item()) ** 2
+                        opt_stats[1] += (torch.norm(exp_avg_sq.sqrt()).item()) ** 2
+                        opt_stats[2] += (torch.norm(exp_avg).item()) ** 2
+                        opt_stats[3] += (torch.norm(param).item()) ** 2
+                        opt_stats[4] += torch.norm(exp_avg_sq, p=1).item()
+                        opt_stats[5] += torch.norm(exp_avg_sq.sqrt(), p=1).item()
+                        opt_stats[6] += torch.norm(exp_avg, p=1).item()
+                        opt_stats[7] += torch.norm(param, p=1).item()
+                        opt_stats_2[0] = max(
+                            opt_stats_2[0],
+                            abs(exp_avg_sq.max().item()),
+                            abs(exp_avg_sq.min().item()),
+                        )
+                        opt_stats_2[1] = max(
+                            opt_stats_2[1], exp_avg_sq.sqrt().abs_().max().item()
+                        )
+                        opt_stats_2[2] = max(
+                            opt_stats_2[2],
+                            abs(exp_avg.max().item()),
+                            abs(exp_avg.min().item()),
+                        )
+                        opt_stats_2[3] = max(
+                            opt_stats_2[3],
+                            abs(param.max().item()),
+                            abs(param.min().item()),
+                        )
+            if args.zero_stage > 0:
+                # ZeRO partiions optimizer states
+                # opt_stats = get_accelerator().FloatTensor(opt_stats)
+                opt_stats = torch.tensor(opt_stats).to(DEVICE)
+                torch.distributed.all_reduce(
+                    opt_stats, group=mpu.get_sequence_data_parallel_group()
+                )
+                # opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
+                opt_stats_2 = torch.tensor(opt_stats_2).to(DEVICE)
+                torch.distributed.all_reduce(
+                    opt_stats_2,
+                    op=torch.distributed.ReduceOp.MAX,
+                    group=mpu.get_sequence_data_parallel_group(),
+                )
+
+            if args.tensor_model_parallel_size > 1:
+                opt_stats = torch.tensor(opt_stats).to(DEVICE)
+                # opt_stats = get_accelerator().FloatTensor(opt_stats)
+                torch.distributed.all_reduce(
+                    opt_stats, group=mpu.get_tensor_model_parallel_group()
+                )
+                # opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
+                opt_stats_2 = torch.tensor(opt_stats_2).to(DEVICE)
+                torch.distributed.all_reduce(
+                    opt_stats_2,
+                    op=torch.distributed.ReduceOp.MAX,
+                    group=mpu.get_tensor_model_parallel_group(),
+                )
+
+            if args.pipeline_model_parallel_size > 1:
+                # opt_stats = get_accelerator().FloatTensor(opt_stats)
+                opt_stats = torch.tensor(opt_stats).to(DEVICE)
+                torch.distributed.all_reduce(
+                    opt_stats, group=mpu.get_pipeline_model_parallel_group()
+                )
+                # opt_stats_2 = get_accelerator().FloatTensor(opt_stats_2)
+                opt_stats_2 = torch.tensor(opt_stats_2).to(DEVICE)
+                torch.distributed.all_reduce(
+                    opt_stats_2,
+                    op=torch.distributed.ReduceOp.MAX,
+                    group=mpu.get_pipeline_model_parallel_group(),
+                )
+
+            wandb_metrics |= {
+                "optimizer/learning_rate": learning_rate,
+                "optimizer/iteration": args.iteration,
+                "optimizer/consumed_train_tokens": args.consumed_train_tokens,
+                "optimizer/variance_l2": opt_stats[0] ** 0.5,
+                "optimizer/variance_sqrt_l2": opt_stats[1] ** 0.5,
+                "optimizer/momentum_l2": opt_stats[2] ** 0.5,
+                "optimizer/weight_l2": opt_stats[3] ** 0.5,
+                "optimizer/variance_l1": opt_stats[4],
+                "optimizer/variance_sqrt_l1": opt_stats[5],
+                "optimizer/momentum_l1": opt_stats[6],
+                "optimizer/weight_l1": opt_stats[7],
+                "optimizer/variance_abs_max": opt_stats_2[0],
+                "optimizer/variance_sqrt_abs_max": opt_stats_2[1],
+                "optimizer/momentum_abs_max": opt_stats_2[2],
+                "optimizer/weight_abs_max": opt_stats_2[3],
+            }
+            # print('step {} rank {} after sync opt_stats {}, {}'.format(iteration, torch.distributed.get_rank(), opt_stats_2, opt_stats))
+            # if writer and is_last_rank():
+            if writer is not None and RANK == 0:
+                writer.add_scalar(
+                    "optimizer/variance_l2 vs tokens",
+                    opt_stats[0] ** 0.5,
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/variance_sqrt_l2 vs tokens",
+                    opt_stats[1] ** 0.5,
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/momentum_l2 vs tokens",
+                    opt_stats[2] ** 0.5,
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/weight_l2 vs tokens",
+                    opt_stats[3] ** 0.5,
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/variance_l1 vs tokens",
+                    opt_stats[4],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/variance_sqrt_l1 vs tokens",
+                    opt_stats[5],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/momentum_l1 vs tokens",
+                    opt_stats[6],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/weight_l1 vs tokens",
+                    opt_stats[7],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/variance_abs_max vs tokens",
+                    opt_stats_2[0],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/variance_sqrt_abs_max vs tokens",
+                    opt_stats_2[1],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/momentum_abs_max vs tokens",
+                    opt_stats_2[2],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/weight_abs_max vs tokens",
+                    opt_stats_2[3],
+                    args.consumed_train_tokens,
+                )
+                writer.add_scalar(
+                    "optimizer/variance_l2", opt_stats[0] ** 0.5, iteration
+                )
+                writer.add_scalar(
+                    "optimizer/variance_sqrt_l2", opt_stats[1] ** 0.5, iteration
+                )
+                writer.add_scalar(
+                    "optimizer/momentum_l2", opt_stats[2] ** 0.5, iteration
+                )
+                writer.add_scalar("optimizer/weight_l2", opt_stats[3] ** 0.5, iteration)
+                writer.add_scalar("optimizer/variance_l1", opt_stats[4], iteration)
+                writer.add_scalar("optimizer/variance_sqrt_l1", opt_stats[5], iteration)
+                writer.add_scalar("optimizer/momentum_l1", opt_stats[6], iteration)
+                writer.add_scalar("optimizer/weight_l1", opt_stats[7], iteration)
+                writer.add_scalar(
+                    "optimizer/variance_abs_max", opt_stats_2[0], iteration
+                )
+                writer.add_scalar(
+                    "optimizer/variance_sqrt_abs_max", opt_stats_2[1], iteration
+                )
+                writer.add_scalar(
+                    "optimizer/momentum_abs_max", opt_stats_2[2], iteration
+                )
+                writer.add_scalar("optimizer/weight_abs_max", opt_stats_2[3], iteration)
+
+    assert args is not None
+    assert timers is not None
+    if iteration % args.log_interval == 0:
+        elapsed_time = timers("interval-time").elapsed(barrier=True)
+        elapsed_time_per_iteration = elapsed_time / total_iterations
+        seq_len = args.seq_length
+        if hasattr(args, "actual_seq_length"):
+            seq_len = args.actual_seq_length
+        samples_per_sec, tflops, approx_parameters_in_billions = throughput_calculator(
+            model, args, elapsed_time, total_iterations
+        )
+        samples_per_sec_per_replica = samples_per_sec / args.data_parallel_size
+        tokens_per_sec = samples_per_sec * seq_len
+        tokens_per_sec_per_replica = tokens_per_sec / args.data_parallel_size
+        tokens_per_gpu_per_second = tokens_per_sec / args.world_size
+        tokens_per_gpu_per_second_per_replica = (
+            tokens_per_gpu_per_second / args.data_parallel_size
+        )
+        # NOTE: [2024-06-19]
+        # Updated to use (more accurate) calculation according to
+        # `num_floating_point_operations` from NVIDIA/Megatron-LM
+        num_flop_lm = num_floating_point_operations(args, batch_size)
+        num_flop_per_sec_lm = num_flop_lm / elapsed_time_per_iteration
+        tflops_lm = num_flop_per_sec_lm / (10**12)
+        tflops_lm_per_gpu = tflops_lm / args.world_size
+        wandb_metrics |= {
+            "iteration": iteration,
+            "train_iters": args.train_iters,
+            "throughput/iteration-time": elapsed_time_per_iteration,  # 1000 ms / s
+            "throughput/samples_per_sec": samples_per_sec,
+            "throughput/samples_per_sec_per_replica": samples_per_sec_per_replica,
+            "throughput/tokens_per_sec": tokens_per_sec,
+            "throughput/tokens_per_sec_per_replica": tokens_per_sec_per_replica,
+            "throughput/tokens_per_gpu_per_sec": tokens_per_gpu_per_second,
+            "throughput/tokens_per_gpu_per_sec_per_replica": tokens_per_gpu_per_second_per_replica,
+            "throughput/tflops": tflops,
+            "throughput/tflops-new": num_flop_lm / elapsed_time_per_iteration,
+            "throughput/tflops-lm": tflops_lm_per_gpu,
+            "throughput/approx_params_in_billions": approx_parameters_in_billions,
+            "throughput/elapsed_ms_per_iteration": elapsed_time_per_iteration,
+            "throughput/iteration": iteration,
+        }
+        if loss_dict is not None:
+            wandb_metrics |= {
+                "loss/iteration": iteration,
+                **{f"loss/{k}": v for k, v in loss_dict.items()},
+            }
+        if writer and args.log_timers_to_tensorboard:
+            wandb_metrics |= {
+                'iteration-time/iteration': iteration,
+                'iteration-time/iteration-time': elapsed_time_per_iteration,
+                'iteration-time/consumed_train_samples': args.consumed_train_samples,
+                'iteration-time/consumed_train_tokens': args.consumed_train_tokens,
+            }
+            writer.add_scalar(
+                "iteration-time/iteration-time", elapsed_time_per_iteration, iteration
+            )
+            writer.add_scalar(
+                "iteration-time/iteration-time vs samples",
+                elapsed_time_per_iteration,
+                args.consumed_train_samples,
+            )
+            writer.add_scalar(
+                "iteration-time/iteration-time vs tokens",
+                elapsed_time_per_iteration,
+                args.consumed_train_tokens,
+            )
+        # metrics_to_log = {
+        #     'iteration': iteration,
+        #     'train_iters': args.train_iters,
+        #     'consumed_samples': args.consumed_train_samples,
+        #     'consumed_tokens': args.consumed_tokens,
+        # }
+        log_string = f" iteration={iteration:8d}/{args.train_iters:8d} |"
+        # .format( iteration, args.train_iters)
+        log_string += (
+            f" consumed_samples={args.consumed_train_samples:12d} |"
+            # .format(args.consumed_train_samples)
+        )
+        log_string += f" consumed_tokens={args.consumed_train_tokens:12d} |"
+        # .format( args.consumed_train_tokens)
+        log_string += (
+            " elapsed_time_per_iteration_ms="
+            f"{elapsed_time_per_iteration * 1000.0:.1f} |"
+            # .format( elapsed_time_per_iteration * 1000.0)
+        )
+        log_string += f" learning_rate={learning_rate:.6g} |"
+        log_string += f" global_batch_size={batch_size:5d} |"
+        # if wandb is not None and getattr(wandb, 'run', None) is not None:
+        wandb_metrics |= {
+            "training/iteration": iteration,
+            "training/iteration_time": elapsed_time_per_iteration,
+            "training/iteration_time_vs_tokens": (
+                elapsed_time_per_iteration / args.consumed_train_tokens
+            ),
+            "training/iteration_time_vs_samples": (
+                (elapsed_time_per_iteration / args.consumed_train_samples),
+            ),
+            "training/consumed_samples": args.consumed_train_samples,
+            "training/consumed_tokens": args.consumed_train_tokens,
+        }
+        for key in total_loss_dict:
+            if key not in [advanced_iters_key, skipped_iters_key, nan_iters_key]:
+                avg = total_loss_dict[key].item() / float(
+                    max(1, total_loss_dict[advanced_iters_key])
+                )
+                if avg > 0.0:
+                    log_string += " {}={:.6f} |".format(key, avg)
+                wandb_metrics[f"loss/{key}"] = avg
+                total_loss_dict[key] = torch.tensor([0.0]).to(DEVICE)
+        if loss_scale is not None:
+            log_string += " loss_scale={:.1f} |".format(loss_scale)
+            wandb_metrics |= {"loss/loss_scale": loss_scale}
+        if grad_norm is not None:
+            log_string += " grad_norm={:.3f} |".format(grad_norm)
+            wandb_metrics |= {"loss/grad_norm": grad_norm}
+        if num_zeros_in_grad is not None:
+            log_string += " num_zeros={:.1f} |".format(num_zeros_in_grad)
+            wandb_metrics |= {"loss/num_zeros_in_grad": num_zeros_in_grad}
+        if params_norm is not None:
+            log_string += " params_norm={:.3f} |".format(params_norm)
+            wandb_metrics |= {"loss/params_norm": params_norm}
+        if args.curriculum_learning_legacy or args.data_efficiency_curriculum_learning:
+            log_string += " curriculum_seqlen={:5d} |".format(args.curriculum_seqlen)
+        if args.random_ltd:
+            log_string += " random_ltd reserved_length={:5d} |".format(
+                args.random_ltd_reserved_length
+            )
+            # log_string += " | ".join([
+            #     f"{seq_len=:5d} ",
+            #     f"{}"
+            #     f"number_of_skipped_iterations={:3d}",
+            #
+            # ])
+        log_string += " actual_seqlen={:5d} |".format(seq_len)
+        log_string += " number_of_skipped_iterations={:3d} |".format(
+            total_loss_dict[skipped_iters_key]
+        )
+        log_string += " number_of_nan_iterations={:3d} |".format(
+            total_loss_dict[nan_iters_key]
+        )
+        log_string += " samples_per_second={:.3f} |".format(samples_per_sec)
+        log_string += " tokens_per_gpu_per_second_tgs={:.3f} |".format(
+            tokens_per_gpu_per_second
+        )
+        log_string += " [LM]TFLOPs={:.2f} |".format(tflops_lm_per_gpu)
+        log_string += " [DS]TFLOPs={:.2f} |".format(tflops)
+        total_loss_dict[advanced_iters_key] = 0
+        total_loss_dict[skipped_iters_key] = 0
+        total_loss_dict[nan_iters_key] = 0
+        # print_rank_last(log_string)
+        log.info(log_string)
+        if report_memory_flag and learning_rate > 0.0:
+            # Report memory after optimizer state has been initialized.
+            report_memory("(after {} iterations)".format(iteration))
+            report_memory_flag = False
+        if wandb is not None and getattr(wandb, "run", None) is not None:
+            wandb_metrics |= {
+                "training/skiped_iterations": total_loss_dict[skipped_iters_key]
+            }
+            wandb_metrics |= {"training/nan_iterations": total_loss_dict[nan_iters_key]}
+            wandb.log(wandb_metrics)
+        if timers is not None:
+            timers.log(timers_to_log, normalizer=args.log_interval)
+
+    return report_memory_flag
diff --git a/megatron/utils.py b/megatron/utils.py
index 97294070af7..6727519973a 100644
--- a/megatron/utils.py
+++ b/megatron/utils.py
@@ -4,30 +4,158 @@
 
 import sys
 import os
+import logging
+from typing import Optional
 
 import torch
+import torch.distributed
 from torch.nn.parallel import DistributedDataParallel as torchDDP
 
 from deepspeed.accelerator import get_accelerator
-if get_accelerator().device_name() == 'cuda':
-    from apex.multi_tensor_apply import multi_tensor_applier
-    import amp_C
-
-from megatron import (
-    get_args,
-    get_adlr_autoresume,
-    get_num_microbatches
-)
+
+from megatron import get_args, get_adlr_autoresume, get_num_microbatches
 from megatron.core import mpu
 from megatron.core.tensor_parallel import param_is_not_tensor_parallel_duplicate
 from megatron.model.module import param_is_not_shared
 from megatron.model.rotary_pos_embedding import RotaryEmbedding
 
+import ezpz as ez
+
+ACCELERATOR = get_accelerator()
+assert ACCELERATOR is not None
+
+if ACCELERATOR.device_name() == "cuda":
+    try:
+        from apex.multi_tensor_apply import multi_tensor_applier  # type:ignore
+        import amp_C  # type:ignore
+
+        HAS_APEX = True
+    except Exception:
+        HAS_APEX = False
+
+RANK = ez.get_rank()
+log = logging.getLogger(__name__)
+log.setLevel(os.environ.get("LOG_LEVEL", ("INFO" if RANK == 0 else "CRITICAL")))
+
+_DLIO_PROFILER_EXIST = True
+_DFTRACER_EXIST = True
+
+try:
+    import dftracer  # type:ignore
+except Exception:
+    _DFTRACER_EXIST = False
+
+try:
+    import dlio_profiler  # type:ignore
+except Exception:
+    _DLIO_PROFILER_EXIST = False
+
+
+if _DFTRACER_EXIST:
+    from dftracer.logger import (  # type:ignore
+        dftracer as PerfTrace,
+        dft_fn as Profile,
+        DFTRACER_ENABLE as DFTRACER_ENABLE,
+    )
+elif _DLIO_PROFILER_EXIST:
+    from dlio_profiler.logger import fn_interceptor as Profile  # type:ignore
+    from dlio_profiler.logger import dlio_logger as PerfTrace  # type:ignore
+else:
+    from functools import wraps
+
+    class Profile(object):
+
+        def __init__(
+            self, cat, name=None, epoch=None, step=None, image_idx=None, image_size=None
+        ):
+            return
+
+        def log(self, func):
+            return func
+
+        def log_init(self, func):
+            return func
+
+        def iter(self, func, iter_name="step"):
+            return func
+
+        def __enter__(self):
+            return
+
+        def __exit__(self, type, value, traceback):
+            return
+
+        def update(
+            self, epoch=None, step=None, image_idx=None, image_size=None, args={}
+        ):
+            return
+
+        def flush(self):
+            return
+
+        def reset(self):
+            return
+
+        def log_static(self, func):
+            return
+
+    class dftracer(object):
+
+        def __init__(
+            self,
+        ):
+            self.type = None
+
+        def initialize_log(self, logfile=None, data_dir=None, process_id=-1):
+            return
+
+        def get_time(self):
+            return
+
+        def enter_event(self):
+            return
+
+        def exit_event(self):
+            return
+
+        def log_event(self, name, cat, start_time, duration, string_args=None):
+            return
+
+        def finalize(self):
+            return
+
+    PerfTrace = dftracer()
+    DFTRACER_ENABLE = False
+
+
+def get_logger(
+    name: str,
+    level: Optional[str] = None,
+    rank_zero_only: Optional[bool] = True,
+) -> logging.Logger:
+    """Returns a `logging.Logger` object.
+
+    If `rank_zero_only` passed, the level will be set to CRITICAL on all
+    non-zero ranks (and will be set to `level` on RANK==0).
+    """
+    logger = logging.getLogger(name)
+    logger.setLevel(
+        str(level if level is not None else os.environ.get("LOG_LEVEL", "INFO")).upper()
+    )
+    if rank_zero_only and ez.get_rank() != 0:
+        logger.setLevel("CRITICAL")
+    return logger
+
 
 def update_rotary_pos_emb(seq_length):
     args = get_args()
-    rotary_dim = args.hidden_size // args.num_attention_heads \
-        if args.kv_channels is None else args.kv_channels
+    accelerator = get_accelerator()
+    assert args is not None and accelerator is not None
+    rotary_dim = (
+        args.hidden_size // args.num_attention_heads
+        if args.kv_channels is None
+        else args.kv_channels
+    )
 
     if args.rotary_percent < 1.0:
         rotary_dim = int(rotary_dim * args.rotary_percent)
@@ -36,7 +164,8 @@ def update_rotary_pos_emb(seq_length):
     # Wang and Komatsuzaki et al
     # https://github.com/kingoflolz/mesh-transformer-jax/
     rotary_pos_emb = RotaryEmbedding(rotary_dim, theta=args.rope_theta)(seq_length).to(
-        get_accelerator().current_device_name())
+        accelerator.current_device_name()
+    )
     args.rotary_pos_emb = rotary_pos_emb
 
 
@@ -56,8 +185,9 @@ def unwrap_model(model, module_instances=(torchDDP)):
 
 
 def calc_params_l2_norm(model):
-    """Calculate l2 norm of parameters """
+    """Calculate l2 norm of parameters"""
     args = get_args()
+    assert args is not None
     if not isinstance(model, list):
         model = [model]
     # Remove duplicate params.
@@ -73,82 +203,84 @@ def calc_params_l2_norm(model):
                     params_data.append(param.data)
     # Calculate norm
     dummy_overflow_buf = get_accelerator().IntTensor([0])
-    
-    if get_accelerator().device_name() == 'cuda':
 
+    if ACCELERATOR.device_name() == "cuda" and HAS_APEX:
         norm, _ = multi_tensor_applier(
             amp_C.multi_tensor_l2norm,
             dummy_overflow_buf,
             [params_data],
-            False # no per-parameter norm
+            False,  # no per-parameter norm
         )
-    else :
-        norm = torch.norm(params_data,p=2.0)
+    else:
+        norm = torch.norm(params_data, p=2.0)
     norm_2 = norm * norm
     # Sum across all model-parallel GPUs.
-    torch.distributed.all_reduce(norm_2,
-                                 op=torch.distributed.ReduceOp.SUM,
-                                 group=mpu.get_model_parallel_group())
+    torch.distributed.all_reduce(
+        norm_2, op=torch.distributed.ReduceOp.SUM, group=mpu.get_model_parallel_group()
+    )
     return norm_2.item() ** 0.5
 
 
 def average_losses_across_data_parallel_group(losses):
     """Reduce a tensor of losses across all GPUs."""
-    averaged_losses = torch.cat(
-        [loss.clone().detach().view(1) for loss in losses])
-    torch.distributed.all_reduce(averaged_losses,
-                                 group=mpu.get_data_parallel_group())
-    averaged_losses = averaged_losses / \
-        torch.distributed.get_world_size(group=mpu.get_data_parallel_group())
+    averaged_losses = torch.cat([loss.clone().detach().view(1) for loss in losses])
+    torch.distributed.all_reduce(averaged_losses, group=mpu.get_data_parallel_group())
+    averaged_losses = averaged_losses / torch.distributed.get_world_size(
+        group=mpu.get_data_parallel_group()
+    )
 
     return averaged_losses
 
 
 def report_memory(name):
     """Simple GPU memory report."""
+    accelerator = get_accelerator()
+    assert accelerator is not None
     mega_bytes = 1024.0 * 1024.0
-    string = name + ' memory (MB)'
-    string += ' | allocated: {}'.format(
-        get_accelerator().memory_allocated() / mega_bytes)
-    string += ' | max allocated: {}'.format(
-        get_accelerator().max_memory_allocated() / mega_bytes)
-    string += ' | reserved: {}'.format(
-        get_accelerator().memory_reserved() / mega_bytes)
-    string += ' | max reserved: {}'.format(
-        get_accelerator().max_memory_reserved() / mega_bytes)
+    string = name + " memory (MB)"
+    string += " | allocated: {}".format(accelerator.memory_allocated() / mega_bytes)
+    string += " | max allocated: {}".format(
+        accelerator.max_memory_allocated() / mega_bytes
+    )
+    reserved = accelerator.memory_reserved()
+    max_reserved = accelerator.max_memory_reserved()
+    if reserved is not None:
+        string += " | reserved: {}".format(reserved / mega_bytes)
+    if max_reserved is not None:
+        string += " | max reserved: {}".format(max_reserved / mega_bytes)
     if mpu.get_data_parallel_rank() == 0:
-        print("[Rank {}] {}".format(torch.distributed.get_rank(), string),
-              flush=True)
+        log.info(f"[Rank {RANK}] {string}")
 
 
 def print_params_min_max_norm(optimizer, iteration):
     """Print min, max, and norm of all parameters."""
     index = 0
     rank = torch.distributed.get_rank()
-    string = 'iteration, rank, index, tensor-model-parallel, min, max, norm\n'
+    string = "iteration, rank, index, tensor-model-parallel, min, max, norm\n"
     optimizer_ = optimizer.optimizer
     for param_group in optimizer_.param_groups:
-        for param in param_group['params']:
+        for param in param_group["params"]:
             index += 1
             min_ = param.data.min()
             max_ = param.data.max()
             norm = torch.linalg.norm(param.data)
-            string += '{:7d}, {:4d}, {:4d}, {:2d}, '.format(
-                iteration, rank, index, int(param.tensor_model_parallel))
-            string += '{:.6E}, {:.6E}, {:.6E}\n'.format(min_, max_, norm)
-    print(string, flush=True)
+            string += "{:7d}, {:4d}, {:4d}, {:2d}, ".format(
+                iteration, rank, index, int(param.tensor_model_parallel)
+            )
+            string += "{:.6E}, {:.6E}, {:.6E}\n".format(min_, max_, norm)
+    log.info(string)
 
 
-def check_adlr_autoresume_termination(iteration, model,
-                                      optimizer, opt_param_scheduler):
+def check_adlr_autoresume_termination(iteration, model, optimizer, opt_param_scheduler):
     """Check for autoresume signal and exit if it is received."""
     from megatron.checkpointing import save_checkpoint
 
     args = get_args()
+    assert args is not None
     autoresume = get_adlr_autoresume()
     # Add barrier to ensure consistnecy.
     torch.distributed.barrier()
-    if autoresume.termination_requested():
+    if autoresume is not None and autoresume.termination_requested():
         if args.save:
             save_checkpoint(iteration, model, optimizer, opt_param_scheduler)
         print_rank_0(">>> autoresume termination request found!")
@@ -158,12 +290,14 @@ def check_adlr_autoresume_termination(iteration, model,
         sys.exit(0)
 
 
-def get_ltor_masks_and_position_ids(data,
-                                    eod_token,
-                                    reset_position_ids,
-                                    reset_attention_mask,
-                                    eod_mask_loss,
-                                    skip_mask=False):
+def get_ltor_masks_and_position_ids(
+    data,
+    eod_token,
+    reset_position_ids,
+    reset_attention_mask,
+    eod_mask_loss,
+    skip_mask=False,
+):
     """Build masks and position id for left to right model."""
 
     # Extract batch size and sequence length.
@@ -177,8 +311,9 @@ def get_ltor_masks_and_position_ids(data,
 
     attention_mask = None
     if not skip_mask:
-        attention_mask = torch.tril(torch.ones(
-            (att_mask_batch, seq_length, seq_length))).view(att_mask_batch, 1, seq_length, seq_length)
+        attention_mask = torch.tril(
+            torch.ones((att_mask_batch, seq_length, seq_length), device=data.device)
+        ).view(att_mask_batch, 1, seq_length, seq_length)
 
     # Loss mask.
     loss_mask = torch.ones(data.size(), dtype=torch.float, device=data.device)
@@ -186,8 +321,7 @@ def get_ltor_masks_and_position_ids(data,
         loss_mask[data == eod_token] = 0.0
 
     # Position ids.
-    position_ids = torch.arange(seq_length, dtype=torch.long,
-                                device=data.device)
+    position_ids = torch.arange(seq_length, dtype=torch.long, device=data.device)
     position_ids = position_ids.unsqueeze(0).expand_as(data)
     # We need to clone as the ids will be modifed based on batch index.
     if reset_position_ids:
@@ -196,7 +330,6 @@ def get_ltor_masks_and_position_ids(data,
     if reset_position_ids or reset_attention_mask:
         # Loop through the batches:
         for b in range(micro_batch_size):
-
             # Find indecies where EOD token is.
             eod_index = position_ids[b, data[b] == eod_token]
             # Detach indecies from positions if going to modify positions.
@@ -208,125 +341,235 @@ def get_ltor_masks_and_position_ids(data,
             for j in range(eod_index.size()[0]):
                 i = eod_index[j]
                 # Mask attention loss.
-                if reset_attention_mask and not skip_mask:
-                    attention_mask[b, 0, (i + 1):, :(i + 1)] = 0
+                if (
+                    reset_attention_mask
+                    and not skip_mask
+                    and attention_mask is not None
+                ):
+                    attention_mask[b, 0, (i + 1) :, : (i + 1)] = 0
                 # Reset positions.
                 if reset_position_ids:
-                    position_ids[b, (i + 1):] -= (i + 1 - prev_index)
+                    position_ids[b, (i + 1) :] -= i + 1 - prev_index
                     prev_index = i + 1
 
     # Convert attention mask to binary:
     if not skip_mask:
-        attention_mask = (attention_mask < 0.5)
-        attention_mask = attention_mask.to(data.device)
+        assert attention_mask is not None
+        attention_mask = attention_mask < 0.5
 
     return attention_mask, loss_mask, position_ids
 
 
 def print_rank_0(message):
     """If distributed is initialized, print only on rank 0."""
-    if torch.distributed.is_initialized():
-        if torch.distributed.get_rank() == 0:
-            print(message, flush=True)
-    else:
-        print(message, flush=True)
+    # if torch.distributed.is_initialized():
+    #     if torch.distributed.get_rank() == 0:
+    #         # print(message, flush=True)
+    #         print(message, flush=True)
+    # else:
+    #     print(message, flush=True)
+    _ = log.info(f"{message}") if RANK == 0 else None
+
 
 def is_last_rank():
-    return torch.distributed.get_rank() == (
-        torch.distributed.get_world_size() - 1)
+    return torch.distributed.get_rank() == (torch.distributed.get_world_size() - 1)
+
 
 def print_rank_last(message):
     """If distributed is initialized, print only on last rank."""
     if torch.distributed.is_initialized():
         if is_last_rank():
-            print(message, flush=True)
+            # print(message, flush=True)
+            log.info(message)
     else:
-        print(message, flush=True)
+        log.info(message)
+
 
 def is_aml():
     # Are we running inside an Azure Machine Learning (AML) environment?
-    return 'AZUREML_EXPERIMENT_ID' in os.environ
+    return "AZUREML_EXPERIMENT_ID" in os.environ
+
 
 def is_rank_0():
     """Check whether it is rank 0. For AML, check if it is rank 0 of a node"""
     if torch.distributed.is_initialized():
+        assert ACCELERATOR is not None
         if torch.distributed.get_rank() == 0 or (
-            is_aml() and torch.distributed.get_rank() % get_accelerator().device_count() == 0
-            ):
+            is_aml()
+            and (torch.distributed.get_rank() % ACCELERATOR.device_count()) == 0
+        ):
             return True
         else:
             return False
     else:
         return True
 
-def get_parameters_in_billions(model):
-    gpus_per_model = torch.distributed.get_world_size(group=mpu.get_model_parallel_group())
 
-    approx_parameters_in_billions = sum([sum([p.ds_numel if hasattr(p,'ds_id') else  p.nelement() for p in model_module.parameters()])
-                                        for model_module in model])
+def get_parameters_in_billions(model):
+    gpus_per_model = torch.distributed.get_world_size(
+        group=mpu.get_model_parallel_group()
+    )
+
+    approx_parameters_in_billions = sum(
+        [
+            sum(
+                [
+                    p.ds_numel if hasattr(p, "ds_id") else p.nelement()
+                    for p in model_module.parameters()
+                ]
+            )
+            for model_module in model
+        ]
+    )
+
+    return approx_parameters_in_billions * gpus_per_model / (1e9)
+
+
+def num_floating_point_operations(args, batch_size):
+    # Group Query Attention.
+    # if not args.group_query_attention:
+    if not args.num_key_value_heads:
+        args.num_key_value_heads = args.num_attention_heads
+        # args.num_query_groups = args.num_attention_heads
+    # MoE.
+    # num_experts_routed_to = 1 if args.num_experts is None else args.moe_router_topk
+    num_experts_routed_to = 1 if args.num_experts is None else args.topk
+    gated_linear_multiplier = 3 / 2 if args.swiglu else 1
+    return (
+        12
+        * batch_size
+        * args.seq_length
+        * args.num_layers
+        * args.hidden_size
+        * args.hidden_size
+        * (
+            1
+            + (
+                (args.ffn_hidden_size / args.hidden_size)
+                * num_experts_routed_to
+                * gated_linear_multiplier
+            )
+            + (args.num_key_value_heads / args.num_attention_heads)
+            + (args.seq_length / args.hidden_size)
+            + (args.padded_vocab_size / (2 * args.num_layers * args.hidden_size))
+        )
+    )
 
-    return approx_parameters_in_billions*gpus_per_model/(1e9)
 
 def throughput_calculator(model, args, iteration_time, total_iterations):
-    batch_size = args.micro_batch_size * get_num_microbatches() * args.data_parallel_size
-    approx_parameters_in_billions = None if (model is None) else get_parameters_in_billions(model)
-    elapsed_time_per_iter = iteration_time/total_iterations
+    batch_size = (
+        args.micro_batch_size * get_num_microbatches() * args.data_parallel_size
+    )
+    approx_parameters_in_billions = (
+        None if (model is None) else get_parameters_in_billions(model)
+    )
+    elapsed_time_per_iter = iteration_time / total_iterations
     samples_per_second = batch_size / elapsed_time_per_iter
 
-    #flops calculator
+    # flops calculator
     hidden_size = args.hidden_size
+    num_attention_heads = args.num_attention_heads
+    head_dim = hidden_size // num_attention_heads
+    ffn_hidden_size = args.ffn_hidden_size
     num_layers = args.num_layers
     vocab_size = args.padded_vocab_size
+    gqa = args.num_attention_heads // args.num_key_value_heads
+    num_experts_routed_to = args.topk
+    ffn_multiplier = 3 if args.swiglu else 2
+    macs_per_flops = 2
 
     # General TFLOPs formula (borrowed from Equation 3 in Section 5.1 of
     # https://arxiv.org/pdf/2104.04473.pdf).
-    # The factor of 4 is when used with activation check-pointing,
-    # otherwise it will be 3.
-    checkpoint_activations_factor = 3
-    if hasattr(args, 'checkpoint_activations') and args.checkpoint_activations:
-        checkpoint_activations_factor = 4
-    if hasattr(args, 'recompute_granularity') and (args.recompute_granularity == 'selective' or args.recompute_granularity == 'full'):
-        checkpoint_activations_factor = 4
+    # correction has been made to TFLOPs formula due to incorrect behavior
+    # observed with selective recompute when GQA not used and for all with GQA
     seq_len = args.seq_length
-    if hasattr(args, 'actual_seq_length'):
+    if hasattr(args, "actual_seq_length"):
         seq_len = args.actual_seq_length
-    flops_per_iteration = (24 * checkpoint_activations_factor * batch_size * seq_len * num_layers * (hidden_size**2)) * (1. + (seq_len / (6. * hidden_size)) + (vocab_size / (16. * num_layers * hidden_size)))
+    pre_and_post_mha_gemm_macs = (
+        batch_size * num_layers * (1 + (2 // gqa) + 1) * (hidden_size**2) * seq_len
+    )
+    mha_bgemm_macs = (
+        batch_size * num_layers * 2 * head_dim * num_attention_heads * (seq_len**2)
+    )
+    ffn_gemm_macs = (
+        batch_size
+        * num_layers
+        * ffn_multiplier
+        * ffn_hidden_size
+        * hidden_size
+        * seq_len
+        * num_experts_routed_to
+    )
+    logit_lmhead_gemm_macs = batch_size * vocab_size * hidden_size * seq_len
+
+    fwd_macs = (
+        pre_and_post_mha_gemm_macs
+        + mha_bgemm_macs
+        + ffn_gemm_macs
+        + logit_lmhead_gemm_macs
+    )
+    bwd_macs = 2 * fwd_macs
+    fwd_bwd_macs = fwd_macs + bwd_macs
+
+    if (hasattr(args, "checkpoint_activations") and args.checkpoint_activations) or (
+        hasattr(args, "recompute_granularity") and args.recompute_granularity == "full"
+    ):
+        fwd_bwd_macs += fwd_macs
+    if (
+        hasattr(args, "recompute_granularity")
+        and args.recompute_granularity == "selective"
+    ):
+        fwd_bwd_macs += mha_bgemm_macs
+
+    flops_per_iteration = fwd_bwd_macs * macs_per_flops
     tflops = flops_per_iteration / (elapsed_time_per_iter * args.world_size * (10**12))
     return samples_per_second, tflops, approx_parameters_in_billions
 
+
 def checkpoint_throughput_calculator(model, latency_second):
     approx_parameters_in_billions = get_parameters_in_billions(model)
-    checkpoint_multiplier = 14  # fp16 weights (2), fp32 weights (4), fp32 momentum (4), fp32 variance (4)
+    checkpoint_multiplier = (
+        14  # fp16 weights (2), fp32 weights (4), fp32 momentum (4), fp32 variance (4)
+    )
     checkpoint_GB = approx_parameters_in_billions * checkpoint_multiplier
     GB_per_second = checkpoint_GB / latency_second
-    print_rank_0(f"Checkpoint Save GB: {round(checkpoint_GB, 3)}, GB/Sec: {round(GB_per_second,2)}, Latency(second): {round(latency_second, 3)}")
+    print_rank_0(
+        f"Checkpoint Save GB: {round(checkpoint_GB, 3)}, GB/Sec: {round(GB_per_second, 2)}, Latency(second): {round(latency_second, 3)}"
+    )
 
 
 def get_fingerprint_header():
     return f"{'min':^13} {'max':^13} {'mean':^13} {'l2 norm':^12} metadata"
 
+
 def get_fingerprint(p):
     return f"{p.min():13.6e} {p.max():13.6e} {p.mean():13.6e} {p.norm():12.6e}"
 
 
 def dump_position_embed_weights(preamble, iteration, model):
-    # return 
+    # return
     from deepspeed.utils import safe_get_full_fp32_param
+
     tp_rank = mpu.get_tensor_model_parallel_rank()
     pp_rank = mpu.get_pipeline_model_parallel_rank()
     dp_rank = mpu.get_data_parallel_rank()
     get_fingerprint_header()
     for n, p in model[0].named_parameters():
-        if 'position_embeddings' in n:
+        if "position_embeddings" in n:
             tag = "pos_embed"
         elif "word_embeddings" in n:
             tag = "word_embed"
         else:
-            continue 
-        print(f"iter {iteration} {preamble} {tag} lp {tp_rank}/{pp_rank}/{dp_rank}: {get_fingerprint(p)} {p.shape}\n")
+            continue
+        log.info(
+            f"iter {iteration} {preamble} {tag} lp {tp_rank}/{pp_rank}/{dp_rank}: {get_fingerprint(p)} {p.shape}\n"
+        )
         fp32_value = safe_get_full_fp32_param(p)
-        if fp32_value is not None: 
-            print(f"iter {iteration} {preamble} {tag} hp {tp_rank}/{pp_rank}/{dp_rank}: {get_fingerprint(fp32_value)} {p.shape}\n")
+        if fp32_value is not None:
+            log.info(
+                f"iter {iteration} {preamble} {tag} hp {tp_rank}/{pp_rank}/{dp_rank}: {get_fingerprint(fp32_value)} {p.shape}\n"
+            )
+
 
 def dump_weights(preamble, iteration, model, optimizer, tensor=None):
     # return
@@ -337,19 +580,19 @@ def dump_weights(preamble, iteration, model, optimizer, tensor=None):
     fn = f"debug-bf16-{iteration}-pp{pp_rank}-tp{tp_rank}-dp{dp_rank}-{preamble}.txt"
 
     # only care for first and last pp stages and dp0 tp0
-    #if not (mpu.is_pipeline_first_stage() or mpu.is_pipeline_last_stage()):
+    # if not (mpu.is_pipeline_first_stage() or mpu.is_pipeline_last_stage()):
     #    return
 
-    #if not (tp_rank == 0 and dp_rank == 0):
+    # if not (tp_rank == 0 and dp_rank == 0):
     #    return
 
     if tensor is not None:
-        orig_tensor = tensor
+        orig_tensor = tensor  # XXX: Unused ????
         if hasattr(tensor, "_hp_param"):
-            numel = tensor._hp_param.numel() # // dp_size
+            numel = tensor._hp_param.numel()  # // dp_size
             tensor = tensor.flatten().narrow(0, 0, numel)
 
-    #print(fn)
+    # print(fn)
     with open(fn, "w") as fh:
         fh.write(f"{get_fingerprint_header()}\n")
 
@@ -359,25 +602,30 @@ def dump_weights(preamble, iteration, model, optimizer, tensor=None):
             for n, p in model[0].named_parameters():
                 fh.write(f"{get_fingerprint(p)} {n} {p.shape}\n")
 
-
+    # # until we figure out how to dump the actual fp32 values don't do this
+    # fn = f"debug-fp32-{iteration}-pp{pp_rank}-tp{tp_rank}-dp{dp_rank}-{preamble}.txt"
+    # with open(fn, "w") as fh:
+    #     fh.write(f"{get_fingerprint_header()}\n")
+    #     if tensor is not None:
+    #         tensor = orig_tensor
+    #         if hasattr(tensor, "_hp_param"):
+    #             fh.write(f"{get_fingerprint(tensor._hp_param)} tensor {tensor._hp_param.shape}\n")
+    #             #fh.write(f"{get_fingerprint(tensor._hp_grad)} tensor grad\n")
+    #         else:
+    #             fh.write(f"{get_fingerprint(tensor)} tensor {tensor.shape}\n")
+    #             #fh.write(f"{get_fingerprint(tensor.grad)} tensor grad\n")
+    #
+    #     else:
+    #         if hasattr(model[0].module.tied_modules, "embed"):
+    #             p = model[0].module.tied_modules.embed.word_embeddings.weight._hp_param
+    #             fh.write(f"{get_fingerprint(p)} module.tied_modules.embed.word_embeddings.weight._hp_param {p.shape}\n")
     return
 
 
-    # until we figure out how to dump the actual fp32 values don't do this
-    fn = f"debug-fp32-{iteration}-pp{pp_rank}-tp{tp_rank}-dp{dp_rank}-{preamble}.txt"
-    with open(fn, "w") as fh:
-        fh.write(f"{get_fingerprint_header()}\n")
-        if tensor is not None:
-            tensor = orig_tensor
-            if hasattr(tensor, "_hp_param"):
-                fh.write(f"{get_fingerprint(tensor._hp_param)} tensor {tensor._hp_param.shape}\n")
-                #fh.write(f"{get_fingerprint(tensor._hp_grad)} tensor grad\n")
-            else:
-                fh.write(f"{get_fingerprint(tensor)} tensor {tensor.shape}\n")
-                #fh.write(f"{get_fingerprint(tensor.grad)} tensor grad\n")
-
-        else:
-            if hasattr(model[0].module.tied_modules, "embed"):
-                p = model[0].module.tied_modules.embed.word_embeddings.weight._hp_param
-                fh.write(f"{get_fingerprint(p)} module.tied_modules.embed.word_embeddings.weight._hp_param {p.shape}\n")
-
+def found_kill_switch():
+    args = get_args()
+    assert args is not None
+    if args.kill_switch_file is not None and os.path.exists(args.kill_switch_file):
+        return True
+    else:
+        return False
diff --git a/pretrain_gpt.py b/pretrain_gpt.py
index 785a1291560..52681e5f8fc 100644
--- a/pretrain_gpt.py
+++ b/pretrain_gpt.py
@@ -36,8 +36,8 @@ def model_provider(pre_process=True, post_process=True):
 
     args = get_args()
     config = core_transformer_config_from_args(args)
-    if hasattr(mpu, 'get_sequence_parallel_group'):
-        dpg = mpu.get_sequence_parallel_group()
+    if hasattr(mpu, 'get_sequence_data_parallel_group'):
+        dpg = mpu.get_sequence_data_parallel_group()
     elif hasattr(mpu, 'get_data_parallel_group'):
         dpg = mpu.get_data_parallel_group()
     else:
diff --git a/pretrain_gpt_alcf.py b/pretrain_gpt_alcf.py
index 4fefef795fe..674038d7ae4 100644
--- a/pretrain_gpt_alcf.py
+++ b/pretrain_gpt_alcf.py
@@ -2,13 +2,25 @@
 
 """Pretrain GPT"""
 
+# ruff: noqa:F401,E402
+import time
+from typing import Callable
+import ezpz
+
+from mpi4py import MPI
+
+comm = MPI.COMM_WORLD
+comm.Barrier()
+python_start_time = time.time()
+
 import os
 from rich import print
 import torch
 import math
 from functools import partial
 from megatron import get_args
-from megatron import print_rank_0
+
+# from megatron import print_rank_0
 from megatron import get_timers
 from megatron import get_tokenizer
 from megatron.core import mpu, tensor_parallel
@@ -17,148 +29,157 @@
 from megatron.model import GPTModel, GPTModelPipe
 from megatron.training import pretrain
 from megatron.utils import get_ltor_masks_and_position_ids
-from megatron.utils import average_losses_across_data_parallel_group, update_rotary_pos_emb
-from megatron.arguments import core_transformer_config_from_args
 from megatron.utils import (
-    report_memory,
-    throughput_calculator,
-    checkpoint_throughput_calculator
+    average_losses_across_data_parallel_group,
+    update_rotary_pos_emb,
 )
-from pathlib import Path
+from megatron.arguments import core_transformer_config_from_args
+
+# from megatron.utils import Profile, PerfTrace
+
+import logging
 
 import deepspeed
 from deepspeed.runtime.utils import see_memory_usage
-from deepspeed.accelerator.real_accelerator import get_accelerator
+
+# from deepspeed.accelerator.real_accelerator import get_accelerator
 import subprocess
 import wandb
 
-import time
 from torch import nn
 import torch.nn.functional as F
 
-# from ezpz import get_logger
-from ezpz.dist import get_world_size, setup_wandb, get_rank
-
-# RANK = setup_torch(
-#     backend='deepspeed',
-#     port='5432',
-# )
-RANK = get_rank()
-WORLD_SIZE = get_world_size()
-LEVEL = "DEBUG" if RANK == 0 else "CRITICAL"
-
-WANDB_MODE = os.environ.get('WANDB_MODE', None)
-DISABLE_WANDB = (
-    WANDB_MODE is not None and str(WANDB_MODE).lower() == 'disabled'
-)
-
+dt_imports = time.time() - python_start_time
+t0_setup = time.time()
+
+# ---- [SETUP COMMS] ------------------------
+# if str(os.environ.get('LAUNCH_CMD', 'mpich')).lower() == 'mpich':
+# RANK = ezpz.setup_torch(backend="deepspeed")  # , timeout=7200)
+RANK = ezpz.setup_torch()
+dt_setup = time.time() - t0_setup
+# else:
+#     RANK = ezpz.get_rank()
+WORLD_SIZE = ezpz.get_world_size()
+LOCAL_RANK = ezpz.get_local_rank()
+DEVICE_TYPE = ezpz.get_torch_device_type()
+if torch.cuda.is_available():
+    torch.cuda.set_device(LOCAL_RANK)
+
+log = logging.getLogger(__name__)
+LOG_LEVEL = str(os.environ.get("LOG_LEVEL", "INFO")).upper()
+# set logging level to "INFO" on RANK == 0, "CRITICAL" on all other ranks
+log.setLevel(LOG_LEVEL) if RANK == 0 else log.setLevel("CRITICAL")
+
+log.info(f"Import python modules in {dt_imports} seconds")
+log.info(f"ezpz.setup_torch time: {dt_setup} seconds")
+
+# ---- [SETUP WANDB FROM RANK 0] --------------
+WANDB_MODE = os.environ.get("WANDB_MODE", None)
+DISABLE_WANDB = WANDB_MODE is not None and str(WANDB_MODE).lower() == "disabled"
 if RANK == 0 and not DISABLE_WANDB:
-    project_name = (
-        os.environ.get(
-            'WB_PROJECT',
-            os.environ.get(
-                'WANDB_PROJECT',
-                'AuroraGPT'
-            ),
-        )
+    project_name = os.environ.get(
+        "WB_PROJECT",  # look for WB_PROJECT in env
+        os.environ.get("WANDB_PROJECT", "AuroraGPT"),  # look for WANDB_PROJECT in env
     )
-    print('--------------------------------------------------')
-    print(f"Setting up W&B from: {RANK} with {project_name}")
-    print('--------------------------------------------------')
-    setup_wandb(project_name=project_name)
+    log.info(f"Setting up W&B from: {RANK} with {project_name}")
+    _ = ezpz.setup_wandb(project_name=project_name)
 
 
+@ezpz.timeitlogit(rank=RANK)
 def model_provider(pre_process=True, post_process=True):
     """Build the model."""
-    print_rank_0('building GPT model ...')
+    log.info("building GPT model ...")
     see_memory_usage("Before Building Model", force=True)
     args = get_args()
+    assert args is not None
     config = core_transformer_config_from_args(args)
-    if wandb.run is not None:
-        print(f"Updating WandB run: [{wandb.run.name}]({wandb.run.url})")
-        wandb.run.config.update({"args": vars(args)})
-    if RANK == 0:
-        git_ds_info()
-    if hasattr(mpu, 'get_sequence_parallel_group'):
-        dpg = mpu.get_sequence_parallel_group()
-    elif hasattr(mpu, 'get_data_parallel_group'):
+    # if RANK == 0:
+    #     git_ds_info()
+    if hasattr(mpu, "get_sequence_data_parallel_group"):
+        dpg = mpu.get_sequence_data_parallel_group()
+    elif hasattr(mpu, "get_data_parallel_group"):
         dpg = mpu.get_data_parallel_group()
     else:
         dpg = None
-    if wandb is not None and wandb.run is not None:
-        assert wandb is not None and wandb.run is not None
-        print(f'Updating {wandb.run.name=} at {wandb.run.url=}')
-        wandb.run.config.update({'args': vars(args)})
-    with deepspeed.zero.Init(
-            data_parallel_group=dpg,
-            remote_device=(
-                None if args.remote_device == 'none' else args.remote_device
-            ),
-            config_dict_or_path=args.deepspeed_config_dict,
-            enabled=args.zero_stage == 3,
-            mpu=mpu
+    deepspeed_zero_init = deepspeed.zero.Init
+    if args.use_mics:
+        deepspeed_zero_init = deepspeed.zero.MiCS_Init
+    with deepspeed_zero_init(
+        data_parallel_group=dpg,
+        remote_device=(None if args.remote_device == "none" else args.remote_device),
+        config_dict_or_path=args.deepspeed_config_dict,
+        enabled=args.zero_stage == 3,
+        mpu=mpu,
     ):
         if args.deepspeed and not args.no_pipeline_parallel:
-            model = GPTModelPipe(
-                config=config,
-                num_tokentypes=0,
-                parallel_output=True
-            )
+            model = GPTModelPipe(config=config, num_tokentypes=0, parallel_output=True)
             # This is a hack to give us a reference to
             # get_batch_pipe from within training.py
             # We need to call model.set_batch_fn after deepspeed.initialize
             model._megatron_batch_fn = get_batch_pipe
-
-            # Predompute the attention mask and store it in args.
+            # Precompute the attention mask and store it in args.
             # This avoids having to pipeline it
             # as an activation during training.
             # The mask is constant, and thus we can reuse it.
             attention_mask = torch.tril(
                 torch.ones(
                     (1, args.seq_length, args.seq_length),
-                    device=get_accelerator().current_device_name()
+                    device=DEVICE_TYPE,
                 )
             ).view(1, 1, args.seq_length, args.seq_length)
-
             # Convert attention mask to binary:
-            attention_mask = (attention_mask < 0.5)
+            attention_mask = attention_mask < 0.5
             if args.fp16:
                 attention_mask = attention_mask.half()
             elif args.bf16:
                 attention_mask = attention_mask.bfloat16()
-
             # Attention mask must be bool.
             args.attn_mask = attention_mask.to(torch.bool)
-
-            # For prertaining, since sequence length is fixed,
+            # For pretraining, since sequence length is fixed,
             # cache rotary embedding in args, to avoid communicating around
             if args.use_rotary_position_embeddings:
                 update_rotary_pos_emb(args.seq_length)
-
         else:
             model = GPTModel(
                 config=config,
                 num_tokentypes=0,
                 parallel_output=True,
                 pre_process=pre_process,
-                post_process=post_process
+                post_process=post_process,
             )
     num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
-    # print_rank_0('\n ------------------------ ')
-    # print_rank_0(f'num of parameters {num_params}')
-    # print_rank_0('------------------------\n ')
-    print_rank_0(80 * '-')
-    print_rank_0(f"Number of parameters in model: {num_params}")
-    print_rank_0(80 * '-')
+    log.info(80 * "-")
+    log.info(f"Number of parameters in model: {num_params}")
+    log.info(80 * "-")
     see_memory_usage("After Building Model", force=True)
-    if wandb.run is not None:
-        wandb.run.config.update({'num_params': num_params})
-    #     wandb.run.watch(
-    #         model,
-    #         log='all',
-    #         log_graph=True,
-    #     )
-    #     wandb.run.config.update({'num_params': num_params})
+    if wandb is not None and getattr(wandb, "run", None) is not None:
+        assert wandb.run is not None
+        tbdir = args.tensorboard_dir
+        # tbdir = args.getattr('tensorboard_dir', None)
+        if tbdir is not None:
+            try:
+                log.info(f"Patching tensorboard from {tbdir}")
+                wandb.tensorboard.patch(root_logdir=tbdir)
+            except ValueError as exc:
+                log.exception(exc)
+                log.warning("Continuing without patching tensorboard!")
+        wandb.run.config.update({"num_params": num_params})
+        if "args" not in wandb.run.config:
+            log.info(
+                f"Updating WandB run.config: [{wandb.run.name}]({wandb.run.get_url()})"
+            )
+            try:
+                wandb.run.config.update({"args": dict(sorted(vars(args).items()))})
+            except Exception:
+                log.error('Unable to `wandb.run.config.update({"args": vars(args)})`')
+        # try:
+        #     wandb.run.watch(
+        #         model,
+        #         log='all',
+        #         log_graph=True,
+        #     )
+        # except Exception:
+        #     pass
     return model
 
 
@@ -166,24 +187,29 @@ def get_batch(data_iterator):
     """Generate a batch"""
     args = get_args()
     tokenizer = get_tokenizer()
-
+    assert args is not None and tokenizer is not None
     # Items and their type.
-    keys = ['text']
+    keys = ["text"]
     datatype = torch.int64
-
     data = next(data_iterator) if data_iterator is not None else None
+
+    if (
+        args.iteration < 10
+        and RANK == 0
+        and os.environ.get("DUMP_TOKENS", None)
+        and data is not None
+    ):
+        log.info(f"{args.iteration=}: {data['text'][:10]=}")
     # # Broadcast data.
     # if data_iterator is not None:
     #     data = next(data_iterator)
     # else:
     #     data = None
     data_b = tensor_parallel.broadcast_data(keys, data, datatype)
-
     # Unpack.
-    tokens_ = data_b['text'].long()
+    tokens_ = data_b["text"].long()
     labels = tokens_[:, 1:].contiguous()
     tokens = tokens_[:, :-1].contiguous()
-
     # Get the masks and postition ids.
     skip_mask = args.use_flash_attn or args.use_flash_attn_triton
     attention_mask, loss_mask, position_ids = get_ltor_masks_and_position_ids(
@@ -192,53 +218,63 @@ def get_batch(data_iterator):
         args.reset_position_ids,
         args.reset_attention_mask,
         args.eod_mask_loss,
-        skip_mask)
-
+        skip_mask,
+    )
     # For DS's sequence parallel
     seq_parallel_world_size = mpu.get_sequence_parallel_world_size()
     seq_parallel_world_rank = mpu.get_sequence_parallel_rank()
-
     # For Megatron's sequence parallel
     if args.sequence_parallel:
         seq_parallel_world_size = mpu.get_tensor_model_parallel_world_size()
         seq_parallel_world_rank = mpu.get_tensor_model_parallel_rank()
     seq_length = tokens.size(1)
-
     assert seq_length % seq_parallel_world_size == 0
     sub_seq_length = seq_length // seq_parallel_world_size
     sub_seq_start = seq_parallel_world_rank * sub_seq_length
     sub_seq_end = (seq_parallel_world_rank + 1) * sub_seq_length
-
     tokens = tokens[:, sub_seq_start:sub_seq_end]
     position_ids = position_ids[:, sub_seq_start:sub_seq_end]
     # For DS's sequence parallel
     if mpu.get_sequence_parallel_world_size() > 1:
         labels = labels[:, sub_seq_start:sub_seq_end]
-
     return tokens, labels, loss_mask, attention_mask, position_ids
 
 
 def data_post_process(data, data_sampler_state_dict):
     args = get_args()
+    assert args is not None
     if args.data_efficiency_curriculum_learning:
-        if 'seqlen_truncate' in data_sampler_state_dict['current_difficulties']:
-            args.data_efficiency_curriculum_learning_seqlen_type = 'seqlen_truncate'
-            current_seqlen = data_sampler_state_dict['current_difficulties']['seqlen_truncate']
+        if "seqlen_truncate" in data_sampler_state_dict["current_difficulties"]:
+            args.data_efficiency_curriculum_learning_seqlen_type = "seqlen_truncate"
+            current_seqlen = data_sampler_state_dict["current_difficulties"][
+                "seqlen_truncate"
+            ]
             if current_seqlen < args.seq_length:
-                data['text'] = data['text'][:, :(current_seqlen+1)].contiguous()
-        elif 'seqlen_reshape' in data_sampler_state_dict['current_difficulties']:
-            args.data_efficiency_curriculum_learning_seqlen_type = 'seqlen_reshape'
-            current_seqlen = data_sampler_state_dict['current_difficulties']['seqlen_reshape']
+                data["text"] = data["text"][:, : (current_seqlen + 1)].contiguous()
+        elif "seqlen_reshape" in data_sampler_state_dict["current_difficulties"]:
+            args.data_efficiency_curriculum_learning_seqlen_type = "seqlen_reshape"
+            current_seqlen = data_sampler_state_dict["current_difficulties"][
+                "seqlen_reshape"
+            ]
             if current_seqlen < args.seq_length:
-                orig_num_token = torch.numel(data['text'])
-                reshape_len = (data['text'].size()[1] // (current_seqlen+1)) * (current_seqlen+1)
-                data['text'] = torch.cat((data['text'][:, :reshape_len].contiguous().view(-1, current_seqlen+1),
-                    data['text'][:, -(current_seqlen+1):]), 0).contiguous()
-                num_row = math.ceil(orig_num_token / (current_seqlen+1))
-                num_row = min(num_row, data['text'].size()[0])
+                orig_num_token = torch.numel(data["text"])
+                reshape_len = (data["text"].size()[1] // (current_seqlen + 1)) * (
+                    current_seqlen + 1
+                )
+                data["text"] = torch.cat(
+                    (
+                        data["text"][:, :reshape_len]
+                        .contiguous()
+                        .view(-1, current_seqlen + 1),
+                        data["text"][:, -(current_seqlen + 1) :],
+                    ),
+                    0,
+                ).contiguous()
+                num_row = math.ceil(orig_num_token / (current_seqlen + 1))
+                num_row = min(num_row, data["text"].size()[0])
                 if num_row > 1 and num_row % 2 != 0:
                     num_row -= 1
-                data['text'] = data['text'][:num_row, :].contiguous()
+                data["text"] = data["text"][:num_row, :].contiguous()
         else:
             args.data_efficiency_curriculum_learning_seqlen_type = None
     return data
@@ -251,48 +287,42 @@ def get_batch_pipe(data):
     """
     args = get_args()
     tokenizer = get_tokenizer()
-
+    assert args is not None
     # Items and their type.
-    keys = ['text']
+    keys = ["text"]
     datatype = torch.int64
-
     # Broadcast data.
     data_b = tensor_parallel.broadcast_data(keys, data, datatype)
-
     # Unpack.
-    tokens_ = data_b['text'].long()
+    tokens_ = data_b["text"].long()
     labels = tokens_[:, 1:].contiguous()
     tokens = tokens_[:, :-1].contiguous()
-
     # Get the masks and postition ids.
     attention_mask, loss_mask, position_ids = get_ltor_masks_and_position_ids(
         tokens,
         tokenizer.eod,
         args.reset_position_ids,
         args.reset_attention_mask,
-        args.eod_mask_loss)
-    if (
-                args.curriculum_learning_legacy
-                and args.curriculum_seqlen < tokens.size()[1]
-    ):
+        args.eod_mask_loss,
+    )
+    if args.curriculum_learning_legacy and args.curriculum_seqlen < tokens.size()[1]:
         # seqlen-based curriculum learning
         # tokens, position_ids, labels, loss_mask
         # have size [batch size, seqlen]
-        tokens = tokens[:, :args.curriculum_seqlen].contiguous()
-        position_ids = position_ids[:, :args.curriculum_seqlen].contiguous()
+        tokens = tokens[:, : args.curriculum_seqlen].contiguous()
+        position_ids = position_ids[:, : args.curriculum_seqlen].contiguous()
         if labels is not None:
-            labels = labels[:, :args.curriculum_seqlen].contiguous()
-        loss_mask = loss_mask[:, :args.curriculum_seqlen].contiguous()
-
+            labels = labels[:, : args.curriculum_seqlen].contiguous()
+        loss_mask = loss_mask[:, : args.curriculum_seqlen].contiguous()
     return (tokens, position_ids, attention_mask), (labels, loss_mask)
 
 
 def loss_func(loss_mask, moe_loss, mos_loss, output_tensor):
     args = get_args()
+    assert args is not None
     losses = output_tensor.float()
     loss_mask = loss_mask.view(-1).float()
     loss = torch.sum(losses.view(-1) * loss_mask) / loss_mask.sum()
-
     # Reduce loss for logging.
     averaged_loss = average_losses_across_data_parallel_group([loss])
     if args.mos or args.kd:
@@ -300,139 +330,106 @@ def loss_func(loss_mask, moe_loss, mos_loss, output_tensor):
         loss = loss + moe_loss + mos_loss
         if args.mos:
             return loss, {
-                'total loss': loss,
-                'lm loss': averaged_loss[0],
-                'moe loss': moe_loss,
-                'mos loss': mos_loss
+                "total loss": loss,
+                "lm loss": averaged_loss[0],
+                "moe loss": moe_loss,
+                "mos loss": mos_loss,
             }
         elif args.kd:
             return loss, {
-                'total loss': loss,
-                'lm loss': averaged_loss[0],
-                'moe loss': moe_loss,
-                'kd loss': mos_loss
+                "total loss": loss,
+                "lm loss": averaged_loss[0],
+                "moe loss": moe_loss,
+                "kd loss": mos_loss,
             }
-        print_rank_0(
-            f'>>> total loss: {loss}, '
-            f'lm loss {averaged_loss[0]}, '
-            f'kd loss {mos_loss}'
+        log.info(
+            f">>> total loss: {loss}, lm loss {averaged_loss[0]}, kd loss {mos_loss}"
         )
     else:
         if max(args.num_experts) <= 1:
-            return loss, {'lm loss': averaged_loss[0]}
+            return loss, {"lm loss": averaged_loss[0]}
         loss = loss + moe_loss
-        return loss, {'lm loss': averaged_loss[0], 'moe loss': moe_loss}
+        return loss, {"lm loss": averaged_loss[0], "moe loss": moe_loss}
 
 
 def calculate_mos_loss(
-        args,
-        stu_output,
-        teacher_model,
-        tokens,
-        position_ids,
-        attention_mask
+    args, stu_output, teacher_model, tokens, position_ids, attention_mask
 ):
     mos_loss = 0
     alpha = args.kd_alpha_ce
     beta = args.kd_beta_ce
     kd_temp = args.kd_temp
-
     if teacher_model:
         with torch.no_grad():
             if (
-                        args.curriculum_learning_legacy and
-                        args.curriculum_seqlen < args.seq_length
+                args.curriculum_learning_legacy
+                and args.curriculum_seqlen < args.seq_length
             ):
                 assert args.curriculum_seqlen is not None
                 curriculum_seqlen = args.curriculum_seqlen
                 tokens = tokens[:, :curriculum_seqlen].contiguous()
                 position_ids = position_ids[:, :curriculum_seqlen].contiguous()
                 csl = curriculum_seqlen
-                attention_mask = (
-                        attention_mask[:, :, :csl, :csl].contiguous()
-                )
+                attention_mask = attention_mask[:, :, :csl, :csl].contiguous()
                 # No need to truncate labels
                 # as we do not need it for the teacher logits
             tea_output, tea_other_losses = teacher_model(
-                tokens,
-                position_ids,
-                attention_mask
+                tokens, position_ids, attention_mask
             )
             assert stu_output.size() == tea_output.size(), (
-                    'teacher and student output should match in size. '
-                    f'Student: {stu_output.size()}, '
-                    f'Teacher: {tea_output.size()}, '
-                    f'CL seq length {args.curriculum_seqlen}'
+                "teacher and student output should match in size. "
+                f"Student: {stu_output.size()}, "
+                f"Teacher: {tea_output.size()}, "
+                f"CL seq length {args.curriculum_seqlen}"
             )
-
         student_logits = F.log_softmax(stu_output / kd_temp, dim=2)
         # The target logits is expected to be probabilities.
         # If we use log_softmax,
         # then we need to set target_log to true
         # when initializing the KLDivLoss.
         tea_logits = F.softmax(tea_output / kd_temp, dim=2)
-
-        mos_loss = kd_temp * kd_temp * nn.KLDivLoss(reduction='batchmean')(
-            student_logits,
-            tea_logits
+        mos_loss = (
+            kd_temp
+            * kd_temp
+            * nn.KLDivLoss(reduction="batchmean")(student_logits, tea_logits)
         )
-
         mos_loss = mos_loss.div(args.seq_length) * beta
     return mos_loss
 
 
-def forward_step(data_iterator, model):
+def forward_step(data_iterator, model) -> tuple[torch.Tensor | None, Callable]:
     """Forward step."""
     args = get_args()
     timers = get_timers()
-
+    assert args is not None
+    assert timers is not None
     # Get the batch.
-    timers('batch-generator', log_level=2).start()
-    tokens, labels, loss_mask, attention_mask, position_ids = get_batch(
-        data_iterator)
-    timers('batch-generator').stop()
-
+    timers("batch-generator", log_level=2).start()
+    tokens, labels, loss_mask, attention_mask, position_ids = get_batch(data_iterator)
+    timers("batch-generator").stop()
     if args.data_efficiency_curriculum_learning:
         args.curriculum_seqlen = tokens.size()[1]
-        if (
-                hasattr(
-                    args,
-                    'data_efficiency_curriculum_learning_seqlen_type')
-                and (
-                    args.data_efficiency_curriculum_learning_seqlen_type
-                    == 'seqlen_reshape'
-                )
+        if hasattr(args, "data_efficiency_curriculum_learning_seqlen_type") and (
+            args.data_efficiency_curriculum_learning_seqlen_type == "seqlen_reshape"
         ):
-            args.data_efficiency_curriculum_learning_numel = (
-                    torch.numel(tokens)
-            )
-
+            args.data_efficiency_curriculum_learning_numel = torch.numel(tokens)
+    stu_output = None
     if args.mos or args.kd:
         # The forward func can return either the loss or the logits,
         # depending on whether passing in the labels or not.
         stu_output, other_losses = model(tokens, position_ids, attention_mask)
-        if (
-                    args.curriculum_learning_legacy
-                    and args.curriculum_seqlen < args.seq_length
-        ):
+        if args.curriculum_learning_legacy and args.curriculum_seqlen < args.seq_length:
             assert args.curriculum_seqlen is not None
-            labels = labels[:, :args.curriculum_seqlen].contiguous()
+            labels = labels[:, : args.curriculum_seqlen].contiguous()
         output_tensor = tensor_parallel.vocab_parallel_cross_entropy(
-            stu_output.contiguous().float(),
-            labels
+            stu_output.contiguous().float(), labels
         )
     else:
         output_tensor, other_losses = model(
-            tokens,
-            position_ids,
-            attention_mask,
-            labels=labels
+            tokens, position_ids, attention_mask, labels=labels
         )
-    if (
-                args.curriculum_learning_legacy and
-                args.curriculum_seqlen < args.seq_length
-    ):
-        loss_mask = loss_mask[:, :args.curriculum_seqlen].contiguous()
+    if args.curriculum_learning_legacy and args.curriculum_seqlen < args.seq_length:
+        loss_mask = loss_mask[:, : args.curriculum_seqlen].contiguous()
 
     moe_losses = []
     for moe_loss in other_losses:
@@ -450,7 +447,7 @@ def forward_step(data_iterator, model):
                 args.teacher_model[0],
                 tokens,
                 position_ids,
-                attention_mask
+                attention_mask,
             )
 
     # Output_tensor stores the standard loss,
@@ -458,28 +455,50 @@ def forward_step(data_iterator, model):
     return output_tensor, partial(loss_func, loss_mask, moe_loss, mos_loss)
 
 
+@ezpz.timeitlogit(rank=RANK)
 def train_valid_test_datasets_provider(train_val_test_num_samples):
     """Build train, valid, and test datasets."""
+    t0 = time.perf_counter()
     args = get_args()
-
-    print_rank_0('> building train, validation, and test datasets '
-                 'for GPT ...')
+    assert args is not None
+    # from ezpz.profile import get_context_manager
+    # cm = get_context_manager(rank=RANK, outdir=args.save)
+    # with cm:
+    log.info("> building train, validation, and test datasets for GPT ...")
     files = []
     if args.data_file_list is not None:
-        with open(args.data_file_list, 'r') as flist:
+        log.info(f"Reading datasets from {args.data_file_list}")
+        # [!NOTE]:
+        # - We expect each line of args.data_file_list to be of the form:
+        #       `weight /path/tp/data_text_document corpus`
+        #   where:
+        #     - `weight` is the relative weight of that document
+        #        across all documents (i.e. lines in `args.data_file_list`)
+        #     - `/path/to/data_text_document` is the path to the text document
+        #     - `corpus` is the corpus (~ source, can be made up) where that
+        #        document came from (i.e. `books`, `arxiv`, etc.)
+        with open(args.data_file_list, "r") as flist:
             for f in flist.readlines():
-                w, fname = f.split()
-                files.append(float(w))
-                files.append(fname)
+                if len(f.strip()) != 0:
+                    try:
+                        w, fname, c = f.split()
+                    except Exception as exc:
+                        log.exception(exc)
+                        raise Exception(
+                            "Please provide the file list as 'weight, filename, corpus'"
+                        )
+                    if fname.find(".bin") != -1:
+                        fname = fname.split(".bin")[0]
+                    files.extend([float(w), fname, c])  # weight  # filename  # corpus
     elif len(args.data_path) == 1 and os.path.isdir(args.data_path[0]):
         path = args.data_path[0] + "/"
         for f in os.listdir(path):
-            if (os.path.isfile(path + f) and f.find(".bin") != -1):
+            if os.path.isfile(path + f) and f.find(".bin") != -1:
                 files.append(1)
                 files.append(path + f.split(".bin")[0])
     else:
         files = args.data_path
-    print_rank_0(f"file list {files}")
+
     train_ds, valid_ds, test_ds = build_train_valid_test_datasets(
         data_prefix=files,
         data_impl=args.data_impl,
@@ -487,23 +506,19 @@ def train_valid_test_datasets_provider(train_val_test_num_samples):
         train_valid_test_num_samples=train_val_test_num_samples,
         seq_length=args.seq_length,
         seed=args.seed,
-        skip_warmup=True,
-        # skip_warmup=(not args.mmap_warmup),
+        skip_warmup=(not args.mmap_warmup),
         train_data_prefix=args.train_data_path,
         valid_data_prefix=args.valid_data_path,
         test_data_prefix=args.test_data_path,
-        data_cache_path=args.data_cache_path)
-    print_rank_0("> finished creating GPT datasets ...")
-
+        data_cache_path=args.data_cache_path,
+    )
+    dt = time.perf_counter_ns() - t0
+    log.info(f"> finished creating GPT datasets. Took: {dt:.5f}s")
     return train_ds, valid_ds, test_ds
 
 
 def command_exists(cmd):
-    result = subprocess.Popen(
-        f'type {cmd}',
-        stdout=subprocess.PIPE,
-        shell=True
-    )
+    result = subprocess.Popen(f"type {cmd}", stdout=subprocess.PIPE, shell=True)
     return result.wait() == 0
 
 
@@ -511,17 +526,18 @@ def git_ds_info():
     if RANK != 0:
         return
     from deepspeed.env_report import main as ds_report
+
     ds_report()
 
     # Write out version/git info
     git_hash_cmd = "git rev-parse --short HEAD"
     git_branch_cmd = "git rev-parse --abbrev-ref HEAD"
-    if command_exists('git'):
+    if command_exists("git"):
         try:
             result = subprocess.check_output(git_hash_cmd, shell=True)
-            git_hash = result.decode('utf-8').strip()
+            git_hash = result.decode("utf-8").strip()
             result = subprocess.check_output(git_branch_cmd, shell=True)
-            git_branch = result.decode('utf-8').strip()
+            git_branch = result.decode("utf-8").strip()
         except subprocess.CalledProcessError:
             git_hash = "unknown"
             git_branch = "unknown"
@@ -529,36 +545,68 @@ def git_ds_info():
         git_hash = "unknown"
         git_branch = "unknown"
     print(
-        f'**** Git info for Megatron: '
-        f'git_hash={git_hash} git_branch={git_branch} ****'
+        f"**** Git info for Megatron: git_hash={git_hash} git_branch={git_branch} ****"
     )
 
 
 def main():
-    # if RANK == 0:
-    #     setup_wandb()
-    if os.getenv('TORCH_PROFILER_ENABLED') == '1':
-        from torch.profiler import profile, record_function, ProfilerActivity
-        with profile(activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA]) as prof:
+    if os.getenv("TORCH_PROFILER_ENABLE") == "1":
+        #  record_function
+        from torch.profiler import profile, ProfilerActivity
+
+        try:
+            activities = [
+                ProfilerActivity.CPU,
+                ProfilerActivity.CUDA,
+                ProfilerActivity.XPU,
+            ]
+        except Exception as exc:
+            log.exception(exc)
+            log.warning("TORCH PROFILER WARNING: XPU is not supported")
+            activities = [ProfilerActivity.CPU, ProfilerActivity.CUDA]
+        with profile(activities=activities) as prof:
             model = pretrain(
                 train_valid_test_datasets_provider,
                 model_provider,
                 ModelType.encoder_or_decoder,
                 forward_step,
-                args_defaults={'tokenizer_type': 'GPT2BPETokenizer'},
-                data_post_process=data_post_process
+                # args_defaults={'tokenizer_type': 'GPT2BPETokenizer'},
+                data_post_process=data_post_process,
             )
-
-        prof.export_chrome_trace(f"{args.tensorboard_dir}/torch-trace-{RANK}-of-{WORLD_SIZE}.json")
+        args = get_args()
+        assert args is not None
+        prof.export_chrome_trace(
+            f"{args.trace_dir}/torch-trace-{RANK}-of-{WORLD_SIZE}.json"
+        )
     else:
         model = pretrain(
             train_valid_test_datasets_provider,
             model_provider,
             ModelType.encoder_or_decoder,
             forward_step,
-            args_defaults={'tokenizer_type': 'GPT2BPETokenizer'},
-            data_post_process=data_post_process
+            # args_defaults={'tokenizer_type': 'GPT2BPETokenizer'},
+            data_post_process=data_post_process,
         )
+    # try:
+    #     from megatron.text_generation import generate_and_post_process
+    #     with torch.autocast(device_type=DEVICE, dtype=args.dtype):
+    #         response, _, _, _ = generate_and_post_process(
+    #             model,
+    #             prompts=[
+    #                 "Hello world",
+    #                 "Nature is",
+    #                 "Turing test comprises",
+    #                 "Explain solar eclipse"
+    #             ],
+    #             tokens_to_generate=32
+    #         )
+    #     if RANK == 0:
+    #         log.info(f'generation completed..\n response:{response}')
+    # except ValueError as ve:
+    #     log.critical(f'ValueError: {ve}')
+    #     pass
+    # dist.barrier()
+    # model.train()
     return model
 
 
@@ -572,10 +620,11 @@ def main():
     #          data_post_process=data_post_process)
     import sys
     import deepspeed.comm as dist
+
     model = main()
     dist.log_summary()
-    if wandb.run is not None:
+    if wandb is not None and wandb.run is not None:
         print(f"wandb.run.name: {wandb.run.name}")
         print(f"wandb.run.url: {wandb.run.url}")
         wandb.finish()
-    sys.exit()
+    sys.exit(0)
diff --git a/test_agptllama.py b/test_agptllama.py
new file mode 100644
index 00000000000..e1d207fa278
--- /dev/null
+++ b/test_agptllama.py
@@ -0,0 +1,34 @@
+import torch
+import intel_extension_for_pytorch as ipex
+from transformers import GPT2Tokenizer, AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, LlamaTokenizer, LlamaForCausalLM
+def batch_encode(prompts, tokenizer, prompt_len=512):
+        input_tokens = tokenizer.batch_encode_plus(prompts, return_tensors="pt", padding="max_length", max_length=len(prompts))
+        for t in input_tokens:
+            if torch.is_tensor(input_tokens[t]):
+                input_tokens[t] = input_tokens[t].to("xpu")
+                #input_tokens[t] = input_tokens[t].to(torch.cuda.current_device())
+        return input_tokens
+
+
+def generate_prompt(model, tokenizer, prompts):
+    
+    input_tokens = batch_encode(prompts, tokenizer)
+    print(input_tokens)
+    generate_kwargs = dict(max_new_tokens=30, do_sample=False)
+    output_ids = model.generate(**input_tokens, **generate_kwargs)
+    print(output_ids)
+    outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+
+    return outputs
+
+if __name__ == '__main__':
+     
+    model = LlamaForCausalLM.from_pretrained("/flare/Aurora_deployment/vsastry/hf_new_cp/") 
+    model.to("xpu") # model.cuda()
+    model.seqlen = 4096
+    
+    # get llama tokenizer
+    tokenizer = LlamaTokenizer.from_pretrained("/flare/Aurora_deployment/AuroraGPT/datasets/dolma/utils/tokenizer.model") 
+    tokenizer.pad_token = tokenizer.eos_token
+    output = generate_prompt(model, tokenizer, prompts=["What is the language spoken in Mexico ?"])
+    print(output)
diff --git a/tests/models/test_gpt_embedding.py b/tests/models/test_gpt_embedding.py
index 700990adc2b..199f29dede5 100644
--- a/tests/models/test_gpt_embedding.py
+++ b/tests/models/test_gpt_embedding.py
@@ -1,15 +1,22 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
 
 import pytest
 
 import torch
+import types
 
 from megatron.core.transformer.transformer_config import TransformerConfig
 from megatron.core.models.gpt.gpt_embedding import GPTEmbedding
+from megatron.global_vars import set_args
 
+from deepspeed.accelerator import get_accelerator
+device_name = get_accelerator().device_name()
 
 @pytest.fixture
 def gpt_embedding(transformer_config):
+    args = types.SimpleNamespace(params_dtype=torch.float32, embed_layernorm=False)
+    set_args(args)
     embedding = GPTEmbedding(config=transformer_config, vocab_size=100, max_sequence_length=4)
     return embedding
 
@@ -36,12 +43,12 @@ def test_cpu_forward(self, gpt_embedding: GPTEmbedding):
         assert embeddings.shape[1] == input_ids.shape[0]
         assert embeddings.shape[2] == gpt_embedding.config.hidden_size
 
-    def test_gpu_forward(self, gpt_embedding: GPTEmbedding):
-        gpt_embedding.cuda()
-        input_ids = torch.tensor([0, 1, 2, 3], dtype=torch.int64).repeat((2, 1)).cuda()
-        position_ids = torch.tensor([0, 1, 2, 3], dtype=torch.int64).repeat((2, 1)).cuda()
+    def test_accelerator_forward(self, gpt_embedding: GPTEmbedding):
+        gpt_embedding.to(device_name)
+        input_ids = torch.tensor([0, 1, 2, 3], dtype=torch.int64).repeat((2, 1)).to(device_name)
+        position_ids = torch.tensor([0, 1, 2, 3], dtype=torch.int64).repeat((2, 1)).to(device_name)
         embeddings = gpt_embedding(input_ids, position_ids)
-        assert embeddings.device.type == 'cuda'
+        assert embeddings.device.type == device_name
         assert embeddings.shape[0] == gpt_embedding.max_sequence_length
         assert embeddings.shape[1] == input_ids.shape[0]
         assert embeddings.shape[2] == gpt_embedding.config.hidden_size
diff --git a/tests/models/test_gpt_model.py b/tests/models/test_gpt_model.py
index b854ecd918a..cf322908b3d 100644
--- a/tests/models/test_gpt_model.py
+++ b/tests/models/test_gpt_model.py
@@ -1,20 +1,28 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
 
 import pytest
 
 import torch
+import types
 
 from megatron.core.transformer.transformer_config import TransformerConfig
 from megatron.core.models.gpt.gpt_model import GPTModel
+from megatron.global_vars import set_args
 
+from deepspeed.accelerator import get_accelerator
+device_name = get_accelerator().device_name()
 
 @pytest.fixture
 def gpt_model(transformer_config):
+    args = types.SimpleNamespace(params_dtype=torch.float32, embed_layernorm=False)
+    set_args(args)
     language_model = GPTModel(config=transformer_config, vocab_size=100, max_sequence_length=4)
     return language_model
 
 
 class TestGPTModel:
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_constructor(self, gpt_model: GPTModel):
         assert isinstance(gpt_model, GPTModel)
 
@@ -23,6 +31,7 @@ def test_constructor(self, gpt_model: GPTModel):
         num_weights = sum([p.numel() for p in gpt_model.parameters()])
         assert num_weights == 5040
 
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_set_input_tensor(self, gpt_model: GPTModel):
         config: TransformerConfig = gpt_model.config
         sequence_length = gpt_model.max_sequence_length
@@ -37,17 +46,18 @@ def test_set_input_tensor(self, gpt_model: GPTModel):
         assert gpt_model.decoder.input_tensor.shape[1] == micro_batch_size
         assert gpt_model.decoder.input_tensor.shape[2] == config.hidden_size
 
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_post_process_forward(self, gpt_model: GPTModel):
         config: TransformerConfig = gpt_model.config
         sequence_length = gpt_model.max_sequence_length
         micro_batch_size = 2
 
-        gpt_model.cuda()
+        gpt_model.to(device_name)
 
         data = list(range(sequence_length))
-        input_ids = torch.tensor(data, dtype=torch.int64).repeat((micro_batch_size, 1)).cuda()
-        position_ids = torch.tensor(data, dtype=torch.int64).repeat((micro_batch_size, 1)).cuda()
-        attention_mask = torch.ones((1, 1, sequence_length, sequence_length), dtype=bool).cuda()
+        input_ids = torch.tensor(data, dtype=torch.int64).repeat((micro_batch_size, 1)).to(device_name)
+        position_ids = torch.tensor(data, dtype=torch.int64).repeat((micro_batch_size, 1)).to(device_name)
+        attention_mask = torch.ones((1, 1, sequence_length, sequence_length), dtype=bool).to(device_name)
 
         logits = gpt_model.forward(input_ids=input_ids, position_ids=position_ids, attention_mask=attention_mask)
 
@@ -55,15 +65,19 @@ def test_post_process_forward(self, gpt_model: GPTModel):
         assert logits.shape[1] == sequence_length
         assert logits.shape[2] == gpt_model.vocab_size
 
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_no_post_process_forward(self, gpt_model: GPTModel):
         pass
 
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_no_preprocess_forward(self, gpt_model: GPTModel):
         pass
 
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_state_dict_for_save_checkpoint(self, gpt_model: GPTModel):
         pass
 
+    @pytest.mark.xfail(device_name=='hpu', reason="TELayerNorm is not defined in HPU")
     def test_load_state_dict(self, gpt_model: GPTModel):
         pass
 
diff --git a/tests/pipeline_parallel/test_schedules.py b/tests/pipeline_parallel/test_schedules.py
index a6bac5b2a31..72c2372ba47 100644
--- a/tests/pipeline_parallel/test_schedules.py
+++ b/tests/pipeline_parallel/test_schedules.py
@@ -1,3 +1,5 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
+
 import torch
 from tests.test_utilities import Utils
 from megatron.core import ModelParallelConfig
@@ -21,7 +23,9 @@ def test_get_forward_backward_func():
 def test_deallocate_output_tensor():
     out = torch.tensor([[1, 2, 3], [4, 5, 6]])
     schedule.deallocate_output_tensor(out)
-    assert(out.nelement() == 1) 
+    assert(out.nelement() == 6)
+    schedule.deallocate_output_tensor(out, True)
+    assert(out.nelement() == 1)
 
 def test_forward_backward_func_without_pipeline_parallel(mocker):
     from megatron.core.pipeline_parallel import get_forward_backward_func
diff --git a/tests/transformer/test_parallel_mlp.py b/tests/transformer/test_parallel_mlp.py
index f43dc0b4678..098f18a9d64 100644
--- a/tests/transformer/test_parallel_mlp.py
+++ b/tests/transformer/test_parallel_mlp.py
@@ -1,14 +1,30 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
 
 import pytest
 
 import torch
+import types
 
 from megatron.core.transformer.parallel_mlp import ParallelMLP
+from megatron.global_vars import set_args
 
+from deepspeed.accelerator import get_accelerator
+device_name = get_accelerator().device_name()
 
 @pytest.fixture
 def mlp(transformer_config):
+    mlp_args = types.SimpleNamespace(
+        swiglu=False,
+        openai_gelu=True,
+        onnx_safe=False,
+        bias_gelu_fusion=False,
+        transformer_impl="",
+        cache_fp8_weight=False,
+        fp8_interval=False,
+        cache_fp8_weight_fwd=False
+    )
+    set_args(mlp_args)
     return ParallelMLP(transformer_config)
 
 
@@ -19,28 +35,27 @@ def test_constructor(self, mlp):
         num_weights = sum([p.numel() for p in mlp.parameters()])
         assert num_weights == 1212
 
-    def test_cpu_forward(self, mlp):
+    def test_cpu_forward(self, mlp, transformer_config):
         # [sequence length, micro batch size, hidden size]
-        hidden_states = torch.ones((32, 2, mlp.config.hidden_size))
+        hidden_states = torch.ones((32, 2, transformer_config.hidden_size))
         output, output_bias = mlp(hidden_states)
         assert output.shape[0] == 32
         assert output.shape[1] == 2
-        assert output.shape[2] == mlp.config.hidden_size
-        assert output_bias.shape[0] == mlp.config.hidden_size
+        assert output.shape[2] == transformer_config.hidden_size
+        assert output_bias == None
         assert output.dtype == torch.float32
 
-    @pytest.mark.skipif(not torch.cuda.is_available(), reason="CUDA not available")
-    def test_gpu_forward(self, mlp):
-        mlp.cuda()
+    @pytest.mark.skipif(not get_accelerator().is_available(), reason="accelerator not available")
+    def test_accelerator_forward(self, mlp, transformer_config):
+        mlp.to(device_name)
         # [sequence length, batch size, hidden size]
-        hidden_states = torch.ones((32, 2, mlp.config.hidden_size))
-        hidden_states = hidden_states.cuda()
+        hidden_states = torch.ones((32, 2, transformer_config.hidden_size))
+        hidden_states = hidden_states.to(device_name)
         output, output_bias = mlp(hidden_states)
         assert output.shape[0] == 32
         assert output.shape[1] == 2
-        assert output.shape[2] == mlp.config.hidden_size
-        assert output_bias.shape[0] == mlp.config.hidden_size
+        assert output.shape[2] == transformer_config.hidden_size
+        assert output_bias == None
         assert output.dtype == torch.float32
-        assert output.device.type == 'cuda'
-        assert output_bias.device.type == 'cuda'
+        assert output.device.type == device_name
 
diff --git a/tests/unit_tests/test_utilities.py b/tests/unit_tests/test_utilities.py
index b35c77b58d2..68c6e6b55c5 100644
--- a/tests/unit_tests/test_utilities.py
+++ b/tests/unit_tests/test_utilities.py
@@ -1,21 +1,25 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
+
 import os
 import torch
 import megatron.core.parallel_state as ps
 
+from deepspeed.accelerator import get_accelerator
+
 class Utils:
 
-    world_size = torch.cuda.device_count()
-    rank = int(os.environ['LOCAL_RANK'])
+    world_size = int(os.getenv("WORLD_SIZE", '1'))
+    rank = int(os.getenv('LOCAL_RANK', '0'))
 
     @staticmethod
     def initialize_distributed():
         print(f'Initializing torch.distributed with rank: {Utils.rank}, world_size: {Utils.world_size}')
-        torch.cuda.set_device(Utils.rank % torch.cuda.device_count())
+        get_accelerator().set_device(Utils.rank % get_accelerator().device_count())
         init_method = 'tcp://'
         master_ip = os.getenv('MASTER_ADDR', 'localhost')
         master_port = os.getenv('MASTER_PORT', '6000')
         init_method += master_ip + ':' + master_port
-        torch.distributed.init_process_group(backend='nccl', world_size=Utils.world_size, rank=Utils.rank, init_method=init_method)
+        torch.distributed.init_process_group(backend=get_accelerator().communication_backend_name(), world_size=Utils.world_size, rank=Utils.rank, init_method=init_method)
         
     @staticmethod
     def destroy_model_parallel():
@@ -23,8 +27,8 @@ def destroy_model_parallel():
         torch.distributed.barrier()
 
     @staticmethod
-    def initialize_model_parallel(tensor_model_parallel_size = 1, pipeline_model_parallel_size = 1, virtual_pipeline_model_parallel_size = None, pipeline_model_parallel_split_rank = None):
+    def initialize_model_parallel(tensor_model_parallel_size = 1, pipeline_model_parallel_size = 1, sequence_parallel_size = 1, virtual_pipeline_model_parallel_size = None, pipeline_model_parallel_split_rank = None):
         ps.destroy_model_parallel()
         if not torch.distributed.is_initialized():
             Utils.initialize_distributed()
-        ps.initialize_model_parallel(tensor_model_parallel_size, pipeline_model_parallel_size, virtual_pipeline_model_parallel_size, pipeline_model_parallel_split_rank)
\ No newline at end of file
+        ps.initialize_model_parallel(tensor_model_parallel_size, pipeline_model_parallel_size, sequence_parallel_size, virtual_pipeline_model_parallel_size, pipeline_model_parallel_split_rank)
\ No newline at end of file
diff --git a/tools/cooldown_generator/README.md b/tools/cooldown_generator/README.md
new file mode 100644
index 00000000000..e78ba361470
--- /dev/null
+++ b/tools/cooldown_generator/README.md
@@ -0,0 +1,325 @@
+# `make_cooldown_cmds.py`
+
+Generate **ready-to-run** Megatron-DeepSpeed commands to *cool down* a training run **starting exactly at a given checkpoint iteration**.
+
+Given:
+
+* a checkpoint iteration **S** (the `global_step` you resume from), and
+* a cooldown length **R** (steps to spend decaying LR),
+
+the script emits commands that set:
+
+* `TRAIN_ITERS = T = S + R`
+* `--lr_constant_plus_cooldown_frac = f = S / T`
+
+So the **constant LR** phase ends at the resume step, and the **cooldown** covers the remaining `R` steps.
+
+---
+
+## What it prints
+
+For each `(S, R)` pair, the script prints a small annotated block:
+
+```
+# id=<ID> resume_step=<S> cooldown_steps=<R> total_iters=<T> frac=<f>
+LR_DECAY_STYLE=constant \
+OPT=ipex.fusedlamb \
+OVERRIDE_CKPT_OPT_PARAM=1 \
+TRAIN_ITERS=<T> \
+GRAD_ACC_STEPS=2 \
+LOAD=<...> \
+DATA_FILE_LIST=<...> \
+bash train_alcf.sh \
+  --override-opt_param-scheduler \
+  --min-lr=2e-5 \
+  --lr_constant_plus_cooldown \
+  --lr_constant_plus_cooldown_frac=<f> \
+  [any extra args...]
+```
+
+You can copy/paste the printed commands, or write all of them to a single `.sh` via `--emit-sh`.
+
+---
+
+## Requirements
+
+* Python 3.7+
+* Your training wrapper (default: `train_alcf.sh`) accepts the same environment variables/flags as shown above.
+* The checkpoint parent directory (`--load`) is the path you normally pass to Megatron/DeepSpeed for resuming.
+
+---
+
+## Basic usage
+
+### Single checkpoint, single cooldown
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/olmo-mix-1124.txt \
+  -S 72500 \
+  -R 2000
+```
+
+### Multiple checkpoints, one cooldown value
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/olmo-mix-1124.txt \
+  -S 12900 32800 52650 72500 \
+  -R 2000
+```
+
+### Multiple checkpoints × multiple cooldowns (grid)
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+  -S 92400 112250 132150 \
+  -R 1000 2000 5000 \
+  --emit-sh cooldown_grid.sh
+# => prints to stdout and writes all commands to cooldown_grid.sh
+```
+
+### Using explicit ID tags (optional)
+
+IDs label the comment header above each command; they’re handy for grouping in dashboards or logs.
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/olmo-mix-1124.txt \
+  --checkpoint-ids 1 2 3 4 \
+  -S 12900 32800 52650 72500 \
+  -R 2000
+```
+
+### Using `--pairs` (compact)
+
+`--pairs` accepts `S:R` or `id:S:R` entries; when `id:` is omitted, IDs auto-increment.
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+  --pairs 92400:2000 112250:5000 7:132150:2000
+```
+
+---
+
+## Common flags
+
+* `--load` *(required)*: Parent directory that contains `global_stepXXXXX/` checkpoints.
+* `--data-file-list` *(required)*: The data list file your wrapper expects.
+* `--train-script` (default: `train_alcf.sh`)
+* `--grad-acc-steps` (default: `2`)
+* `--opt` (default: `ipex.fusedlamb`)
+* `--min-lr` (default: `2e-5`)
+* `--no-override-ckpt-opt` (use if you **do not** want `OVERRIDE_CKPT_OPT_PARAM=1`)
+* `--extra-args "..."` (anything you want appended to the train command; e.g., W&B tags)
+* `--emit-sh <path>` (write all printed commands to a runnable shell script)
+
+---
+
+## Why this formulation?
+
+Megatron-DeepSpeed’s constant-plus-cooldown helper treats `--lr_constant_plus_cooldown_frac=f` as the fraction of **total** training reserved for the constant phase. By setting:
+
+* `T = S + R` and `f = S/T`,
+  we guarantee the **cooldown starts exactly at resume** and lasts `R` steps—no ambiguity about “10% of total vs. remaining.”
+
+---
+
+## Quick sanity checks
+
+* If you resume at **S** and choose **R=2000**, you should see:
+
+  * `TRAIN_ITERS = S + 2000`
+  * `lr_constant_plus_cooldown_frac ≈ S / (S + 2000)`
+    (It will be a high fraction like `0.98…` if you resume late.)
+
+* If you accidentally swap the meanings (e.g., set `f=0.9` without adjusting `T`), you’ll be scheduling “last 10% of **total** job” rather than “R steps after resume.” This script avoids that pitfall.
+
+---
+
+## Examples with real numbers
+
+Assume:
+
+* tokens/step = `8192 * 6144 = 50,331,648`
+* 5% rollback from final ~7T run corresponds to ≈ *~7k steps* earlier.
+
+**ID 5** (≈ 5T tokens): `S=92400`, `R=2000`
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+  --pairs 5:92400:2000
+```
+
+**ID 5 rollback**: `S=~(92400 - ~7000) ≈ 85400` (rounded per your table)
+
+```bash
+./make_cooldown_cmds.py \
+  --load /proj/checkpoints_parent \
+  --data-file-list ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+  --pairs 5:85400:2000
+```
+
+---
+
+## Troubleshooting
+
+* **“Provide either --pairs OR both --checkpoint-iters and --cooldown-steps.”**
+  You must supply `(S, R)` pairs. Use `--pairs` *or* `-S ... -R ...`.
+
+* **Nothing about the data list changes across IDs.**
+  This script is intentionally **generic**. If your data list changes by phase/ID, handle that in a wrapper (e.g., `run_cooldown_per_id_split.sh`) and pass the correct `--data-file-list` for each call.
+
+* **Scheduler doesn’t seem to take effect.**
+  Ensure `--override-opt_param-scheduler` is present (it is) and `OVERRIDE_CKPT_OPT_PARAM=1` isn’t disabled unless you need to.
+
+---
+
+# Cooldown Wrapper Scripts
+
+These helper scripts automate checkpoint enumeration and cooldown‐command generation using the generic [`make_cooldown_cmds.py`](./make_cooldown_cmds.py).
+
+---
+
+## 1. `build_checkpoints_from_tokens.py`
+
+### Purpose
+
+Converts **token milestones** (0 T → 7 T) into **training iterations** and computes a “rollback” checkpoint offset by a percentage of the final total run.
+
+### How it works
+
+1. Each iteration processes `8192 × 6144 = 50 331 648 tokens`.
+2. For every integer trillion token milestone (1 T → 7 T) it computes:
+
+   * `steps_mod` = rounded step count at that token milestone
+   * `steps_rollback` = `steps_mod – (cooldown_percent × final_steps)`
+     (rounded to nearest multiple of `--round`)
+3. Writes a tab-separated file:
+
+```
+id    steps_mod    steps_rollback
+1     12900        12900
+2     32800        32800
+...
+7     132150       132150
+```
+
+### CLI
+
+```bash
+python build_checkpoints_from_tokens.py \
+  --ttokens 8 \
+  --tokens-per-step $((8192*6144)) \
+  --cooldown-percent 0.05 \
+  --round 50 \
+  --out checkpoints.tsv
+```
+
+**Arguments**
+
+| Flag                 | Default           | Description                                       |
+| -------------------- | ----------------- | ------------------------------------------------- |
+| `--ttokens`          | `8`               | Number of trillion-token milestones (0..N).       |
+| `--tokens-per-step`  | `8192*6144`       | Tokens processed per optimizer step.              |
+| `--cooldown-percent` | `0.05`            | Fraction of final total used for rollback offset. |
+| `--round`            | `50`              | Round step counts to nearest N.                   |
+| `--out`              | `checkpoints.tsv` | Output TSV file.                                  |
+
+### Output
+
+Creates `checkpoints.tsv` for use by the generator script.
+
+---
+
+## 2. `gen_cooldown_sweep.sh`
+
+### Purpose
+
+Automates cooldown job generation:
+
+* Reads `checkpoints.tsv` from the step builder.
+* Creates **one `.sh` per checkpoint ID** for both *exact* and *rollback* resume points.
+* Uses phase-based data lists:
+
+  * IDs 1–4 → `olmo-mix-1124.txt`
+  * IDs 5–7 → `aurora/dolmino-mix-1124-fused-file-list.txt`
+
+### What it produces
+
+```
+cooldown_out/
+  cooldown_id1_exact.sh
+  cooldown_id1_rollback.sh
+  cooldown_id2_exact.sh
+  ...
+  cooldown_id7_exact.sh
+  cooldown_id7_rollback.sh
+```
+
+Each file contains **one** fully-formed Megatron command block generated via `make_cooldown_cmds.py`.
+
+### CLI
+
+```bash
+./gen_cooldown_sweep.sh \
+  --load /proj/checkpoints_parent \
+  --cool-R 2000 \
+  --emit-dir ./cooldown_out \
+  --phase1-list ALCF/data-lists/olmo-mix-1124.txt \
+  --phase2-list ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+  --train-script train_alcf.sh \
+  --extra-args "--wandb-tag cooldown --wandb-note sweep_remaining"
+```
+
+### Key options
+
+| Flag                                                              | Meaning                                                        |
+| ----------------------------------------------------------------- | -------------------------------------------------------------- |
+| `--load`                                                          | Parent directory containing checkpoints (`global_stepXXXXX/`). |
+| `--cool-R`                                                        | Cooldown length in steps (`R`).                                |
+| `--emit-dir`                                                      | Output directory for generated scripts.                        |
+| `--phase1-list`, `--phase2-list`                                  | Data lists for phase 1 (IDs 1–4) and phase 2 (IDs 5–7).        |
+| `--train-script`                                                  | Training wrapper (`train_alcf.sh` by default).                 |
+| `--extra-args`                                                    | Extra flags to append (e.g. W&B tags).                         |
+| `--tokens-per-step`, `--ttokens`, `--cooldown-percent`, `--round` | Passed to `build_checkpoints_from_tokens.py`.                  |
+| `--python`                                                        | Python interpreter (default: `python`).                        |
+
+### Output behavior
+
+* Calls `build_checkpoints_from_tokens.py` internally.
+* For each ID:
+
+  * Uses the proper data list by phase.
+  * Generates `cooldown_id<ID>_exact.sh` (always) and `cooldown_id<ID>_rollback.sh` (if rollback > 0).
+* Each script is executable and self-contained.
+
+---
+
+### Typical workflow
+
+1. **Enumerate checkpoints**
+
+   ```bash
+   python build_checkpoints_from_tokens.py --out checkpoints.tsv
+   ```
+2. **Generate per-checkpoint cooldown scripts**
+
+   ```bash
+   ./gen_cooldown_sweep.sh --load /proj/checkpoints_parent --cool-R 2000
+   ```
+3. **Submit or batch-run** any of the emitted scripts on your training cluster.
+
+---
+
+These two wrappers + [`make_cooldown_cmds.py`](./make_cooldown_cmds.py) together form a reproducible, parameterized pipeline for generating and managing cooldown experiments from multi-trillion-token Megatron-DeepSpeed runs.
+
diff --git a/tools/cooldown_generator/build_checkpoints_from_tokens.py b/tools/cooldown_generator/build_checkpoints_from_tokens.py
new file mode 100755
index 00000000000..0bcd040099d
--- /dev/null
+++ b/tools/cooldown_generator/build_checkpoints_from_tokens.py
@@ -0,0 +1,46 @@
+#!/usr/bin/env python3
+"""
+Compute training iterations (steps) for checkpoints at 1..(ttokens-1) Trillion tokens
+and their "rollback" checkpoints offset by a cooldown percentage of the FINAL total.
+
+Output TSV columns:
+  id\tsteps_mod\tsteps_rollback
+
+Where:
+  steps_mod       = rounded steps at exactly i*T tokens
+  steps_rollback  = rounded steps at (steps_mod - cooldown_iters) using cooldown_iters=percent*steps_at_(ttokens-1)
+"""
+import argparse
+
+def main():
+    p = argparse.ArgumentParser()
+    p.add_argument("--ttokens", type=int, default=8, help="Total token milestones (default: 8 for 0..7T).")
+    p.add_argument("--tokens-per-step", type=int, default=8192*6144, help="Tokens per optimizer step (default: 8192*6144).")
+    p.add_argument("--cooldown-percent", type=float, default=0.05, help="Percent of final run used for rollback offset (default: 0.05).")
+    p.add_argument("--round", type=int, default=50, help="Round steps to nearest N (default: 50).")
+    p.add_argument("--out", type=str, default="checkpoints.tsv", help="Output TSV path (default: checkpoints.tsv).")
+    args = p.parse_args()
+
+    ttokens = args.ttokens
+    tps = args.tokens_per_step
+    r = args.round
+    c = args.cooldown_percent
+
+    # Steps at each i*T (i in 0..ttokens-1)
+    runs = {i: (i * 10**12) / tps for i in range(ttokens)}
+    runs_mod = {k: int(round(v / r) * r) for k, v in runs.items()}
+
+    # <cooldown_percent>% of the FINAL (ttokens-1) step count, then rounded rollback
+    cooldown_iters = int(c * runs_mod[ttokens - 1])
+    runs_rollback = {k: int(round((v - cooldown_iters) / r) * r) for k, v in runs_mod.items()}
+
+    with open(args.out, "w") as f:
+        f.write("id\tsteps_mod\tsteps_rollback\n")
+        for k in range(1, ttokens):   # emit 1..(ttokens-1)
+            f.write(f"{k}\t{runs_mod[k]}\t{runs_rollback[k]}\n")
+
+    print(f"Wrote TSV to {args.out}")
+
+if __name__ == "__main__":
+    main()
+
diff --git a/tools/cooldown_generator/gen_cooldown_sweep.sh b/tools/cooldown_generator/gen_cooldown_sweep.sh
new file mode 100755
index 00000000000..7066f976954
--- /dev/null
+++ b/tools/cooldown_generator/gen_cooldown_sweep.sh
@@ -0,0 +1,130 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# Emit ONE command per file:
+#   cooldown_id<N>_exact.sh
+#   cooldown_id<N>_rollback.sh   (only if rollback > 0)
+#
+# ID -> data list mapping:
+#   IDs 1..4 -> olmo-mix-1124.txt
+#   IDs 5..7 -> aurora/dolmino-mix-1124-fused-file-list.txt
+#
+# Example:
+#   ./run_cooldown_per_id_split.sh \
+#     --load /path/to/checkpoints_parent \
+#     --cool-R 2000 \
+#     --emit-dir ./cooldown_out \
+#     --phase1-list ALCF/data-lists/olmo-mix-1124.txt \
+#     --phase2-list ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+#     --train-script train_alcf.sh \
+#     --extra-args "--wandb-tag cooldown --wandb-note per_id_split"
+#
+# Optional knobs:
+#     --tokens-per-step 50331648   # 8192*6144
+#     --ttokens 8                  # produce 1..7T
+#     --cooldown-percent 0.05
+#     --round 50
+#     --python python3
+
+# Defaults
+EMIT_DIR="${PWD}/cooldown_out"
+COOL_R=""
+LOAD_PATH=""
+PHASE1_LIST=""
+PHASE2_LIST=""
+TRAIN_SCRIPT="train_alcf.sh"
+EXTRA_ARGS=""
+TOKENS_PER_STEP=$((8192*6144))
+T_TOTAL=8
+COOLDOWN_PCT="0.05"
+ROUND_TO="50"
+PYTHON="${PYTHON:-python}"
+
+die() { echo "ERROR: $*" >&2; exit 1; }
+
+while [[ $# -gt 0 ]]; do
+  case "$1" in
+    --emit-dir) EMIT_DIR="$2"; shift 2 ;;
+    --cool-R) COOL_R="$2"; shift 2 ;;
+    --load) LOAD_PATH="$2"; shift 2 ;;
+    --phase1-list) PHASE1_LIST="$2"; shift 2 ;;
+    --phase2-list) PHASE2_LIST="$2"; shift 2 ;;
+    --train-script) TRAIN_SCRIPT="$2"; shift 2 ;;
+    --extra-args) EXTRA_ARGS="$2"; shift 2 ;;
+    --tokens-per-step) TOKENS_PER_STEP="$2"; shift 2 ;;
+    --ttokens) T_TOTAL="$2"; shift 2 ;;
+    --cooldown-percent) COOLDOWN_PCT="$2"; shift 2 ;;
+    --round) ROUND_TO="$2"; shift 2 ;;
+    --python) PYTHON="$2"; shift 2 ;;
+    *) die "Unknown arg: $1" ;;
+  esac
+done
+
+# if [[ -n "${COOL_R}" ]] && [[ -n ${COOLDOWN_PCT} ]]; then
+#     die "--cool-R (cooldown steps) or --cooldown-percent required"
+# fi
+
+# if [[ -n "${COOL_R}" && -n "${COOLDOWN_PCT}" ]]; then
+#     die "--cool-R (cooldown steps) or --cooldown-percent required"
+# fi
+
+# [[ -n "${COOL_R}" ]] || die "--cool-R (cooldown steps) is required"
+[[ -n "${LOAD_PATH}" ]] || die "--load path is required"
+[[ -n "${PHASE1_LIST}" ]] || die "--phase1-list is required (IDs 1..4)"
+[[ -n "${PHASE2_LIST}" ]] || die "--phase2-list is required (IDs 5..7)"
+
+mkdir -p "${EMIT_DIR}"
+
+# 1) Build the checkpoint table (1..7T + rollback)
+${PYTHON} tools/cooldown_generator/build_checkpoints_from_tokens.py \
+  --ttokens "${T_TOTAL}" \
+  --tokens-per-step "${TOKENS_PER_STEP}" \
+  --cooldown-percent "${COOLDOWN_PCT}" \
+  --round "${ROUND_TO}" \
+  --out "${EMIT_DIR}/checkpoints.tsv"
+
+# 2) For each row, emit two single-command files (exact + rollback if > 0)
+tail -n +2 "${EMIT_DIR}/checkpoints.tsv" | while IFS=$'\t' read -r id smod srb; do
+  # choose data list by ID range
+  if (( id >= 1 && id <= 4 )); then
+    DATA_LIST="${PHASE1_LIST}"
+  elif (( id >= 5 && id <= 7 )); then
+    DATA_LIST="${PHASE2_LIST}"
+  else
+    echo "Skipping unknown id ${id}" >&2
+    continue
+  fi
+
+  # exact-T
+  OUT_EX="${EMIT_DIR}/cooldown_id${id}_exact.sh"
+  ${PYTHON} tools/cooldown_generator/make_cooldown_cmds.py \
+    --load "${LOAD_PATH}" \
+    --data-file-list "${DATA_LIST}" \
+    --train-script "${TRAIN_SCRIPT}" \
+    --checkpoint-ids "${id}" \
+    --checkpoint-iters "${smod}" \
+    --cooldown-steps "${COOL_R}" \
+    --extra-args "${EXTRA_ARGS}" \
+    --emit-sh "${OUT_EX}"
+  chmod +x "${OUT_EX}"
+  echo "Wrote ${OUT_EX}"
+
+  # rollback (only if positive)
+  if (( srb > 0 )); then
+    OUT_RB="${EMIT_DIR}/cooldown_id${id}_rollback.sh"
+    ${PYTHON} tools/cooldown_generator/make_cooldown_cmds.py \
+      --load "${LOAD_PATH}" \
+      --data-file-list "${DATA_LIST}" \
+      --train-script "${TRAIN_SCRIPT}" \
+      --checkpoint-ids "${id}" \
+      --checkpoint-iters "${srb}" \
+      --cooldown-steps "${COOL_R}" \
+      --extra-args "${EXTRA_ARGS}" \
+      --emit-sh "${OUT_RB}"
+    chmod +x "${OUT_RB}"
+    echo "Wrote ${OUT_RB}"
+  fi
+done
+
+echo "Per-ID single-command scripts written to: ${EMIT_DIR}"
+
diff --git a/tools/cooldown_generator/make_cooldown_cmds.py b/tools/cooldown_generator/make_cooldown_cmds.py
new file mode 100755
index 00000000000..75cb031883b
--- /dev/null
+++ b/tools/cooldown_generator/make_cooldown_cmds.py
@@ -0,0 +1,341 @@
+#!/usr/bin/env python3
+
+import os
+from typing import Any, Optional
+import argparse
+from pathlib import Path
+from textwrap import dedent
+import ezpz
+
+# _FILE_PATH = Path(os.path.abspath(__file__)).parent
+# _MEGATRON_PATH = _FILE_PATH.parent.parent
+
+logger = ezpz.get_logger(__name__)
+
+
+def get_header_template(
+    queue: str = "prod",
+    project: str = "AuroraGPT",
+    walltime: str = "06:00:00",
+    filesystems: str = "flare:home",
+    nodes: int = 256,
+) -> str:
+    return "\n".join(
+        [
+            f"#PBS -q {queue}",
+            f"#PBS -A {project}",
+            f"#PBS -l walltime={walltime}",
+            f"#PBS -l filesystems={filesystems}",
+            f"#PBS -l select={nodes}",
+            "#PBS -j oe",
+            "",
+            "cd ${PBS_O_WORKDIR}",
+            "\n",
+        ]
+    )
+
+
+def fmt_float(x: float) -> str:
+    return f"{x:.8f}".rstrip("0").rstrip(".")
+
+
+def get_total_iters_from_cooldown_percent(
+    checkpoint_iter: Optional[int] = None,
+    cooldown_percent: Optional[float] = None,
+    cooldown_steps: Optional[int] = None,
+    train_iters: Optional[int] = None,
+) -> dict:
+    if checkpoint_iter is None and train_iters is None:
+        raise ValueError("Expected one of {checkpoint_iter, train_iters}")
+    if cooldown_percent is None and cooldown_steps is None:
+        raise ValueError("Expected one of {cooldown_percent, cooldown_iters}")
+    if checkpoint_iter is None:
+        assert train_iters is not None
+        if cooldown_percent is None:
+            assert cooldown_steps is not None
+            checkpoint_iter = train_iters - cooldown_steps
+            cooldown_percent = (train_iters - cooldown_steps) / train_iters
+        elif cooldown_steps is None:
+            assert cooldown_percent is not None
+            cooldown_steps = int(train_iters * cooldown_percent)
+            checkpoint_iter = train_iters - cooldown_steps
+        else:
+            raise ValueError(
+                "Expected one of {cooldown_percent, cooldown_iters} to be specified"
+            )
+        assert (
+            checkpoint_iter is not None
+            and cooldown_percent is not None
+            and cooldown_steps is not None
+            and train_iters is not None
+        )
+        return {
+            "checkpoint_iter": checkpoint_iter,
+            "cooldown_percent": cooldown_percent,
+            "cooldown_iters": cooldown_steps,
+            "train_iters": train_iters,
+        }
+    if train_iters is None:
+        assert checkpoint_iter is not None
+        if cooldown_percent is None:
+            assert cooldown_steps is not None
+            train_iters = checkpoint_iter + cooldown_steps
+            cooldown_percent = (train_iters - cooldown_steps / train_iters)
+        elif cooldown_steps is None:
+            assert cooldown_percent is not None
+            cooldown_steps = int(cooldown_percent * checkpoint_iter)
+            train_iters = checkpoint_iter + cooldown_steps
+        else:
+            raise ValueError(
+                "Expected one of {cooldown_percent, cooldown_iters}"
+            )
+        assert (
+            checkpoint_iter is not None
+            and cooldown_percent is not None
+            and cooldown_steps is not None
+            and train_iters is not None
+        )
+        return {
+            "checkpoint_iter": checkpoint_iter,
+            "cooldown_percent": cooldown_percent,
+            "cooldown_iters": cooldown_steps,
+            "train_iters": train_iters,
+        }
+
+
+def build_command(
+    load_path: str,
+    data_file_list: str,
+    train_script: str,
+    train_iters: Optional[int] = None,
+    lr_cooldown_frac: float = 0.05,
+    grad_acc_steps: Optional[int] = None,
+    opt: Optional[str] = None,
+    min_lr: Optional[float] = None,
+    override_ckpt_opt_param: bool = True,
+    extra_args: Optional[str] = None,
+    model_arch: str = "AuroraGPT-2B",
+    train_tokens: Optional[int] = None,
+    global_batch_size: Optional[int] = None,
+    sequence_length: Optional[int] = None,
+    lr: Optional[float] = None,
+    micro_batch: Optional[int] = None,
+    use_activation_checkpointing: Optional[bool] = None,
+    tokenizer_type: str = "HFTokenizer",
+    tokenizer_model: str = "google/gemma-7b",
+    zero_stage: Optional[str | int] = None,
+) -> str:
+    act_ckpt_val = "1" if use_activation_checkpointing else "0"
+    override_ckpt_val = "1" if override_ckpt_opt_param else "0"
+    env_lines = [
+        f"MODEL_ARCH={model_arch}",
+        "LR_DECAY_STYLE=constant",
+        f"LOAD={load_path}",
+        f"DATA_FILE_LIST={data_file_list}",
+        f"USE_ACTIVATION_CHECKPOINTING={act_ckpt_val}",
+        f"OVERRIDE_CKPT_OPT_PARAM={override_ckpt_val}",
+        f"TOKENIZER_TYPE={tokenizer_type}",
+        f"TOKENIZER_MODEL={tokenizer_model}",
+    ]
+    if opt is not None:
+        env_lines.append(f"OPT={opt}")
+    if grad_acc_steps is not None:
+        env_lines.append(f"GRAD_ACC_STEPS={grad_acc_steps}")
+    if lr is not None:
+        env_lines.append(f"LR={lr}")
+    if micro_batch is not None:
+        env_lines.append(f"MICRO_BATCH={micro_batch}")
+    if zero_stage is not None:
+        env_lines.append(f"ZERO_STAGE={zero_stage}")
+
+    # ---- TRAIN {ITERS, TOKENS} setup ---------------------------------------
+    if train_iters is None and train_tokens is None:
+        raise ValueError("One of {train_iters, train_tokens} required!")
+    if train_iters is not None:
+        assert train_tokens is None, (
+            f"Only one of {train_tokens, train_iters} should be specified."
+        )
+    if train_tokens is not None:
+        assert train_iters is None, (
+            f"Only one of {train_tokens, train_iters} should be specified."
+        )
+        assert global_batch_size is not None and sequence_length is not None
+        train_iters = train_tokens * global_batch_size * sequence_length
+
+    assert train_iters is not None
+    env_lines.append(f"TRAIN_ITERS={train_iters}")
+
+    env_block = " \\\n".join([line for line in env_lines if line])
+
+    extra_line = ""
+    if extra_args:
+        extra_line = f" \\\n      {extra_args}"
+
+    cmd = dedent(f"""\
+    {env_block} \\
+    bash {train_script} \\
+      --override-opt_param-scheduler \\
+      --min-lr={min_lr} \\
+      --lr_constant_plus_cooldown \\
+      --lr_constant_plus_cooldown_frac={fmt_float(lr_cooldown_frac)}{extra_line}
+    """).strip()
+    return cmd
+
+
+def parse_pairs(pairs_args):
+    records = []
+    next_id = 1
+    for item in pairs_args:
+        parts = item.split(":")
+        if len(parts) == 2:
+            S = int(parts[0])
+            R = int(parts[1])
+            cid = next_id
+            next_id += 1
+        elif len(parts) == 3:
+            cid = int(parts[0])
+            S = int(parts[1])
+            R = int(parts[2])
+        else:
+            raise SystemExit(f"Bad --pairs entry: {item}")
+        if S <= 0 or R <= 0:
+            raise SystemExit(f"Non-positive S/R in --pairs entry: {item}")
+        records.append({"id": cid, "S": S, "R": R})
+    return records
+
+
+def main():
+    p = argparse.ArgumentParser(
+        description="Emit Megatron-DeepSpeed cooldown commands so LR cooldown starts at resume.\n"
+        "Provide checkpoint iteration(s) S and cooldown step(s) R.\n"
+        "For each pair, sets TRAIN_ITERS T=S+R and lr_constant_plus_cooldown_frac f=S/T."
+    )
+    p.add_argument("--load", required=True)
+    p.add_argument("--data-file-list", required=True)
+    p.add_argument("--train-script", default="train_alcf.sh")
+    p.add_argument("--grad-acc-steps", type=int, default=2)
+    p.add_argument("--opt", default="ipex.fusedlamb")
+    p.add_argument("--min-lr", type=float, default=2e-5)
+    p.add_argument("--no-override-ckpt-opt", action="store_true")
+    p.add_argument("--extra-args", default="")
+    p.add_argument("--emit-sh", action="store_true", default=None)
+    p.add_argument("--split-by-id", action="store_true")
+    p.add_argument("--queue", default="prod", type=str)
+    p.add_argument("--project", default="AuroraGPT", type=str)
+    p.add_argument("--walltime", default="06:00:00", type=str)
+    p.add_argument("--filesystems", default="flare:home", type=str)
+    p.add_argument("--nodes", default=256, type=int)
+    p.add_argument("--include-header", type=str, default=None)
+    p.add_argument("--train-iters", type=int, required=False)
+    p.add_argument("--train-tokens", type=int, required=False)
+    p.add_argument("--global-batch", type=int, required=False)
+    p.add_argument("--sequence-length", type=int, required=False)
+    p.add_argument("--lr", type=float, required=False)
+    p.add_argument("--micro-batch", type=int, required=False)
+    p.add_argument("--use-activation-checkpointing", type=int, required=False)
+    p.add_argument("--tokenizer-type", type=str, required=False)
+    p.add_argument("--tokenizer-model", type=str, required=False)
+    p.add_argument("--zero-stage", type=int, required=False)
+    p.add_argument("--checkpoint-iters", "-S", type=int, nargs="+")
+    p.add_argument("--cooldown-steps", "-R", type=int, nargs="+")
+    p.add_argument("--cooldown-percent", type=float, required=False)
+    p.add_argument("--checkpoint-ids", type=int, nargs="+")
+    p.add_argument("--pairs", type=str, nargs="*")
+    args = p.parse_args()
+    if args.include_header is None:
+        args.include_header = get_header_template(
+            queue=args.queue,
+            project=args.project,
+            walltime=args.walltime,
+            filesystems=args.filesystems,
+            nodes=args.nodes,
+        )
+    override_flag = not args.no_override_ckpt_opt
+
+    if args.pairs:
+        records = parse_pairs(args.pairs)
+    else:
+        ids = args.checkpoint_ids or list(range(1, len(args.checkpoint_iters) + 1))
+        if len(ids) != len(args.checkpoint_iters):
+            raise SystemExit(
+                "--checkpoint-ids must match length of --checkpoint-iters."
+            )
+        records = [
+            {"id": cid, "S": int(S), "R": int(R)}
+            for cid, S in zip(ids, args.checkpoint_iters)
+            for R in args.cooldown_steps
+        ]
+
+    lines = []
+    # header = "# Auto-generated cooldown commands\nset -euo pipefail\n\n"
+    if args.include_header:
+        if (hfp := Path(args.include_header)).is_file():
+            with hfp.open("r") as f:
+                lines.extend(f.readlines())
+        else:
+            lines.extend("\n".join(args.include_header.split("\n")))
+    # if args.emit_sh:
+
+    for rec in records:
+        cid, S, R = rec["id"], rec["S"], rec["R"]
+        T = S + R
+        f = S / T
+        tag = f"# id={cid} resume_step={S} cooldown_steps={R} total_iters={T} frac={fmt_float(f)}"
+        cmd = build_command(
+            load_path=args.load,
+            data_file_list=args.data_file_list,
+            train_script=args.train_script,
+            train_iters=T,
+            lr_cooldown_frac=f,
+            grad_acc_steps=args.grad_acc_steps,
+            opt=args.opt,
+            min_lr=args.min_lr,
+            override_ckpt_opt_param=override_flag,
+            extra_args=args.extra_args.strip(),
+        )
+        latest_fp = Path(args.load).parent.joinpath("latest")
+        latest_ckpt_iter = Path(args.load).parent.joinpath("latest_checkpointed_iteration.txt")
+        ckpt_parent = Path(args.load).parent
+        if latest_fp.is_file():
+            logger.info(f"Found 'latest' in {ckpt_parent}!")
+            with latest_fp.open("r") as f:
+                _latest = f.read().rstrip("\n").lstrip("global_step")
+            assert int(_latest) == int(S), f"{_latest=} != {S=}"
+        else:
+            logger.info(f"No 'latest' in {ckpt_parent}!")
+            logger.info(f"Writing global_step{S} to {latest_fp}")
+            with latest_fp.open("w") as f:
+                f.write(f"global_step{S}")
+
+        if latest_ckpt_iter.is_file():
+            logger.info(f"Found 'latest_checkpointed_iteration.txt' in {ckpt_parent}!")
+            with latest_ckpt_iter.open("r") as f:
+                _latest = f.read().rstrip("\n")
+            assert int(_latest) == int(S), f"{_latest=} != {S=}"
+        else:
+            logger.info(f"No 'latest_checkpointed_iteration.txt' in {ckpt_parent}!")
+            logger.info(f"Writing {S} to {latest_ckpt_iter}")
+            with latest_ckpt_iter.open("w") as f:
+                f.write(f"{S}")
+
+        block = f"{tag}\n{cmd}\n"
+        if args.emit_sh:
+            outfile = f"cooldown_id{cid}_s{S}_r{R}_t{T}.sh"
+            logger.info(f"Writing:\n{block}\nto:\n{outfile}")
+            with open(outfile, "w") as f:
+                f.write("".join(lines))
+                f.writelines(block + "\n")
+        else:
+            print(block + "\n")
+            # lines.append(block + "\n")
+
+    # if args.emit_sh:
+    #     for rec in records:
+    #         cid, S, R = rec["id"], rec["S"], rec["R"]
+    #
+    #         args.emit_sh.write_text("\n".join(lines))
+    # print(f"# Wrote script to: {args.emit_sh}")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tools/hf2megads_weight_converter.py b/tools/hf2megads_weight_converter.py
old mode 100755
new mode 100644
index bfbde1fd055..fa17f053a99
--- a/tools/hf2megads_weight_converter.py
+++ b/tools/hf2megads_weight_converter.py
@@ -1,32 +1,73 @@
+import ezpz
 import torch
 import re
 import sys
 import os
+
 sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
-from torch.nn.parallel.distributed import DistributedDataParallel as torchDDP
-from megatron import print_rank_0, get_tokenizer, get_args
+import torch.distributed
+
+from dataclasses import dataclass
+
+# from torch.nn.parallel.distributed import DistributedDataParallel as torchDDP
+from megatron import get_tokenizer, get_args
 from megatron.core import mpu
+from megatron.core import tensor_parallel
 from megatron.core.utils import divide
-from megatron.model import GPTModelPipe, Float16Module
-from megatron.utils import unwrap_model
-from megatron.model import DistributedDataParallel as LocalDDP
+from megatron.model import GPTModelPipe  # , Float16Module
+
+# from megatron.utils import unwrap_model
+# from megatron.model import DistributedDataParallel as LocalDDP
 from megatron.arguments import core_transformer_config_from_args
 from megatron.initialize import initialize_megatron
+
 from megatron.optimizer import get_megatron_optimizer
-from megatron.checkpointing import save_checkpoint
-from megatron.training import get_optimizer_param_scheduler
+from megatron.checkpointing import save_checkpoint, load_checkpoint
+
+# from megatron.training import get_optimizer_param_scheduler
 from deepspeed.runtime.utils import see_memory_usage
 import deepspeed
+import copy
+from pathlib import Path
+
+
+try:
+    RANK = ezpz.setup_torch('deepspeed')
+except Exception:
+    RANK = 0
+logger = ezpz.get_logger(__name__)
+
+
+class DummyOptimizer:
+    def __init__(self, model: torch.nn.Module, lr: float):
+        self.model = model
+        self.lr = lr
+        self.state_dict = {}
+
 
 
 def add_extra_args(parser):
     """Text generation arguments."""
     group = parser.add_argument_group(title='hf2mega')
-    group.add_argument("--hf-ckpt-num-shards", type=int, help='num of llama ckpt.')
-    group.add_argument("--origin-hf-ckpt-dir",
-                       type=str,
-                       default="",
-                       help="the original path of the llama-hf ckpt")
+    group.add_argument(
+        '--hf-ckpt-dir', type=str, default='', help='the llama-hf ckpt'
+    )
+    group.add_argument(
+        '--hf-ckpt-num-shards', type=int, default=-1, help='num of llama ckpt.'
+    )
+    group.add_argument(
+        '--load-mode',
+        type=str,
+        default=None,
+        choices=['torchbin', 'safetensor', 'auto'],
+        help='load ckpt format: pytorch.bin or model.safetensor or auto.',
+    )
+    group.add_argument(
+        '--to-hf-ckpt',
+        action='store_true',
+        help='by default convert from hf to megads'
+        'if set, convert reversely from megads to hf ckpt.',
+    )
     return parser
 
 
@@ -40,231 +81,545 @@ def compute_partition_range(hidden_size, local_rank, tp_size):
 def load_and_print_hf_weight(hf_ckpt_dir, hf_ckpt_num_of_shards):
     # Optimization point: We can selectively load specific 'shared' data to reduce CPU memory usage.
     loaded = {}
-    print_rank_0(
-        f"----------------------------hf weight list----------------------------")
+    logger.info(
+        '----------------------------hf weight list----------------------------'
+    )
 
     for wid in range(1, hf_ckpt_num_of_shards + 1):
         d = torch.load(
-            f"{hf_ckpt_dir}/pytorch_model-{wid:05d}-of-{hf_ckpt_num_of_shards:05d}.bin",
-            map_location=torch.device('cpu'))
+            f'{hf_ckpt_dir}/pytorch_model-{wid:05d}-of-{hf_ckpt_num_of_shards:05d}.bin',
+            map_location=torch.device('cpu'),
+        )
         for k in d:
-            print_rank_0(k)
+            logger.info(k)
             assert k not in loaded
             loaded[k] = d[k].clone()
     del d
     return loaded
 
 
+def load_and_print_hf_weight_from_safetensor(
+    hf_ckpt_dir, hf_ckpt_num_of_shards
+):
+    from safetensors import safe_open
+
+    # Optimization point: We can selectively load specific 'shared' data to reduce CPU memory usage.
+    hf_model = {}
+    logger.info(
+        '----------------------------hf weight list----------------------------'
+    )
+
+    for wid in range(1, hf_ckpt_num_of_shards + 1):
+        if hf_ckpt_num_of_shards == 1:
+            ckpt_path = f'{hf_ckpt_dir}/model.safetensors'
+        else:
+            ckpt_path = f'{hf_ckpt_dir}/model-{wid:05d}-of-{hf_ckpt_num_of_shards:05d}.safetensors'
+
+        with safe_open(ckpt_path, framework='pt', device='cpu') as f:
+            for k in f.keys():
+                logger.info(f'name: {k}, shape: {f.get_tensor(k).shape}')
+                assert k not in hf_model
+                hf_model[k] = f.get_tensor(k).clone()
+
+    return hf_model
+
+
+def load_and_print_hf_weight_auto(hf_ckpt_dir, no_init=True):
+    from contextlib import nullcontext
+    from transformers import AutoModelForCausalLM
+    from transformers.modeling_utils import no_init_weights
+
+    ctx = nullcontext() if no_init else no_init_weights()
+    with ctx:
+        hf_auto_model = AutoModelForCausalLM.from_pretrained(
+            hf_ckpt_dir, trust_remote_code=True, torch_dtype=torch.bfloat16
+        )
+    logger.info(
+        '----------------------------hf weight list----------------------------'
+    )
+    import gc
+
+    hf_model = {}
+    with torch.no_grad():
+        name, submodule = None, None
+        for name, submodule in hf_auto_model.named_children():
+            pname, param = None, None
+            for pname, param in submodule.named_parameters():
+                logger.info(f'[{name}.{pname}] shape={param.shape}')
+                hf_model[f'{name}.{pname}'] = param.clone()
+            del pname, param
+            gc.collect()
+        del submodule
+        gc.collect()
+
+    torch.distributed.barrier()
+    return hf_model
+
+
 def print_distinct_weights(model):
-    print_rank_0(
-        f"----------------------------mega-ds weight list----------------------------")
+    logger.info(
+        '----------------------------mega-ds weight list----------------------------'
+    )
     for pipe_rank in range(mpu.get_pipeline_model_parallel_world_size()):
         if mpu.get_pipeline_model_parallel_rank() == pipe_rank:
-            if mpu.get_data_parallel_rank() == 0 and mpu.get_tensor_model_parallel_rank(
-            ) == 0:
+            if (
+                mpu.get_data_parallel_rank() == 0
+                and mpu.get_tensor_model_parallel_rank() == 0
+            ):
                 for pname, p in model.named_parameters():
-                    print(pname)
+                    logger.info(f'{pname}, {p.shape}')
             torch.distributed.barrier()
         else:
             torch.distributed.barrier()
 
 
+def get_hf_tokenizer(name: str):
+    from transformers import AutoTokenizer
+
+    tokenizer = AutoTokenizer.from_pretrained(name)
+    return tokenizer
+
+
 class refactor:
-    def __init__(self, model, loaded, args, config):
-        tokenizer = get_tokenizer()
+    def __init__(self, ds_model, hf_model, args, config):
+        self.tokenizer = get_tokenizer()
+        if args.tokenizer_type == 'HFTokenizer':
+            self.hf_tokenizer = get_hf_tokenizer(args.tokenizer_model)
+            self.token_vocab = len(self.hf_tokenizer)
+        else:
+            self.hf_tokenizer = None
+            assert self.tokenizer is not None
+            self.token_vocab = self.tokenizer.vocab_size
         # align layer number
-        self.model = model
-        self.loaded = loaded
+        self.ds_model = ds_model
+        self.hf_model = hf_model
+        self.hf_dict = {}  # for handling pp case when converting mds => hf
         self.config = config
 
         self.offset_num = 2
         self.mega_emb_wnum = 1
         self.mega_norm_wnum = args.num_layers + 2
+        self.num_attention_heads = args.num_attention_heads
+        self.num_key_value_heads = args.num_key_value_heads
         self.mega_lm_head_wnum = self.mega_norm_wnum + 1
-        self.token_vocab = tokenizer.vocab_size
         self.padded_vocab_size = args.padded_vocab_size
         self.more_padded = self.padded_vocab_size - self.token_vocab
         self.tp_size = mpu.get_tensor_model_parallel_world_size()
         self.tp_rank = mpu.get_tensor_model_parallel_rank()
-        self.decoder_pat = re.compile("(\d+)\.(.+)")
+        self.decoder_pat = re.compile('(\d+)\.(.+)')
         self.refactor_weight_list = []
         self.is_refactored = False
 
     def _embedding_refactor(self, pname, p):
-        if pname == f"{self.mega_lm_head_wnum}.lm_head.weight":
-            hf_name = "lm_head.weight"
-        elif pname == f"{self.mega_emb_wnum}.word_embeddings.weight":
-            hf_name = "model.embed_tokens.weight"
-        hf_w = self.loaded[hf_name]
+        if pname == f'{self.mega_lm_head_wnum}.lm_head.weight':
+            hf_name = 'lm_head.weight'
+        elif pname == f'{self.mega_emb_wnum}.word_embeddings.weight':
+            hf_name = 'model.embed_tokens.weight'
+        else:
+            hf_name = pname
+        # try:
+        hf_w = self.hf_model.get(hf_name, None)
+        assert hf_w is not None
+        # except Exception:
+        #     if ezpz.get_world_size() > 1:
+        #         from ezpz.utils import breakpoint
+        #         breakpoint(0)
+        #     else:
+        #         import pudb; pudb.set_trace()
+        # torch.distributed.barrier()
+        # try:
         assert hf_w.shape[0] == self.token_vocab
-        per_partition_vocab_size, start_index, end_index = compute_partition_range(
-            self.padded_vocab_size, self.tp_rank, self.tp_size)
+        # except Exception:
+        #     from ezpz.utils import breakpoint
+        #     breakpoint(0)
+        # torch.distributed.barrier(0)
+        per_partition_vocab_size, start_index, end_index = (
+            compute_partition_range(
+                self.padded_vocab_size, self.tp_rank, self.tp_size
+            )
+        )
         end_index = min(end_index, self.token_vocab)
         real_partition_vocab_size = end_index - start_index
 
-        new_w = torch.zeros((per_partition_vocab_size, hf_w.shape[1]), dtype=hf_w.dtype)
+        new_w = torch.zeros(
+            (per_partition_vocab_size, hf_w.shape[1]), dtype=hf_w.dtype
+        )
         new_w[:real_partition_vocab_size, :] = hf_w[start_index:end_index, :]
         if self.tp_rank == self.tp_size - 1 and self.more_padded > 0:
-            new_w[-self.more_padded:] = hf_w[:self.token_vocab].mean(dim=0, keepdim=True)
+            new_w[-self.more_padded :] = hf_w[: self.token_vocab].mean(
+                dim=0, keepdim=True
+            )
 
         self.record_mapping_info(
-            f"mega-ds: {pname,p.data.shape}<--hf: {hf_name,}  [{start_index}:{end_index},:]  of {hf_w.shape}"
+            f'mega-ds: {pname, p.data.shape}<--hf: {(hf_name,)}  [{start_index}:{end_index},:]  of {hf_w.shape}'
         )
         return new_w
 
     def _direct_refactor(self, pname, p, hf_layer=None, subname=None):
-        if pname == f"{self.mega_norm_wnum}.weight":
-            hf_name = "model.norm.weight"
-        elif subname in ["input_layernorm.weight", "post_attention_layernorm.weight"]:
-            hf_name = f"model.layers.{hf_layer}.{subname}"
+        if pname == f'{self.mega_norm_wnum}.weight':
+            hf_name = 'model.norm.weight'
+        elif subname in [
+            'input_layernorm.weight',
+            'post_attention_layernorm.weight',
+        ]:
+            hf_name = f'model.layers.{hf_layer}.{subname}'
+        else:
+            hf_name = pname
 
-        new_w = hf_w = self.loaded[hf_name]
+        new_w = hf_w = self.hf_model[hf_name]
         self.record_mapping_info(
-            f"mega-ds:{pname,p.data.shape}<--hf{hf_name,}  {hf_w.shape}")
+            f'mega-ds:{pname, p.data.shape}<--hf{(hf_name,)}  {hf_w.shape}'
+        )
         return new_w
 
     def _qkv_refactor(self, pname, p, hf_layer):
-        hf_wq_name = f"model.layers.{hf_layer}.self_attn.q_proj.weight"
-        hf_wk_name = f"model.layers.{hf_layer}.self_attn.k_proj.weight"
-        hf_wv_name = f"model.layers.{hf_layer}.self_attn.v_proj.weight"
-        wq = self.loaded[hf_wq_name]
-        wk = self.loaded[hf_wk_name]
-        wv = self.loaded[hf_wv_name]
-
-        hidden_size = wq.shape[0]
-        per_partition_size, start_index, end_index = compute_partition_range(
-            hidden_size, self.tp_rank, self.tp_size)
-        hidden_size_per_attention_head = divide(hidden_size,
-                                                self.config.num_attention_heads)
-        num_attention_heads_per_partition = divide(self.config.num_attention_heads,
-                                                   self.tp_size)
-
-        new_w = torch.zeros((per_partition_size * 3, wq.shape[1]), dtype=wq.dtype)
-
-        for i in range(num_attention_heads_per_partition):
-            current_index = start_index + i * hidden_size_per_attention_head
-            next_index = current_index + hidden_size_per_attention_head
-            new_w_index = i * (3 * hidden_size_per_attention_head)
-            new_w[new_w_index: new_w_index + (3 * hidden_size_per_attention_head), :] = \
-                torch.cat([
-                    wq[current_index: next_index, :],
-                    wk[current_index: next_index, :],
-                    wv[current_index: next_index, :]
-                ], dim=0)
+        hf_wq_name = f'model.layers.{hf_layer}.self_attn.q_proj.weight'
+        hf_wk_name = f'model.layers.{hf_layer}.self_attn.k_proj.weight'
+        hf_wv_name = f'model.layers.{hf_layer}.self_attn.v_proj.weight'
+        wq = self.hf_model[hf_wq_name]
+        wk = self.hf_model[hf_wk_name]
+        wv = self.hf_model[hf_wv_name]
+
+        query_hidden_size = wq.shape[0]
+        kv_hidden_size = wk.shape[0]
+
+        per_partition_size, start_qindex, end_index = compute_partition_range(
+            query_hidden_size, self.tp_rank, self.tp_size
+        )
+        _, start_kvindex, _ = compute_partition_range(
+            kv_hidden_size, self.tp_rank, self.tp_size
+        )
+
+        hidden_size_per_attention_head = divide(
+            query_hidden_size, self.config.num_attention_heads
+        )
+        num_attention_heads_per_partition = divide(
+            self.config.num_attention_heads, self.tp_size
+        )
+
+        num_kv_heads_per_partition = divide(
+            self.config.num_key_value_heads, self.tp_size
+        )
+        qkv_size = (
+            num_attention_heads_per_partition + 2 * num_kv_heads_per_partition
+        ) * hidden_size_per_attention_head
+        num_qheads_per_group = divide(
+            self.config.num_attention_heads, self.config.num_key_value_heads
+        )
+        num_groups = divide(
+            num_attention_heads_per_partition, num_qheads_per_group
+        )
+        new_w = torch.zeros((qkv_size, wq.shape[1]), dtype=wq.dtype)
+
+        for i in range(num_groups):
+            query_current_index = (
+                start_qindex
+                + i * num_qheads_per_group * hidden_size_per_attention_head
+            )
+            query_next_index = (
+                query_current_index
+                + num_qheads_per_group * hidden_size_per_attention_head
+            )
+            kv_current_index = (
+                start_kvindex + i * hidden_size_per_attention_head
+            )
+            kv_next_kvindex = kv_current_index + hidden_size_per_attention_head
+
+            new_w_index = (
+                i * (num_qheads_per_group + 2) * hidden_size_per_attention_head
+            )
+
+            new_w[
+                new_w_index : new_w_index
+                + (num_qheads_per_group + 2) * hidden_size_per_attention_head,
+                :,
+            ] = torch.cat(
+                [
+                    wq[query_current_index:query_next_index, :],
+                    wk[kv_current_index:kv_next_kvindex, :],
+                    wv[kv_current_index:kv_next_kvindex, :],
+                ],
+                dim=0,
+            )
+
         self.record_mapping_info(
-            f"mega-ds:{pname,p.data.shape}<--hf{hf_wq_name,hf_wk_name,hf_wv_name,}  cat q,k,v [{current_index}:{next_index},:]  of q,k,v{wq.shape}"
+            f'mega-ds:{pname, p.data.shape}<--hf{hf_wq_name, hf_wk_name, hf_wv_name} '
+            f'cat q,k,v [{query_current_index}:{query_next_index},:]  of q,k,v{wq.shape}'
         )
         return new_w
 
     def _mlphto4h_dense_refactor(self, pname, p, hf_layer):
-        hf_w_gate_name = f"model.layers.{hf_layer}.mlp.gate_proj.weight"
-        hf_w_up_name = f"model.layers.{hf_layer}.mlp.up_proj.weight"
-        w_gate = self.loaded[hf_w_gate_name]
-        w_up = self.loaded[hf_w_up_name]
+        hf_w_gate_name = f'model.layers.{hf_layer}.mlp.gate_proj.weight'
+        hf_w_up_name = f'model.layers.{hf_layer}.mlp.up_proj.weight'
+        w_gate = self.hf_model[hf_w_gate_name]
+        w_up = self.hf_model[hf_w_up_name]
 
         hidden_size = w_gate.shape[0]
         per_partition_size, start_index, end_index = compute_partition_range(
-            hidden_size, self.tp_rank, self.tp_size)
-        new_w = torch.zeros((per_partition_size * 2,
-                             w_gate.shape[1]),
-                            dtype=w_gate.dtype)
-        new_w[:per_partition_size * 2, :] = \
-                torch.cat([
-                    w_gate[start_index:end_index, :],
-                    w_up[start_index:end_index, :]
-                ], dim=0)
+            hidden_size, self.tp_rank, self.tp_size
+        )
+        new_w = torch.zeros(
+            (per_partition_size * 2, w_gate.shape[1]), dtype=w_gate.dtype
+        )
+        new_w[: per_partition_size * 2, :] = torch.cat(
+            [w_gate[start_index:end_index, :], w_up[start_index:end_index, :]],
+            dim=0,
+        )
         self.record_mapping_info(
-            f"mega-ds:{pname,p.data.shape}<--hf{hf_w_gate_name,hf_w_up_name}  cat gate,up [{start_index}:{end_index},:]  of gate,up{w_gate.shape}"
+            f'mega-ds:{pname, p.data.shape}<--hf{hf_w_gate_name, hf_w_up_name}  cat gate,up [{start_index}:{end_index},:]  of gate,up{w_gate.shape}'
         )
         return new_w
 
     def _attn_dense_refactor(self, pname, p, hf_layer, subname):
-        if subname == "self_attention.dense.weight":
-            hf_name = f"model.layers.{hf_layer}.self_attn.o_proj.weight"
+        if subname == 'self_attention.dense.weight':
+            hf_name = f'model.layers.{hf_layer}.self_attn.o_proj.weight'
         else:
-            hf_name = f"model.layers.{hf_layer}.mlp.down_proj.weight"
+            hf_name = f'model.layers.{hf_layer}.mlp.down_proj.weight'
 
-        hf_w = self.loaded[hf_name]
+        hf_w = self.hf_model[hf_name]
         hidden_size = hf_w.shape[1]
         per_partition_size, start_index, end_index = compute_partition_range(
-            hidden_size, self.tp_rank, self.tp_size)
-        new_w = torch.zeros((hf_w.shape[0], per_partition_size), dtype=hf_w.dtype)
+            hidden_size, self.tp_rank, self.tp_size
+        )
+        new_w = torch.zeros(
+            (hf_w.shape[0], per_partition_size), dtype=hf_w.dtype
+        )
         new_w[:, :per_partition_size] = hf_w[:, start_index:end_index]
         self.record_mapping_info(
-            f"mega-ds:{pname,p.data.shape}<--hf{hf_name,}  [:,{start_index}:{end_index}]  of {hf_w.shape}"
+            f'mega-ds:{pname, p.data.shape}<--hf{(hf_name,)}  [:,{start_index}:{end_index}]  of {hf_w.shape}'
         )
         return new_w
 
     def _mlphto4h1_refactor(self, pname, p, hf_layer, subname):
-        if subname == "mlp.dense_h_to_4h1.weight":
-            hf_name = f"model.layers.{hf_layer}.mlp.gate_proj.weight"
+        if subname == 'mlp.dense_h_to_4h1.weight':
+            hf_name = f'model.layers.{hf_layer}.mlp.gate_proj.weight'
         else:
-            hf_name = f"model.layers.{hf_layer}.mlp.up_proj.weight"
-        hf_w = self.loaded[hf_name]
+            hf_name = f'model.layers.{hf_layer}.mlp.up_proj.weight'
+        hf_w = self.hf_model[hf_name]
         hidden_size = hf_w.shape[0]
         per_partition_size, start_index, end_index = compute_partition_range(
-            hidden_size, self.tp_rank, self.tp_size)
-        new_w = torch.zeros((per_partition_size, hf_w.shape[1]), dtype=hf_w.dtype)
+            hidden_size, self.tp_rank, self.tp_size
+        )
+        new_w = torch.zeros(
+            (per_partition_size, hf_w.shape[1]), dtype=hf_w.dtype
+        )
 
         new_w[:per_partition_size, :] = hf_w[start_index:end_index, :]
         self.record_mapping_info(
-            f"mega-ds:{pname,p.data.shape}<--hf{hf_name,}  [{start_index}:{end_index},:]  of {hf_w.shape}"
+            f'mega-ds:{pname, p.data.shape}<--hf{(hf_name,)}  [{start_index}:{end_index},:]  of {hf_w.shape}'
         )
         return new_w
 
-    def refactor(self):
-        assert self.is_refactored == False
+    def transform_from_hf_to_megds(self):
+        assert not self.is_refactored
         new_w = None
-        for pname, p in self.model.named_parameters():
+        for pname, p in self.ds_model.named_parameters():
             if pname in [
-                    f"{self.mega_emb_wnum}.word_embeddings.weight",
-                    f"{self.mega_lm_head_wnum}.lm_head.weight"
+                f'{self.mega_emb_wnum}.word_embeddings.weight',
+                f'{self.mega_lm_head_wnum}.lm_head.weight',
             ]:
                 new_w = self._embedding_refactor(pname, p)
-            elif pname == f"{self.mega_norm_wnum}.weight":
+            elif pname == f'{self.mega_norm_wnum}.weight':
                 new_w = self._direct_refactor(pname, p)
             else:
                 mobj = self.decoder_pat.match(pname)
+                assert mobj is not None
                 layer_num = int(mobj.group(1))
                 subname = mobj.group(2)
                 hf_layer = layer_num - self.offset_num
-                if subname in ["self_attention.query_key_value.weight"]:
+                if subname in ['self_attention.query_key_value.weight']:
                     new_w = self._qkv_refactor(pname, p, hf_layer)
-                elif subname in ["mlp.dense_h_to_4h.weight"]:
+                elif subname in ['mlp.dense_h_to_4h.weight']:
                     new_w = self._mlphto4h_dense_refactor(pname, p, hf_layer)
                 elif subname in [
-                        "self_attention.dense.weight",
-                        "mlp.dense_4h_to_h.weight"
+                    'self_attention.dense.weight',
+                    'mlp.dense_4h_to_h.weight',
                 ]:
-                    new_w = self._attn_dense_refactor(pname, p, hf_layer, subname)
+                    new_w = self._attn_dense_refactor(
+                        pname, p, hf_layer, subname
+                    )
                 elif subname in [
-                        "mlp.dense_h_to_4h1.weight",
-                        "mlp.dense_h_to_4h2.weight"
+                    'mlp.dense_h_to_4h1.weight',
+                    'mlp.dense_h_to_4h2.weight',
                 ]:
                     new_w = self._mlphto4h1_refactor()
                 elif subname in [
-                        "input_layernorm.weight",
-                        "post_attention_layernorm.weight"
+                    'input_layernorm.weight',
+                    'post_attention_layernorm.weight',
                 ]:
                     new_w = self._direct_refactor(pname, p, hf_layer, subname)
                 else:
-                    raise ValueError("Unrecognized weight type")
+                    raise ValueError('Unrecognized weight type')
             p.data.copy_(new_w)
             new_w = None
         self.is_refactored = True
 
+    def _embedding_refactor_to_hf(self, pname, ds_w):
+        if pname == f'{self.mega_lm_head_wnum}.lm_head.weight':
+            hf_w = self.hf_model.lm_head.weight
+            hf_w_name = 'lm_head.weight'
+        elif pname == f'{self.mega_emb_wnum}.word_embeddings.weight':
+            hf_w = self.hf_model.model.embed_tokens.weight
+            hf_w_name = 'model.embed_tokens.weight'
+        else:
+            hf_w = self.hf_model[pname]
+            hf_w_name = pname
+
+        with torch.no_grad():
+            ds_w_all_rank = tensor_parallel.mappings._gather_along_first_dim(
+                ds_w
+            )
+
+        self.hf_dict[hf_w_name] = copy.deepcopy(
+            ds_w_all_rank[: hf_w.shape[0], :]
+        )
+
+    def _direct_refactor_to_hf(self, pname, ds_w, hf_layer=None, subname=None):
+        if pname in [f'{self.mega_norm_wnum}.weight']:
+            hf_w = self.hf_model.model.norm.weight
+            hf_w_name = 'model.norm.weight'
+        elif subname in ['input_layernorm.weight']:
+            hf_w = self.hf_model.model.layers[hf_layer].input_layernorm.weight
+            hf_w_name = f'model.layers.{hf_layer}.input_layernorm.weight'
+        elif subname in ['post_attention_layernorm.weight']:
+            hf_w = self.hf_model.model.layers[
+                hf_layer
+            ].post_attention_layernorm.weight
+            hf_w_name = (
+                f'model.layers.{hf_layer}.post_attention_layernorm.weight'
+            )
+
+        self.hf_dict[hf_w_name] = copy.deepcopy(ds_w)
+
+    def _attn_dense_refactor_to_hf(self, pname, ds_w, hf_layer, subname):
+        if subname == 'self_attention.dense.weight':
+            hf_w = self.hf_model.model.layers[hf_layer].self_attn.o_proj.weight
+            hf_w_name = f'model.layers.{hf_layer}.self_attn.o_proj.weight'
+        elif subname == 'mlp.dense_4h_to_h.weight':
+            hf_w = self.hf_model.model.layers[hf_layer].mlp.down_proj.weight
+            hf_w_name = f'model.layers.{hf_layer}.mlp.down_proj.weight'
+
+        with torch.no_grad():
+            ds_w_all_rank = tensor_parallel.mappings._gather_along_last_dim(
+                ds_w
+            )
+
+        self.hf_dict[hf_w_name] = copy.deepcopy(ds_w_all_rank)
+
+    def _mlphto4h_dense_refactor_to_hf(self, pname, ds_w, hf_layer):
+        hf_g_name = f'model.layers.{hf_layer}.mlp.gate_proj.weight'
+        hf_u_name = f'model.layers.{hf_layer}.mlp.up_proj.weight'
+
+        with torch.no_grad():
+            ds_w_all_rank = tensor_parallel.mappings._gather_along_first_dim(
+                ds_w
+            )
+
+        ds_w_shape = ds_w_all_rank.shape
+        ds_w_all_rank = ds_w_all_rank.reshape(
+            self.tp_size, 2, -1, ds_w_shape[-1]
+        )
+        self.hf_dict[hf_g_name] = copy.deepcopy(
+            ds_w_all_rank[:, 0, :, :].reshape(-1, ds_w_shape[-1])
+        )
+        self.hf_dict[hf_u_name] = copy.deepcopy(
+            ds_w_all_rank[:, 1, :, :].reshape(-1, ds_w_shape[-1])
+        )
+
+    def _qkv_refactor_to_hf(self, pname, ds_w, hf_layer):
+        with torch.no_grad():
+            ds_w_all_rank = tensor_parallel.mappings._gather_along_first_dim(
+                ds_w
+            )
+
+        hf_q = self.hf_model.model.layers[hf_layer].self_attn.q_proj.weight
+        hf_k = self.hf_model.model.layers[hf_layer].self_attn.k_proj.weight
+        hf_v = self.hf_model.model.layers[hf_layer].self_attn.v_proj.weight
+        hf_q_name = f'model.layers.{hf_layer}.self_attn.q_proj.weight'
+        hf_k_name = f'model.layers.{hf_layer}.self_attn.k_proj.weight'
+        hf_v_name = f'model.layers.{hf_layer}.self_attn.v_proj.weight'
+        oldshape = hf_q.shape
+        hidden_size = oldshape[-1]
+        hidden_size_per_attention_head = divide(
+            hidden_size, self.config.num_attention_heads
+        )
+        # MHA & GQA
+        group = divide(
+            self.config.num_attention_heads, self.config.num_key_value_heads
+        )
+        newshape = (
+            self.config.num_key_value_heads,
+            group + 2,
+            hidden_size_per_attention_head,
+            hidden_size,
+        )
+        ds_w_out = ds_w_all_rank.reshape(*newshape)
+        query_weight, key_weight, value_weight = torch.split(
+            ds_w_out, [group, 1, 1], dim=1
+        )
+        self.hf_dict[hf_q_name] = copy.deepcopy(
+            query_weight.reshape(-1, hidden_size)
+        )
+        self.hf_dict[hf_k_name] = copy.deepcopy(
+            key_weight.reshape(-1, hidden_size)
+        )
+        self.hf_dict[hf_v_name] = copy.deepcopy(
+            value_weight.reshape(-1, hidden_size)
+        )
+        del query_weight, key_weight, value_weight
+
+    def transform_from_megads_to_hf(self):
+        for pname, p in self.ds_model.named_parameters():
+            if pname in [
+                f'{self.mega_emb_wnum}.word_embeddings.weight',
+                f'{self.mega_lm_head_wnum}.lm_head.weight',
+            ]:
+                self._embedding_refactor_to_hf(pname, p)
+            elif pname in [
+                f'{self.mega_norm_wnum}.weight',
+            ]:
+                self._direct_refactor_to_hf(pname, p)
+            else:
+                mobj = self.decoder_pat.match(pname)
+                layer_num = int(mobj.group(1))
+                subname = mobj.group(2)
+                hf_layer = layer_num - self.offset_num
+                if subname in ['self_attention.query_key_value.weight']:
+                    self._qkv_refactor_to_hf(pname, p, hf_layer)
+                elif subname in ['mlp.dense_h_to_4h.weight']:
+                    self._mlphto4h_dense_refactor_to_hf(pname, p, hf_layer)
+                elif subname in [
+                    'self_attention.dense.weight',
+                    'mlp.dense_4h_to_h.weight',
+                ]:
+                    self._attn_dense_refactor_to_hf(
+                        pname, p, hf_layer, subname
+                    )
+                elif subname in [
+                    'input_layernorm.weight',
+                    'post_attention_layernorm.weight',
+                ]:
+                    self._direct_refactor_to_hf(pname, p, hf_layer, subname)
+                else:
+                    print(f'Unrecognized weight type: {pname}')
+                    raise ValueError(f'Unrecognized weight type: {pname}')
+        self.is_refactored = True
+
     def record_mapping_info(self, record_msg):
         self.refactor_weight_list.append(record_msg)
 
     def inorder_show_record(self):
         assert self.is_refactored
-        print_rank_0(
-            f"----------------------------mapping list----------------------------")
+        logger.info(
+            f'----------------------------mapping list----------------------------'
+        )
         # print dp rank0 tp rank0  records.
         for pipe_rank in range(mpu.get_pipeline_model_parallel_world_size()):
             if mpu.get_pipeline_model_parallel_rank() == pipe_rank:
-                if mpu.get_data_parallel_rank(
-                ) == 0 and mpu.get_tensor_model_parallel_rank() == 0:
+                if (
+                    mpu.get_data_parallel_rank() == 0
+                    and mpu.get_tensor_model_parallel_rank() == 0
+                ):
                     for record in self.refactor_weight_list:
                         print(record)
                 torch.distributed.barrier()
@@ -272,63 +627,146 @@ def inorder_show_record(self):
                 torch.distributed.barrier()
 
 
-def convert_hf_to_mega_ds():
+def load_hf_weights(args, no_init):
+    if args.load_mode == 'torchbin':
+        assert no_init == False, 'only work with init'
+        return load_and_print_hf_weight(
+            args.hf_ckpt_dir, args.hf_ckpt_num_shards
+        )
+    elif args.load_mode == 'safetensor':
+        assert no_init == False, 'only work with init'
+        return load_and_print_hf_weight_from_safetensor(
+            args.hf_ckpt_dir, args.hf_ckpt_num_shards
+        )
+    elif args.load_mode == 'auto':
+        return load_and_print_hf_weight_auto(args.hf_ckpt_dir, no_init)
+
+
+def convert_ckpt():
     """Build the model."""
     args = get_args()
-    print_rank_0(f'building model ...')
-    see_memory_usage(f"Before Building Model", force=True)
+    assert args is not None
+    logger.info('building model ...')
+    see_memory_usage('Before Building Model', force=True)
 
     config = core_transformer_config_from_args(args)
     with deepspeed.zero.Init(
-            data_parallel_group=mpu.get_data_parallel_group(),
-            remote_device=None if args.remote_device == 'none' else args.remote_device,
-            config_dict_or_path=args.deepspeed_config,
-            enabled=args.zero_stage == 3,
-            mpu=mpu):
+        data_parallel_group=mpu.get_data_parallel_group(),
+        remote_device=None
+        if args.remote_device == 'none'
+        else args.remote_device,
+        config_dict_or_path=args.deepspeed_config,
+        enabled=args.zero_stage == 3,
+        mpu=mpu,
+    ):
         if args.deepspeed and not args.no_pipeline_parallel:
-            model = GPTModelPipe(config, num_tokentypes=0, parallel_output=True)
+            ds_model = GPTModelPipe(
+                config, num_tokentypes=0, parallel_output=True
+            )
         else:
-            raise NotImplementedError("Not implemented")
+            raise NotImplementedError('Not implemented')
 
-    see_memory_usage(f"After Building Model", force=True)
+    see_memory_usage('After Building Model', force=True)
     if torch.distributed.get_rank() < 2:
-        print(f"{torch.distributed.get_rank()} {model}")
-
-    # load and initialize HF weight dict
-    # print hf weights list & mega-ds weights list
-    hf_ckpt_dir = args.origin_hf_ckpt_dir
-    hf_ckpt_num_of_shards = args.hf_ckpt_num_shards
-    loaded = load_and_print_hf_weight(hf_ckpt_dir, hf_ckpt_num_of_shards)
-    print_distinct_weights(model)
-
-    # refactor weight from hf to mega-ds
-
-    cur_refactor = refactor(model, loaded, args, config)
-    cur_refactor.refactor()
-    cur_refactor.inorder_show_record()
-
-    del loaded
-
-    unwrapped_model = unwrap_model([model], (torchDDP, LocalDDP, Float16Module))
-    optimizer = get_megatron_optimizer(unwrapped_model)
-    opt_param_scheduler = get_optimizer_param_scheduler(optimizer)
-
-    #init model and save
-    print_rank_0(f"before deepspeed init")
-    ds_engine, _, _, _ = deepspeed.initialize(
-        model=model,
-        optimizer=optimizer,
-        args=args,
-        lr_scheduler=opt_param_scheduler,
-        mpu=mpu if args.no_pipeline_parallel else None)
-    print_rank_0(f"after deepspeed init")
-
-    print_rank_0(f"mega-ds checkpoint will be saved in {args.save}")
-    save_checkpoint(0, [ds_engine], optimizer, opt_param_scheduler)
-    print_rank_0(f"save checkpoint completed")
-
+        print(f'{torch.distributed.get_rank()} {ds_model}')
+
+    # 'torchbin', 'safetensor', 'auto'
+    hf_model = load_hf_weights(args, no_init=args.to_hf_ckpt)
+
+    # print_distinct_weights(hf_model)
+    # optimizer = None
+    # if getattr(args, 'optimizer', None) is not None:
+    #     optimizer = get_megatron_optimizer(ds_model)
+
+    # init model and save
+    logger.info('before deepspeed init')
+    optimizer = None
+    dummy_optimizer = DummyOptimizer(model=ds_model, lr=args.lr)
+    if args.optimizer is None:
+        ds_engine, ds_opt, _, _ = deepspeed.initialize(
+            model=ds_model,
+            # optimizer=optimizer,
+            args=args,
+            lr_scheduler=None,
+            mpu=mpu if args.no_pipeline_parallel else None,
+        )
+        if ds_opt is not None:
+            optimizer = ds_opt
+    else:
+        ds_engine, _, _, _ = deepspeed.initialize(
+            model=ds_model,
+            # optimizer=DummyOptimizer(model=ds_model, lr=0.0),
+            args=args,
+            lr_scheduler=None,
+            mpu=mpu if args.no_pipeline_parallel else None,
+        )
+        #optimizer = torch.optim.AdamW(ds_engine )
+        #optimizer = get_megatron_optimizer(ds_model)
+    logger.info('after deepspeed init')
+
+    optimizer = dummy_optimizer if optimizer is None else optimizer
+
+    if args.to_hf_ckpt:
+        load_checkpoint([ds_engine], None, None, load_only_weights=True)
+        logger.info('completed to load deepspeed actual checkpoint')
+
+    # refactor weight from hf to mega-ds and vice versa
+    cur_refactor = refactor(ds_model, hf_model, args, config)
+    if args.to_hf_ckpt:
+        cur_refactor.transform_from_megads_to_hf()
+    else:
+        cur_refactor.transform_from_hf_to_megds()
+    # cur_refactor.inorder_show_record()
+
+    if args.to_hf_ckpt:
+        save_path = args.save
+        if not os.path.exists(save_path):
+            Path(save_path).mkdir(parents=True, exist_ok=True)
+        ckpt_per_pp_path = os.path.join(
+            save_path, f'model_pp{mpu.get_pipeline_model_parallel_rank()}.pt'
+        )
+        torch.save(cur_refactor.hf_dict, ckpt_per_pp_path)
 
-if __name__ == "__main__":
+        if torch.distributed.is_initialized():
+            torch.distributed.barrier()
 
+        logger.info(f'hf checkpoint will be saved in {save_path}/release ')
+        if mpu.is_pipeline_last_stage():
+            ## doing checkpoint merging and saving...
+            # hf_model.tie_weights()
+
+            all_wei = {}
+            for pprank in range(mpu.get_pipeline_model_parallel_world_size()):
+                ckpt_per_pp_path = os.path.join(
+                    save_path, f'model_pp{pprank}.pt'
+                )
+                partial_wei = torch.load(ckpt_per_pp_path)
+                all_wei = all_wei | partial_wei
+
+            hf_model.load_state_dict(all_wei)
+
+            # mega-ds checkpoint will be saved in  args.save
+            hf_model.save_pretrained(
+                os.path.join(save_path, 'release'), safe_serialization=True
+            )
+    else:
+        logger.info(f'mega-ds checkpoint will be saved in {args.save}')
+        args.iteration = 0
+        try:
+            save_checkpoint(
+                iteration=0,
+                model=[ds_engine],
+                optimizer=optimizer,
+                opt_param_scheduler=None,
+            )
+        except Exception:
+            from ezpz.utils import breakpoint
+            breakpoint(0)
+        torch.distributed.barrier()
+
+    logger.info('save checkpoint completed')
+
+
+if __name__ == '__main__':
     initialize_megatron(extra_args_provider=add_extra_args)
-    convert_hf_to_mega_ds()
+    convert_ckpt()
diff --git a/tools/preprocess_data.py b/tools/preprocess_data.py
index 399f93c10e7..6e117db31a5 100644
--- a/tools/preprocess_data.py
+++ b/tools/preprocess_data.py
@@ -1,3 +1,4 @@
+# Copyright (C) 2024 Habana Labs, Ltd. an Intel Company.
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 
 """Processing large data for pretraining."""
@@ -193,10 +194,15 @@ def get_args():
     group.add_argument('--tokenizer-type', type=str, required=True,
                        choices=['BertWordPieceLowerCase','BertWordPieceCase',
                                 'GPT2BPETokenizer', 'SentencePieceTokenizer',
-                                'GPTSentencePieceTokenizer', 'NullTokenizer'],
+                                'GPTSentencePieceTokenizer', 'HFTokenizer',
+                                'NullTokenizer'],
                        help='What type of tokenizer to use.')
     group.add_argument('--tokenizer-model', type=str, default=None,
                        help='YTTM tokenizer model.')
+    group.add_argument('--seq-length', type=int, default=None,
+                       help='Maximum sequence length to process.')
+    group.add_argument('--trust-remote-code', action='store_true',
+                       help='To run HFTokenizer model from local path.')
     group.add_argument('--vocab-file', type=str, default=None,
                        help='Path to the vocab file')
     group.add_argument('--vocab-size', default=786,
@@ -229,7 +235,7 @@ def get_args():
         print("Are you sure you don't want to split sentences?")
 
     # some default/dummy values for the tokenizer
-    args.rank = 1
+    args.rank = 0
     args.make_vocab_size_divisible_by = 128
     args.tensor_model_parallel_size = 1
     args.vocab_extra_ids = 0
diff --git a/train.sh b/train.sh
new file mode 100644
index 00000000000..e1f4e5e96cc
--- /dev/null
+++ b/train.sh
@@ -0,0 +1,16 @@
+#!/bin/bash --login
+
+# 1. Source `ezpz/bin/uitils.sh` and setup {job, python} environment:
+# NO_COLOR=1 source <(curl -sL https://bit.ly/ezpz-utils) && ezpz_setup_env
+script -efq /dev/null -c "source <(curl -sL https://bit.ly/ezpz-utils) && ezpz_setup_env"
+# script  -q /dev/null source <(curl -sL https://bit.ly/ezpz-utils) && ezpz_setup_env
+
+# 2. Source `ALCF/helpers.sh` for Megatron-DeepSpeed setup
+source "ALCF/helpers.sh" || exit
+
+# 3. Call `setup` from `./ALCF/helpers.sh`
+setup "$@" || exit
+
+# 4. Run:
+echo "${run_cmd[@]}" | tee -a "${OUTPUT_LOG}"
+eval "${run_cmd[*]}" 2>&1 | tee -a "${OUTPUT_LOG}"
diff --git a/train_aGPT_2B_large_batch.sh b/train_aGPT_2B_large_batch.sh
new file mode 100644
index 00000000000..655f61e222e
--- /dev/null
+++ b/train_aGPT_2B_large_batch.sh
@@ -0,0 +1,41 @@
+#!/bin/bash --login
+#PBS -q prod
+#PBS -A AuroraGPT
+#PBS -j oe
+#PBS -l walltime=06:00:00,filesystems=flare:home
+#PBS -l select=256
+
+
+setup_env() {
+    cd "${PBS_O_WORKDIR}" || {
+        echo "Failed to change directory to ${PBS_O_WORKDIR}"
+        exit 1
+    }
+    # shellcheck disable=SC1090
+    source <(curl -L https://bit.ly/ezpz-utils)
+    ezpz_setup_env
+    log_message INFO "Using: $(which python3)"
+}
+
+train_model() {
+  MODEL_ARCH=AuroraGPT-2B \
+    OPT=sophiag \
+    LR=2.28e-5 \
+    GRAD_ACC_STEPS=2 \
+    MICRO_BATCH=1 \
+    USE_ACTIVATION_CHECKPOINTING=0 \
+    ZERO_STAGE=0 \
+    LR_DECAY_STYLE=constant \
+    TOKENIZER_TYPE=HFTokenizer \
+    TOKENIZER_MODEL=google/gemma-7b \
+    DATA_FILE_LIST=ALCF/data-lists/aurora/olmo-mix-1124.txt \
+    bash "${PBS_O_WORKDIR}/train_alcf.sh" \
+    "$@"
+  }
+
+main() {
+  setup_env
+  train_model "$@"
+}
+
+main "$@"
diff --git a/train_aGPT_2B_sophiag_stage2.sh b/train_aGPT_2B_sophiag_stage2.sh
new file mode 100644
index 00000000000..b11047932dc
--- /dev/null
+++ b/train_aGPT_2B_sophiag_stage2.sh
@@ -0,0 +1,41 @@
+#!/bin/bash --login
+#PBS -q prod
+#PBS -A AuroraGPT
+#PBS -j oe
+#PBS -l walltime=06:00:00,filesystems=flare:home
+#PBS -l select=256
+
+setup_env() {
+	cd "${PBS_O_WORKDIR}" || {
+		echo "Failed to change directory to ${PBS_O_WORKDIR}"
+		exit 1
+	}
+	# shellcheck disable=SC1090
+	source <(curl -L https://bit.ly/ezpz-utils)
+	ezpz_setup_env
+	log_message INFO "Using: $(which python3)"
+}
+
+train_model() {
+	MODEL_ARCH=AuroraGPT-2B \
+		TRAIN_TOKENS=7064155541716 \
+		OPT=sophiag \
+		LR=2.17e-5 \
+		GRAD_ACC_STEPS=2 \
+		MICRO_BATCH=1 \
+		USE_ACTIVATION_CHECKPOINTING=0 \
+		ZERO_STAGE=0 \
+		LR_DECAY_STYLE=constant \
+		TOKENIZER_TYPE=HFTokenizer \
+		TOKENIZER_MODEL=google/gemma-7b \
+		DATA_FILE_LIST=ALCF/data-lists/aurora/dolmino-mix-1124-fused-file-list.txt \
+		bash "${PBS_O_WORKDIR}/train_alcf.sh" \
+		"$@"
+}
+
+main() {
+	setup_env
+	train_model "$@"
+}
+
+main "$@"
diff --git a/train_aGPT_2B_sophiag_stage3.sh b/train_aGPT_2B_sophiag_stage3.sh
new file mode 100644
index 00000000000..48735f2d1d8
--- /dev/null
+++ b/train_aGPT_2B_sophiag_stage3.sh
@@ -0,0 +1,46 @@
+#!/bin/bash --login
+#PBS -q prod
+#PBS -A AuroraGPT
+#PBS -j oe
+#PBS -l walltime=06:00:00,filesystems=flare:home
+#PBS -l select=256
+
+setup_env() {
+	cd "${PBS_O_WORKDIR}" || {
+		echo "Failed to change directory to ${PBS_O_WORKDIR}"
+		exit 1
+	}
+	# shellcheck disable=SC1090
+	source <(curl -L https://bit.ly/ezpz-utils)
+	ezpz_setup_env
+	log_message INFO "Using: $(which python3)"
+}
+
+#   7,064,155,541,716  [7.064 T][@ end of stage2]
+# +   706,610,881,663  [0.706 T]
+# -------------------------------------------------
+#   7,770,766,423,379  [7.770 T][@ end of stage4]
+
+train_model() {
+	MODEL_ARCH=AuroraGPT-2B \
+		TRAIN_TOKENS=7770766423379 \
+		OPT=sophiag \
+		LR=2.17e-5 \
+		GRAD_ACC_STEPS=2 \
+		MICRO_BATCH=1 \
+		USE_ACTIVATION_CHECKPOINTING=0 \
+		ZERO_STAGE=0 \
+		LR_DECAY_STYLE=constant \
+		TOKENIZER_TYPE=HFTokenizer \
+		TOKENIZER_MODEL=google/gemma-7b \
+		DATA_FILE_LIST=ALCF/data-lists/aurora/nvidia-math1-code2.txt \
+		bash "${PBS_O_WORKDIR}/train_alcf.sh" \
+		"$@"
+}
+
+main() {
+	setup_env
+	train_model "$@"
+}
+
+main "$@"
diff --git a/train_aGPT_7B.sh b/train_aGPT_7B.sh
new file mode 100644
index 00000000000..1350ea0f2a4
--- /dev/null
+++ b/train_aGPT_7B.sh
@@ -0,0 +1,40 @@
+#!/bin/bash --login
+#PBS -q lustre_scaling
+#PBS -A Aurora_Deployment
+#PBS -j oe
+
+#####################################
+# AuroraGPT-7B
+#
+# Main production script for training
+# AuroraGPT-7B @ ALCF
+#####################################
+
+# 1. Navigate into `$PBS_O_WORKDIR`
+cd "${PBS_O_WORKDIR}" || exit
+HERE=$(python3 -c 'import os; print(os.getcwd())') && export HERE
+GIT_BRANCH=$(git branch --show-current) && export GIT_BRANCH
+
+
+# 2. source `ALCF/helpers.sh`
+source "${HERE}/ALCF/helpers.sh" || exit
+
+# 3. call `setup` from `./ALCF/helpers.sh`
+setup "$@" || exit
+# export run_cmd="${run_cmd}"
+echo "${run_cmd[@]}" | tee -a "${OUTPUT_LOG}"
+
+# 4. Tell user where to find output
+printf "[!! %s] View output at:\n %s\n" "$(printBlue "NOTE")" "$(printYellow "${OUTPUT_LOG}")" | tee -a "${OUTPUT_LOG}"
+
+# # 5. Ignore the following strings on Intel XPU devices
+# #    (otherwise they'll clutter up logs)
+# XPU_IGNORE_STRING="CCL_WARN|\ -\ INFO\ \-\ |real_accelerator\.py|numexpr\.utils|async_io|libaio"
+
+# if [[ $(ezpz_get_machine_name) == "aurora" ]]; then
+#     module unload mpich && module load mpich
+# fi
+#
+# 6. Evaluate ${run_cmd} and append outputs to ${OUTPUT_LOG}
+# eval "${run_cmd[@]}" |& tee -a "${OUTPUT_LOG}"
+eval "${run_cmd[*]}" |& tee -a "${OUTPUT_LOG}"
diff --git a/train_aGPT_7B_chain.sh b/train_aGPT_7B_chain.sh
new file mode 100644
index 00000000000..0a3c69173d3
--- /dev/null
+++ b/train_aGPT_7B_chain.sh
@@ -0,0 +1,38 @@
+#!/bin/bash --login
+# Example usage:
+# WALLTIME="06:00:00" NJOBS=4 NHOSTS=64 bash train_aGPT_7B_chain.sh
+
+NHOSTS="${NHOSTS:-24}"
+#!/bin/bash --login
+# Example usage:
+# WALLTIME="06:00:00" NJOBS=4 NHOSTS=64 bash train_aGPT_7B_chain.sh
+
+NHOSTS="${NHOSTS:-24}"
+WALLTIME="${WALLTIME:-"02:00:00"}"
+NJOBS="${NJOBS:-10}"
+
+JOBIDS=()
+
+printf "Caught NHOSTS: %s, WALLTIME: %s, NJOBS: %s\n" "${NHOSTS}" "${WALLTIME}" "${NJOBS}"
+printf "Submitting job 0/%s\n" "${NJOBS}"
+job_cmd="qsub -A datascience -q prod -l select=${NHOSTS} -l walltime=${WALLTIME},filesystems=flare:home ~/test.sh"
+printf "JOB0: %s\n" "${job_cmd}"
+# JOBIDS+=("$(bash -c "${job_cmd}")")
+# JOBIDS+=("$(eval "${job_cmd}")")
+# echo "${JOBIDS[@]}"
+jobid=($(eval "${job_cmd}"))
+echo "First jobid: ${jobid[*]}"
+
+for (( idx=1; idx<="${NJOBS}"; idx+=1 )); do
+    echo "Submitting job ${idx}/${NJOBS}"
+    printf "JOBIDS[idx]: %s\n" "${JOBIDS[idx]}"
+    echo "${JOBIDS[idx]}"
+    job_cmd="qsub -W depend=afterany:${JOBIDS[idx]} -A datascience -q prod -l select=${NHOSTS} -l walltime=${WALLTIME},filesystems=flare:home ~/test.sh"
+    echo "Job cmd for JOB ${idx}:"
+    echo "${job_cmd}"
+    JOBIDS+=("$(bash -c "${job_cmd}")")
+    # printf "%s\n" "${job_cmd}"
+    # eval "${job_cmd}"
+    # JOBIDS+=("$(eval "${job_cmd}")")
+    # printf "Submitted %s/%s: %s\n" "${idx}" "${NJOBS}" "${JOBIDS[((idx + 1))}"
+done
diff --git a/train_agpt_polaris_7B_production.sh b/train_agpt_polaris_7B_production.sh
new file mode 100644
index 00000000000..f83b6ebc29b
--- /dev/null
+++ b/train_agpt_polaris_7B_production.sh
@@ -0,0 +1,29 @@
+#!/bin/bash --login
+#
+# This script can be submitted with `qsub` via:
+#
+# ```bash
+# $ git clone https://github.com/argonee-lcf/Megatron-DeepSpeed
+# $ cd Megatron-DeepSpeed
+# $ qsub train_agpt_polaris_7B_production.sh
+# ```
+
+cd "${PBS_O_WORKDIR}" || exit
+
+TODAY="$(date "+%Y-%m-%d")"
+NOW="$(date "+%Y-%m-%d-%H%M%S")"
+OUTDIR="${PBS_O_WORKDIR}/pbslogs/${TODAY}"
+OUTFILE="${OUTDIR}/${PBS_JOBID}-${NOW}.log"
+mkdir -p $(dirname "${OUTFILE}")
+
+echo "${OUTFILE}" >> "$(dirname ${OUTDIR})/latest"
+echo "Logging job output to: ${OUTFILE}"
+
+# export DEBUG=1
+# export TORCH_NCCL_HEARTBEAT_TIMEOUT_SEC=6000
+
+# Path to the data file list:
+DFL="${PBS_O_WORKDIR}/ALCF/data-lists/polaris/dolma_v1_7_file_list.txt"
+
+# Launch:
+MICRO_BATCH=2 DATA_FILE_LIST="${DFL}" bash "${PBS_O_WORKDIR}/train_llama_alcf.sh" |& tee "${OUTFILE}"
diff --git a/train_alcf.sh b/train_alcf.sh
new file mode 100644
index 00000000000..17624893566
--- /dev/null
+++ b/train_alcf.sh
@@ -0,0 +1,67 @@
+#!/bin/bash --login
+#PBS -q lustre_scaling
+#PBS -A Aurora_Deployment
+#PBS -j oe
+
+HERE=$(python3 -c 'import os; print(os.getcwd())') && export HERE
+GIT_BRANCH=$(git branch --show-current) && export GIT_BRANCH
+
+# shellcheck disable=SC1090
+source <(curl -L https://bit.ly/ezpz-utils)
+ezpz_setup_env
+
+# if  command -v "ezpz-test"; then
+#     log_message INFO "${GREEN}✓${RESET} ezpz is already installed."
+#     # printf "[!! %s] ezpz is already installed.\n" "$(printGreen "INFO")"
+# else
+#     log_message WARNING "${RED}✗${RESET} ezpz is not installed."
+#     log_message INFO "Installing ezpz..."
+#     python3 -m pip install "git+https://github.com/saforem2/ezpz" || exit
+# fi
+
+
+#####################################
+# AuroraGPT-7B
+#
+# Main production script for training
+# AuroraGPT-7B @ ALCF
+#####################################
+train_aGPT() {
+
+    # 1. Navigate into `$PBS_O_WORKDIR`
+    # cd "${PBS_O_WORKDIR}" || exit
+    HERE=$(python3 -c 'import os; print(os.getcwd())') && export HERE
+    GIT_BRANCH=$(git branch --show-current) && export GIT_BRANCH
+
+    # 2. source `ALCF/helpers.sh` for Megatron-DeepSpeed setup
+    source "${HERE}/ALCF/helpers.sh" || {
+      log_message ERROR "Unable to source ALCF/helpers.sh."
+      log_message ERROR "Please ensure you are in the correct directory."
+      return 1
+    }
+
+    # 3. call `setup` from `./ALCF/helpers.sh`
+    setup "$@" || exit
+    # export run_cmd="${run_cmd}"
+    echo "${run_cmd[@]}" | tee -a "${OUTPUT_LOG}"
+
+    # 4. Tell user where to find output
+    printf "Output will be saved to %s\n" "${OUTPUT_LOG}" | tee -a "${OUTPUT_LOG}"
+    # printf "[!! %s] View output at:\n %s\n" "$(printBlue "NOTE")" "$(printYellow "${OUTPUT_LOG}")" | tee -a "${OUTPUT_LOG}"
+
+    # 5. Evaluate ${run_cmd} and append outputs to ${OUTPUT_LOG}
+    # eval "${run_cmd[*]}" |& tee -a "${OUTPUT_LOG}"
+    if [[ "${DEBUG:-}" ]]; then
+        set -x
+        bash -c "${run_cmd[*]}" |& tee -a "${OUTPUT_LOG}"
+        set +x
+    else
+        bash -c "${run_cmd[*]}" |& tee -a "${OUTPUT_LOG}"
+    fi
+}
+
+
+# Kill any existing MPI processes
+# ezpz_kill_mpi || exit
+
+train_aGPT "$@"
diff --git a/train_llama_alcf.sh b/train_llama_alcf.sh
new file mode 100644
index 00000000000..259552ffbcf
--- /dev/null
+++ b/train_llama_alcf.sh
@@ -0,0 +1,49 @@
+#!/bin/bash --login
+
+###############################################################################
+# Check if running in DEBUG=1 mode.
+#   - If so, this will print each command before it is ran and exit if any of
+#   them return a nonzero exit status.
+###############################################################################
+if [[ -n "${DEBUG-}" ]]; then  # to use: `DEBUG=1 bash train_llama_alcf.sh`
+    printf "\e[1;31m%s\e[0m\n" "!! RUNNING IN DEBUG MODE !!"
+    set -euxo pipefail
+fi
+
+###############################################################################
+# Print (but DO NOT EXECUTE !!) each command that would be ran.
+#
+# Enable with: NOOP=1 PBS_O_WORKDIR=$(pwd) bash train_llama_alcf.sh
+###############################################################################
+if [[ -v NOOP ]]; then         # to use: `NOOP=1 bash train_llama_alcf.sh`
+  echo "Run NOOP mode"
+  set -o noexec                # same as set -n
+fi
+
+XPU_IGNORE_STRING="CCL_WARN|\ -\ INFO\ \-\ |real_accelerator\.py|numexpr\.utils|async_io|libaio"
+
+#####################
+# MAIN PROGRAM LOGIC
+#####################
+main() {
+    # 1. Navigate into `$PBS_O_WORKDIR`
+    cd "${PBS_O_WORKDIR}" || exit
+    HERE=$(python3 -c 'import os; print(os.getcwd())') && export HERE
+    # 2. source `ALCF/helpers.sh`
+    source "${HERE}/ALCF/helpers.sh" || exit
+    # 3. call `setup` from `./ALCF/helpers.sh`
+    setup "$@" || exit
+    # 4. Take custom args
+    export custom_args=" $@"
+    # 5. Update ${run_cmd} (from setup ALCF/helpers.sh) with ${custom_args}
+    export run_cmd="${run_cmd} ${custom_args}"
+    # 6. Add "${run_cmd}" to output log
+    echo "${run_cmd}" | tee -a "${OUTPUT_LOG}"
+    # 7. Tell user where to find output
+    printf "[!! %s] View output at:\n %s\n" "$(printBlue "NOTE")" "$(printYellow "${OUTPUT_LOG}")" | tee -a "${OUTPUT_LOG}"
+    # 8. Evaluate ${run_cmd} and append outputs to ${OUTPUT_LOG}
+    eval "${run_cmd}" |& grep -E -v "${XPU_IGNORE_STRING}" |& tee -a "${OUTPUT_LOG}"
+    set +x
+}
+
+main
diff --git a/train_llama_alcf_aurora.sh b/train_llama_alcf_aurora.sh
deleted file mode 100644
index 48651dbeb1c..00000000000
--- a/train_llama_alcf_aurora.sh
+++ /dev/null
@@ -1,234 +0,0 @@
-#!/bin/bash --login
-#PBS -l walltime=06:00:00
-#PBS -A argonne_tpc
-#PBS -q prod
-#PBS -l select=48
-#PBS -l filesystems=eagle:home
-#
-
-function sourceFile() {
-    fp="$1"
-    if [[ -f "${fp}" ]]; then
-        echo "Found ${fp}, \`source\`-ing"
-        # shellcheck source="${fp}"
-        source "${fp}"
-    else
-        echo "ERROR: UNABLE TO SOURCE ${fp}"
-    fi
-}
-
-# +++++++++++++++ SCRIPT START ++++++++++++++++++++++
-# ---- source ./helpers_alcf.sh ---------------------
-cd "${PBS_O_WORKDIR}" || exit
-HERE=$(python3 -c 'import os; print(os.getcwd())')
-sourceFile "${HERE}/ALCF_utils/helpers_alcf.sh" || exit
-# cd ~/anl_24_release_q4/llm.devkit/Megatron-DeepSpeed || exit
-# eval "$(/home/foremans/miniconda3/bin/conda shell.zsh hook)" && conda activate anl_release_q4v2
-ezpz || exit
-setEnv || exit
-saveDSenv || exit
-makeHostfiles || exit
-setupData "${DATA_FILE_LIST:-${HERE}/data_file_list_reweighted.txt}" || exit
-# dfl_fallback="${HERE}/data_file_list_shuf_debug.txt"
-
-# # ---- DATA SETUP ------------------------------------
-# dfl_debug="./data_file_list_shuf_debug.txt"
-# DATA_FILE_LIST="${DATA_FILE_LIST:-${dfl_debug}}" && export DATA_FILE_LIST="${DATA_FILE_LIST}"
-# NUM_DOCS=$(wc -l < "${DATA_FILE_LIST}") && export NUM_DOCS="${NUM_DOCS}"
-# WEIGHT_SUM="$(sumWeights "${DATA_FILE_LIST}")" && export WEIGHT_SUM="${WEIGHT_SUM}"
-# DFL_STEM=$(echo "$DATA_FILE_LIST" | tr "\/" "\t" | awk '{print $NF}' | sed "s/\.txt//g") && export DFL_STEM="${DFL_STEM}"
-# dcp="${HERE}/.cache/${DFL_STEM}-index-cache"
-# DATA_CACHE_PATH="${DATA_CACHE_PATH:-${dcp}}" && export DATA_CACHE_PATH="${DATA_CACHE_PATH}"
-# mkdir -p "${DATA_CACHE_PATH}"
-# if [[ -n "${DOLMA_CHUNK_IDX}" ]]; then
-#     echo "Using DOLMA CHUNK ${DOLMA_CHUNK_IDX} from ${DATA_FILE_LIST} with ${NUM_DOCS} documents..."
-# else
-#     echo "Using NUM_DOCS=${NUM_DOCS} documents from DATA_FILE_LIST=${DATA_FILE_LIST}"
-# fi
-
-
-# ---- Parallelism Settings --------------------------
-PP=${PP:-1}
-TP=${TP:-1}
-export PP="${PP}"
-export TP="${TP}"
-export HOSTFILE="${HOSTFILE:-${PBS_NODEFILE}}"
-export WORLD_SIZE=${WORLD_SIZE:-$(wc -l < "${HOSTFILE}")}
-# export WORLD_SIZE=${WORLD_SIZE:-$(wc -l < "${PBS_NODEFILE}")}
-# ----------------------------------------------------
-
-# ---- Llama2 7B Config -----------------------
-export HEADS=${HEADS:-32}
-export NLAYERS=${NLAYERS:-32}
-export HIDDEN=${HIDDEN:-4096}
-export NUM_KV_HEAD=${NUM_KV_HEAD:-8}
-export MODEL_TYPE="llama-seq${SEQ}-pp${PP}-tp${TP}-${NLAYERS}layers-${HEADS}heads-${HIDDEN}hidden"
-# ---------------------------------------------
-
-# ---- Run Settings ---------------------------
-export LR=${LR:-0.0003}
-export SEQ=${SEQ:-4096}
-export DTYPE=${DTYPE:-bf16}
-export ZERO_STAGE=${ZERO_STAGE:-2}
-export MICRO_BATCH=${MICRO_BATCH:-4}
-export GRAD_ACC_STEPS=${GRAD_ACC_STEPS:-1}
-export TRAIN_ITER=${TRAIN_ITER:-317892}
-export SAVE_INTERVAL=${SAVE_INTERVAL:-200}
-export USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING:-1}
-export GLOBAL_BATCH=$(( $WORLD_SIZE * $MICRO_BATCH * $GRAD_ACC_STEPS / $TP / $PP ))
-export USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING:-0}
-export TOKENIZER_MODEL="/lus/gecko/projects/Aurora_deployment/AuroraGPT/datasets/dolma/utils/tokenizer.model"
-# export EXTRA_ARGS=""
-export LLAMA_ARGS="--no-query-key-layer-scaling --use-rotary-position-embeddings --untie-embeddings-and-output-weights --swiglu --normalization rmsnorm --disable-bias-linear"
-# ---------------------------------------------
-
-# ---- Build DeepSpeed Config ---------------------------------
-export DS_CONFIG="ds_stage${ZERO_STAGE}_mb${MICRO_BATCH}_gb${GLOBAL_BATCH}_pp${PP}_${DTYPE}.json"
-bash "${HERE}/generate_config.sh" "${DS_CONFIG}" || exit
-# -------------------------------------------------------------
-
-
-# ---- Specify output location --------------------------------
-export OUTPUT_PREFIX="ds_stage${ZERO_STAGE}_nl${NLAYERS}_hs${HIDDEN}_mb${MICRO_BATCH}_seq${SEQ}_gb${GLOBAL_BATCH}_pp${PP}_tp${TP}_${DTYPE}"
-# OUTPUT_DIR=logs/ds_stage${ZERO_STAGE}_nl${NLAYERS}_hs${HIDDEN}_mb${MICRO_BATCH}_seq${SEQ}_gb${GLOBAL_BATCH}_pp${PP}_tp${TP}_${DTYPE}_`date +%m%d%H%M%S`_${HOSTNAME}
-OUTPUT_DIR="logs/${OUTPUT_PREFIX}/$(date +%m%d%H%M%S)_${HOSTNAME}"
-export OUTPUT_DIR="${OUTPUT_DIR}"
-export OUTPUT_LOG="${OUTPUT_DIR}/output.log"
-export CKPT_DIR="checkpoints/${OUTPUT_PREFIX}"
-echo "${OUTPUT_LOG}" >> "logs/latest"
-mkdir -p "${OUTPUT_DIR}"
-echo "!!!Please see logs at ${OUTPUT_DIR}"
-
-
-gpt_args=()
-ds_args=" "
-ds_args=" --deepspeed ${ds_args}"
-if [ "$PP" == 1 ]; then
-   ds_args=" --no-pipeline-parallel ${ds_args}" 
-fi
-ds_args=" --deepspeed_config=$DS_CONFIG ${ds_args}"
-ds_args=" --zero-stage=$ZERO_STAGE ${ds_args}"
-
-# BUG: [???] ----------------------------------------------------------------
-# I dont know where this came from...
-# > we are now using activation checkpoint provided by megatron, see below.
-# ---------------------------------------------------------------------------
-#
-# NOTE: [???] ---------------------------------------------------------------
-# In `train_llama_alcf_polaris.sh` we also pass
-# `"--checkpoint-num-layers 1"`
-# ----------------------------------------------------------------------------
-if [[ "$USE_ACTIVATION_CHECKPOINTING" == 1 ]]; then
-    echo "!! Caught USE_ACTIVATION_CHECKPOINTING=${USE_ACTIVATION_CHECKPOINTING} !!"
-    ds_args=" --deepspeed-activation-checkpointing ${ds_args}"
-    gpt_args+=(
-        "--checkpoint-activations"
-    )
-    # "--checkpoint-num-layers 1"
-    # --checkpoint-activations \
-    # --deepspeed-activation-checkpointing
-fi
-
-# take custom args
-custom_args=" $@"
-
-# Ensure `./hostfile_deepspeed` and `./hostfile_mpich` exist in $(pwd)
-hfds="${HERE}/hostfile_deepspeed"
-hfmpi="${HERE}/hostfile_mpich"
-[ -f "$hfds" ] || exit
-[ -f "$hfmpi" ] || exit
-
-# launcher setting
-LAUNCHER=${LAUNCHER:-MPICH}
-if [[ $LAUNCHER == "deepspeed" ]]; then
-    launcher=""
-else
-    launcher="--force_multi --hostfile ${hfds} --launcher=${LAUNCHER} --launcher_args='-hostfile ${hfmpi}'"
-fi
-
-
-if [[ $(hostname) == x4* ]]; then
-    CCL=${CCL:-ccl}
-    BE="${CCL}"
-elif [[ $(hostname) == x3* ]]; then
-    NCCL=${NCCL:-nccl}
-    BE="${NCCL}"
-fi
-# NCCL=${NCCL:-nccl}
-EXEC=pretrain_gpt_alcf.py
-
-# MODEL=LLAMA_7B
-# OUTPUT_PREFIX=${MODEL}_z${ZERO_STAGE}_seqlen_tp${TP}_pp${PP}_sp${SP}_nl${NUM_LAYERS}_hs${HIDDEN_SIZE}_gb${BS}_mb${MBS}
-echo "++++++++++++++++++++++++++++++++++++++++++++++++++"
-echo "- WORLD_SIZE:${WORLD_SIZE}"
-echo "- BACKEND: ${BE}"
-echo "- MODEL_TYPE: ${MODEL_TYPE}"
-echo "- DOCUMENT WEIGHT_SUM: ${WEIGHT_SUM}"
-echo "- Using DATA_FILE_LIST: ${DATA_FILE_LIST}"
-echo "- Using NUM_DOCS=${NUM_DOCS} documents from DATA_FILE_LIST=${DATA_FILE_LIST}"
-echo "++++++++++++++++++++++++++++++++++++++++++++++++++"
-
-run_cmd="
-    deepspeed $launcher ${EXEC} \
-    --use-flash-attn \
-    --num-key-value-heads ${NUM_KV_HEAD} \
-    --tensor-model-parallel-size $TP \
-    --pipeline-model-parallel-size $PP \
-    --num-layers $NLAYERS \
-    --hidden-size $HIDDEN \
-    --num-attention-heads $HEADS \
-    --seq-length $SEQ \
-    --max-position-embeddings $SEQ \
-    --micro-batch-size $MICRO_BATCH \
-    --global-batch-size $GLOBAL_BATCH \
-    --train-iters $TRAIN_ITER \
-    --lr ${LR} \
-    --lr-decay-style cosine \
-    --log-interval 1 \
-    --save-interval ${SAVE_INTERVAL} \
-    --split 100,0,0 \
-    --$DTYPE \
-    --no-masked-softmax-fusion \
-    --no-bias-gelu-fusion \
-    --no-bias-dropout-fusion \
-    --no-gradient-accumulation-fusion \
-    --distributed-backend ${BE} \
-    --tokenizer-type Llama2Tokenizer \
-    --save checkpoints/${OUTPUT_PREFIX} \
-    --load checkpoints/${OUTPUT_PREFIX} \
-    --use-checkpoint-opt_param-scheduler \
-    --tokenizer-model ${TOKENIZER_MODEL} \
-    --data-file-list ${DATA_FILE_LIST} \
-    --data-cache-path ${DATA_CACHE_PATH} \
-    $ds_args \
-    ${LLAMA_ARGS} \
-    ${gpt_args[*]} \
-    $custom_args \
-    |& tee ${OUTPUT_LOG}
-    "
-    # >> ${OUTPUT_LOG} 2>&1 &
-    # |& tee $OUTPUT_DIR/output.log
-
-# --ffn-hidden-size 11008 \
-# --vocab-file $VOCAB_FILE \
-# --merge-file $MERGE_FILE \
-# --lr-decay-iters 320000 \
-# --num-workers 0 \
-# --eval-iters ${EVAL_ITERS} \
-# --eval-interval ${EVAL_INTERVAL} \
-# --lr-warmup-iters 5000 \
-# --lr-decay-iters 10000 \
-# --accumulate-allreduce-grads-in-fp32 \
-# --data-impl mmap \
-
-echo "All DeepSpeed(s): $(which -a deepspeed)"
-echo "Using $(which deepspeed)"
-ds_report
-
-echo "${run_cmd}"
-
-printf "[!! \e[1;31m%s\e[0m] View output at:\n" "NOTE"
-printf "\e[1;34m%s\e[0m\n" "${OUTPUT_LOG}"
-
-eval "${run_cmd}"
-set +x
diff --git a/train_llama_alcf_polaris_hzheng.sh b/train_llama_alcf_polaris_hzheng.sh
index 0ca7cb78bbf..83d8a2c5a7e 100755
--- a/train_llama_alcf_polaris_hzheng.sh
+++ b/train_llama_alcf_polaris_hzheng.sh
@@ -4,25 +4,22 @@
 #PBS -q debug-scaling
 #PBS -l select=2
 #PBS -l filesystems=eagle:grand:home
-export PPN=4
-export MD=/home/hzheng/ALCF-Megatron-DeepSpeed
-module load conda/2023-10-04
-#conda activate /soft/datascience/megatron-deepspeed/2023-10-04
-conda activate $HOME/PolarisAT/pyenvs/megatron/2023-10-04
 cd ${PBS_O_WORKDIR}
+export PPN=4
+export MD=/eagle/argonne_tpc/soft/Megatron-DeepSpeed
+source /eagle/argonne_tpc/soft/conda.sh
+
 export PBS_JOBSIZE=$(cat $PBS_NODEFILE | uniq | wc -l)
 export TP=1
 export PP=1
 export MBS=1
 export BS=$((MBS*PBS_JOBSIZE*PPN/PP/TP))
 export SP=$((PBS_JOBSIZE*PPN/PP/TP))
-#export DATA_PATH="/eagle/datasets//dolma/data_Llama2Tokenizer/common-crawl/cc_en_middle/"
-
-export export DATE_TAG=$(date +"%Y-%m-%d-%H-%M-%S")
-export DATA_PATH="/eagle/datasets//dolma/data_Llama2Tokenizer/wiki-en-simple/"
-#export DATA_FILE_LIST="/eagle/datasets//dolma//data_file_list_select.txt"
-DATA_FILE_LIST=$PWD/test.txt
-echo "BS: $BS\n PP:$PP \n TP: $TP, PBS_JOBSIZE: $PBS_JOBSIZE"
+export DATE_TAG=$(date +"%Y-%m-%d-%H-%M-%S")
+export DATA_FILE_LIST="/eagle/datasets//dolma/data_file_list_reweighted.txt"
+echo "BS: $BS - PP:$PP - TP: $TP, PBS_JOBSIZE: $PBS_JOBSIZE"
+# First time running, it will compile the fused kernels, which will take about 10 mins
+# >>> done with compiling and loading fused kernels. Compilation time: 545.468 seconds
 
 HIDDEN_SIZE=4096
 NUM_LAYERS=32
@@ -31,8 +28,9 @@ EMBEDDINGS=2048
 TRAIN_ITERS=10
 ZERO_STAGE=2
 MODEL=LLAMA_7B
+#LAUNCHER="//eagle/argonne_tpc/soft/Megatron-DeepSpeed/..//conda/2024-03-11/lib/python3.10/site-packages/deepspeed/launcher/launcher_helper.py --launcher mpich "
 OUTPUT_PREFIX=${MODEL}_z${ZERO_STAGE}_seqlen_mp${MP}_pp${PP}_sp${SP}_nl${NUM_LAYERS}_hs${HIDDEN_SIZE}_gb${BS}_mb${MBS}
-MASTER_ADDR=localhost MASTER_PORT=6543 mpiexec -n $((PBS_JOBSIZE*PPN)) -ppn $PPN --cpu-bind depth -d 16 --hostfile $PBS_NODEFILE python3 ./pretrain_gpt_alcf.py \
+APRUN_PMI=pmix aprun -n $((PBS_JOBSIZE*PPN)) -N $PPN --cc depth -d 16 /eagle/argonne_tpc/soft/Megatron-DeepSpeed/local_rank.sh python3 $LAUNCHER ./pretrain_gpt_alcf.py \
 	   --tensor-model-parallel-size ${TP} \
 	   --pipeline-model-parallel-size ${PP} \
 	   --num-layers ${NUM_LAYERS} \
@@ -74,4 +72,5 @@ MASTER_ADDR=localhost MASTER_PORT=6543 mpiexec -n $((PBS_JOBSIZE*PPN)) -ppn $PPN
 	   --data-file-list ${DATA_FILE_LIST} \
 	   --data-path ${DATA_PATH} \
 	   --vocab-file ${MD}/dataset/gpt2-vocab.json --merge-file ${MD}/dataset/gpt2-merges.txt \
-	   --zero-stage=${ZERO_STAGE} --deepspeed_config=${MD}/ds_config-gpt.json --deepspeed
+	   --zero-stage=${ZERO_STAGE} --deepspeed_config=${MD}/ds_config-gpt.json --deepspeed \
+	   --data-cache-path ./data_cache_path/
diff --git a/train_llama_alcf_sunspot.sh b/train_llama_alcf_sunspot.sh
deleted file mode 100644
index d5e83c57a0e..00000000000
--- a/train_llama_alcf_sunspot.sh
+++ /dev/null
@@ -1,168 +0,0 @@
-#!/bin/bash --login
-#PBS -l walltime=06:00:00
-#PBS -A argonne_tpc
-#PBS -q prod
-#PBS -l select=48
-#PBS -l filesystems=eagle:home
-
-function sourceFile() {
-    fp="$1"
-    echo "source-ing ${fp}"
-    if [[ -f "${fp}" ]]; then
-        # shellcheck source="${fp}"
-        source "${fp}"
-    else
-        echo "ERROR: UNABLE TO SOURCE ${fp}"
-    fi
-}
-
-module () {
-  if [ -z "${LMOD_SH_DBG_ON+x}" ]
-  then
-    case "$-" in
-      (*v*x*) __lmod_sh_dbg='vx'  ;;
-      (*v*) __lmod_sh_dbg='v'  ;;
-      (*x*) __lmod_sh_dbg='x'  ;;
-    esac
-  fi
-  if [ -n "${__lmod_sh_dbg:-}" ]
-  then
-    set +$__lmod_sh_dbg
-    echo "Shell debugging temporarily silenced: export LMOD_SH_DBG_ON=1 for Lmod's output" >&2
-  fi
-  eval "$($LMOD_CMD $LMOD_SHELL_PRGM "$@")" && eval "$(${LMOD_SETTARG_CMD:-:} -s sh)"
-  __lmod_my_status=$?
-  if [ -n "${__lmod_sh_dbg:-}" ]
-  then
-    echo "Shell debugging restarted" >&2
-    set -$__lmod_sh_dbg
-  fi
-  unset __lmod_sh_dbg
-  return $__lmod_my_status
-}
-
-#
-# eval "$(/home/foremans/miniconda3/bin/conda shell.zsh hook)"
-# conda activate q4-drop
-
-if [[ $(hostname) == x1* || $(hostname) == x4* ]] ; then
-  echo "!!!! Caught Intel XPU, using CPU_OPTIMIZER !!!!"
-  export CPU_OPTIMIZER=1;
-fi
-
-
-# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-# ---- 0. Navigate into `$PBS_O_WORKDIR` -------------------------------------
-cd "${PBS_O_WORKDIR}" || exit
-HERE=$(python3 -c 'import os; print(os.getcwd())')
-export HERE
-# ---- 1. Assert `./pretrain_gpt_alcf.py` exists: -----------------------------
-export EXEC="${HERE}/pretrain_gpt_alcf.py"
-[ -f "${EXEC}" ] || exit
-# ---- 2. `source ./ALCF/helpers_alcf.sh`: ------------------------------------
-sourceFile "${HERE}/ALCF/helpers.sh" || exit
-# ---- 3. Call fns from `./ALCF/helpers_alcf.sh` ------------------------------------------------------------------
-setEnv || exit                                # 1. load `conda` environment
-saveDSenv || exit                             # 2. save env vars to `.deepspeed_env`
-ezpz || exit                                  # 3. determine WORLD_SIZE, etc. from `PBS_*` vars
-makeHostfiles || exit                         # 4. create `deepspeed` hostfile from `$PBS_NODEFILE`
-setParams || exit                             # 5. set command line arguments to pass to `"${EXEC}"`
-buildDSconfig || exit   # 6. create `deepspeed_config.json` from runtime params from ^
-setOutput || exit                             # 7. specify output directory for {logs, checkpoints, etc.}
-setArgs || exit                               # 8. specify additional `deepspeed` arguments
-setData "${DATA_FILE_LIST}"|| exit            # 9. specify `DATA_FILE_LIST` for dolma dataset
-setDSlauncher "${HERE}" || exit               # 10. set `launcher` args for `deepspeed ${launcher} ${EXEC} ${args}`
-printJobInfo || exit                          # 11. print job info
-# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
-
-# Take custom args
-custom_args=" $@"
-
-# Assert `./hostfile_deepspeed` exists
-export hfds="${HERE}/hostfile_deepspeed" && [ -f "${hfds}" ] || exit
-
-# hf="${HOSTFILE:-${PBS_NODEFILE}}"
-# nh=$(wc -l "${hf}")
-# if [[ "${nh}" -gt 1 ]]; then
-#     launch_cmd="deepspeed --hostfile $hfds --launcher MPICH ${EXEC}"
-# else
-#     launch_cmd="python3 ${EXEC}"
-# fi
-#
-# echo "launch_cmd: ${launch_cmd}"
-
-    # --use-flash-attn-v2 \
-    # python3 ${EXEC} \
-run_cmd="
-    deepspeed --hostfile $hfds --launcher MPICH ${EXEC} \
-    --$DTYPE \
-    --num-workers 0 \
-    --split 100,0,0 \
-    --log-interval 1 \
-    --no-bias-gelu-fusion \
-    --lr-decay-style cosine \
-    --no-bias-dropout-fusion \
-    --no-masked-softmax-fusion \
-    --tokenizer-type Llama2Tokenizer \
-    --no-gradient-accumulation-fusion \
-    --accumulate-allreduce-grads-in-fp32 \
-    --use-checkpoint-opt_param-scheduler \
-    --lr ${LR} \
-    --seq-length $SEQ \
-    --save ${CKPT_DIR} \
-    --load ${CKPT_DIR} \
-    --num-layers ${NLAYERS} \
-    --hidden-size ${HIDDEN} \
-    --train-iters ${TRAIN_ITER} \
-    --eval-iters ${EVAL_ITERS} \
-    --distributed-backend ${BE} \
-    --num-attention-heads ${HEADS} \
-    --save-interval ${SAVE_INTERVAL} \
-    --eval-interval ${EVAL_INTERVAL} \
-    --max-position-embeddings ${SEQ} \
-    --micro-batch-size ${MICRO_BATCH} \
-    --data-file-list ${DATA_FILE_LIST} \
-    --tensor-model-parallel-size ${TP} \
-    --global-batch-size ${GLOBAL_BATCH} \
-    --pipeline-model-parallel-size ${PP} \
-    --num-key-value-heads ${NUM_KV_HEAD} \
-    --data-cache-path ${DATA_CACHE_PATH} \
-    --ffn-hidden-size ${FFN_HIDDEN_SIZE} \
-    --tokenizer-model ${TOKENIZER_MODEL} \
-    ${LLAMA_ARGS} \
-    $ds_args \
-    ${gpt_args[*]} \
-    $custom_args \
-    |& tee ${OUTPUT_LOG}
-    "
-
-    # ---------------------------------------------------
-    # --vocab-file $VOCAB_FILE \
-    # --merge-file $MERGE_FILE \
-    # --lr-decay-iters 320000 \
-    # --lr-warmup-iters 5000 \
-    # --lr-decay-iters 10000 \
-    # --num-workers 4 \
-    # launch python3 ${EXEC} \
-    # --data-impl mmap \
-    # source ./ezpz/src/ezpz/bin/getjobenv || exit
-    # ---------------------------------------------------
-    # ${DIST_LAUNCH} ./local_rank.sh python3 ${EXEC} \
-    # ${DIST_LAUNCH} python3 ${EXEC} \
-    # deepspeed $launcher ${EXEC} \
-    # >> ${OUTPUT_LOG} 2>&1 &
-    # >> ${OUTPUT_LOG} 2>&1 &
-    # |& tee $OUTPUT_DIR/output.log
-    # ${EXTRA_ARGS} \
-
-echo "All DeepSpeed(s): $(which -a deepspeed)"
-echo "Using $(which deepspeed)"
-ds_report
-
-echo "${run_cmd}"
-
-printf "[!! \e[1;31m%s\e[0m] View output at:\n" "NOTE"
-printf "\e[1;34m%s\e[0m\n" "${OUTPUT_LOG}"
-# echo "${OUTPUT_LOG}"
-eval "${run_cmd}"
-set +x
diff --git a/train_llama_alcf_polaris.sh b/train_llama_nersc_perlmutter.sh
similarity index 70%
rename from train_llama_alcf_polaris.sh
rename to train_llama_nersc_perlmutter.sh
index 2e1a23010c5..81315798098 100644
--- a/train_llama_alcf_polaris.sh
+++ b/train_llama_nersc_perlmutter.sh
@@ -1,9 +1,11 @@
 #!/bin/bash --login
-#PBS -l walltime=06:00:00
-#PBS -A argonne_tpc
-#PBS -q prod
-#PBS -l select=48
-#PBS -l filesystems=eagle:home
+#SBATCH -A m4388_g
+#SBATCH -C 'gpu&hbm80g'
+#SBATCH -q regular
+#SBATCH -t 00:30:00
+#SBATCH --nodes 128
+#SBATCH --gpus 512
+#
 
 function sourceFile() {
     fp="$1"
@@ -18,9 +20,11 @@ function sourceFile() {
 
 # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
 # ---- 0. Navigate into `$PBS_O_WORKDIR` -------------------------------------
-cd "${PBS_O_WORKDIR}" || exit
+# cd "${PBS_O_WORKDIR}" || exit
+cd "${SLURM_SUBMIT_DIR}" || exit
 HERE=$(python3 -c 'import os; print(os.getcwd())')
 export HERE
+# dflfb="${HERE}/genslm-subsample.txt"
 # ---- 1. Assert `./pretrain_gpt_alcf.py` exists: -----------------------------
 export EXEC="${HERE}/pretrain_gpt_alcf.py"
 [ -f "${EXEC}" ] || exit
@@ -35,7 +39,7 @@ setParams || exit                   # 5. set command line arguments to pass to `
 buildDSconfig || exit               # 6. create `deepspeed_config.json` from runtime params from ^
 setOutput || exit                   # 7. specify output directory for {logs, checkpoints, etc.}
 setArgs || exit                     # 8. specify additional `deepspeed` arguments
-setData "${DATA_FILE_LIST}"|| exit  # 9. specify `DATA_FILE_LIST` for dolma dataset
+setData "${DATA_FILE_LIST:-${dflfb}}"|| exit  # 9. specify `DATA_FILE_LIST` for dolma dataset
 setDSlauncher "${HERE}" || exit     # 10. set `launcher` args for `deepspeed ${launcher} ${EXEC} ${args}`
 printJobInfo || exit                # 11. print job info
 # +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
@@ -45,16 +49,40 @@ custom_args=" $@"
 
 # Assert `./hostfile_deepspeed` exists
 export hfds="${HERE}/hostfile_deepspeed" && [ -f "${hfds}" ] || exit
+TBDIR="${CKPT_DIR}/tensorboard"
+mkdir -p "${TBDIR}"
 
 # source "${HERE}/venvs/polaris/2024-03-14/bin/activate" || exit
 # echo "Using $(which python3)"
 # --launcher_args='--pmi=pmix'
     # deepspeed --hostfile $hfds --launcher ${LAUNCHER} ${EXEC} \
     # ${launch_cmd} \
+    # --optimizer adam \
+    # --use-flash-attn-v2 \
+    # deepspeed --hostfile $hfds --launcher MPICH ${EXEC} \
+# source ezpz/src/ezpz/bin/getjobenv || exit
+# if [[ -z "${DIST_LAUNCH}" ]]; then
+#     setupSrun || exit
+#     echo "Using SRUN_EXEC: ${SRUN_EXEC}"
+# else
+#     SRUN_EXEC="${DIST_LAUNCH}"
+# fi
+# echo "Using SRUN_EXEC: ${SRUN_EXEC}"
+#
+export NHOSTS="${SLURM_NNODES:-1}"
+export NGPU_PER_HOST="${SLURM_GPUS_ON_NODE:-$(nvidia-smi -L | wc -l)}"
+export NGPUS="$(( NHOSTS * NGPU_PER_HOST ))"
+export SRUN_EXEC="srun --gpus ${NGPUS} --gpus-per-node ${NGPU_PER_HOST} -N ${NHOSTS} -n ${NGPUS} -l -u --verbose"
+
+    # srun --gpus ${NGPUS} \
+    # --gpus-per-node ${NGPU_PER_HOST} \
+    # -N ${NHOSTS} \
+    # -n ${NGPUS} \
+    # -l -u --verbose python3 ${EXEC} \
 run_cmd="
-    deepspeed --hostfile $hfds --launcher MPICH ${EXEC} \
-    --use-flash-attn-v2 \
+    ${SRUN_EXEC} python3 ${EXEC} \
     --$DTYPE \
+    --optimizer ${OPT} \
     --num-workers 0 \
     --split 100,0,0 \
     --log-interval 1 \
@@ -66,10 +94,13 @@ run_cmd="
     --no-gradient-accumulation-fusion \
     --accumulate-allreduce-grads-in-fp32 \
     --use-checkpoint-opt_param-scheduler \
+    --tensorboard-dir ${TBDIR} \
+    --log-timers-to-tensorboard \
+    --log-optimizer-states-to-tensorboard \
     --lr ${LR} \
-    --seq-length $SEQ \
     --save ${CKPT_DIR} \
     --load ${CKPT_DIR} \
+    --seq-length ${SEQ} \
     --num-layers ${NLAYERS} \
     --hidden-size ${HIDDEN} \
     --train-iters ${TRAIN_ITER} \
@@ -95,9 +126,10 @@ run_cmd="
     |& tee ${OUTPUT_LOG}
     "
 
+run_cmd=$(echo "${run_cmd}" | sed -e 's/  */ /g')
 
-echo "All DeepSpeed(s): $(which -a deepspeed)"
-echo "Using $(which deepspeed)"
+# echo "All DeepSpeed(s): $(which -a deepspeed)"
+echo "! Using $(which deepspeed)"
 ds_report
 
 echo "${run_cmd}"
diff --git a/train_sbatch_pp64.sh b/train_sbatch_pp64.sh
deleted file mode 100755
index b7baf2539e2..00000000000
--- a/train_sbatch_pp64.sh
+++ /dev/null
@@ -1,34 +0,0 @@
-#!/bin/bash --login
-#SBATCH -A m3957_g
-#SBATCH -C 'gpu&hbm80g'
-#SBATCH -q regular
-#SBATCH -t 00:30:00
-#SBATCH --nodes 128
-#SBATCH --gpus 512
-
-
-# TODO::
-# - Add logic for catching / killing hung process at end of run to ensure
-#   second run starts up (otherwise, it will wait for the hung process, which
-#   will run until the job is killed)
-# - This wll let us try running multiple experiments in a single slurm job
-#   allocation.
-# - Existing (similar implementation) from my `~/bin/kill-match`:
-#   ```bash
-#   #!/bin/bash --login
-#   TO_KILL=$1
-#   kill $(ps aux | grep -E "$USER.+($TO_KILL)" | grep -v grep | awk '{print $2}')
-
-
-PPSIZE=64 \
-  MODEL_SIZE_KEY="GPT1T_$(( 2 * PPSIZE ))L" \
-  SEQ_LEN=2048 \
-  MICRO_BATCH=2 \
-  GAS=$(( 8 * PPSIZE )) \
-  SP_TYPE=megatron \
-  ZERO_STAGE=1 \
-  USE_SEQUENCE_PARALLEL=0 \
-  MPSIZE=8 \
-  SPSIZE=1 \
-  USE_ACTIVATION_CHECKPOINTING=1 \
-  ./ALCF/train-gpt3.sh