Cloud TPU에서 DLRM 및 DCN 학습(TF 2.x)

이 튜토리얼에서는 클릭률(CTR) 예측과 같은 태스크에 사용될 수 있는 DLRM 및 DCN v2 순위 모델을 학습하는 방법을 보여줍니다. DLRM 또는 DCN v2 순위 모델 학습을 위한 매개변수 설정 방법을 보려면 DLRM 또는 DCN 모델 실행 설정의 내용을 참조하세요.

모델 입력은 숫자 및 범주 특성이고 출력은 스칼라입니다(예: 클릭 가능성). 이 모델은 Cloud TPU에서 학습 및 평가될 수 있습니다. 딥 순위 모델은 메모리 집약적(임베딩 테이블 및 조회)이고 딥 네트워크에 대해 컴퓨팅 집약적(MLP)입니다. TPU는 둘 다를 위해 설계되었습니다.

이 모델은 범주형 특성에 TPUEmbedding 레이어를 사용합니다. TPU 임베딩은 빠른 조회를 통해 대규모 임베딩 테이블을 지원하며, 임베딩 테이블의 크기는 TPU Pod의 크기에 따라 선형적으로 확장됩니다. TPU v3-8에는 90GB의 임베딩 테이블, v3-512 포드는 5.6TB, v3-2048 TPU Pod는 22.4TB를 사용할 수 있습니다.

모델 코드는 TensorFlow 추천자 라이브러리에 있는 반면 입력 파이프라인, 구성, 학습 루프는 TensorFlow Model Garden에 설명되어 있습니다.

목표

학습 환경 설정
합성 데이터를 사용하여 학습 작업 실행
출력 결과 확인

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

Compute Engine
Cloud TPU
Cloud Storage

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

리소스 설정

이 섹션에서는 이 튜토리얼에서 사용되는 Cloud Storage 버킷, VM, Cloud TPU 리소스를 설정하는 방법을 설명합니다.

Cloud Shell 창을 엽니다.

Cloud Shell 열기
프로젝트 ID의 변수를 만듭니다.
```
export PROJECT_ID=project-id
```
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.

gcloud 명령어에 대한 자세한 내용은 Google Cloud CLI 참조를 확인하세요.
```
gcloud config set project ${PROJECT_ID}
```
새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에 있는 Authorize를 클릭하여 gcloud에서 사용자 인증 정보로 API를 호출하도록 허용합니다.

Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

--location 옵션이 버킷을 만들어야 할 위치를 리전을 지정하는 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다. 영역 및 리전에 대한 자세한 내용은 유형 및 영역을 참조하세요.
```
gcloud storage buckets create gs://bucket-name --project=${PROJECT_ID} --location=europe-west4
```
이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud compute tpus tpu-vm 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

버킷 위치는 Compute Engine(VM) 및 Cloud TPU 노드와 동일한 리전에 있어야 합니다.
Compute Engine VM 및 Cloud TPU를 실행하려면 gcloud 명령어를 사용합니다.
```
$ gcloud compute tpus tpu-vm create dlrm-dcn-tutorial \
    --zone=europe-west4-a \
    --accelerator-type=v3-8 \
    --version=tpu-vm-tf-2.17.0-se
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

accelerator-type

가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.

version

Cloud TPU 소프트웨어 버전입니다.

참고: 프로젝트에서 gcloud compute tpus tpu-vm를 처음으로 실행하는 경우 SSH 키 적용, API 활성화 등의 시작 태스크를 수행하는 데 몇 분이 걸립니다.
SSH를 사용하여 Compute Engine 인스턴스에 연결합니다. VM에 연결하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.
```
gcloud compute tpus tpu-vm ssh dlrm-dcn-tutorial --zone=europe-west4-a
```
요점:이후 내용부터 (vm) $ 프리픽스가 있으면 Compute Engine VM 인스턴스에서 명령어를 실행해야 합니다.

Cloud Storage 버킷 변수 설정

bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export PYTHONPATH="/usr/share/tpu/models/:${PYTHONPATH}"
(vm)$ export EXPERIMENT_NAME=dlrm-exp

TPU 이름의 환경 변수를 설정합니다.

  (vm)$ export TPU_NAME=local

학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

합성 데이터를 사용하여 DLRM 또는 DCN 모델 실행 설정

모델을 여러 데이터 세트로 학습할 수 있습니다. 일반적으로 사용되는 두 가지 항목은 Criteo Terabyte 및 Criteo Kaggle입니다. 이 튜토리얼에서는 use_synthetic_data=True 플래그를 설정하여 합성 데이터로 학습을 수행합니다.

합성 데이터 세트는 Cloud TPU 사용 방법을 이해하고 엔드 투 엔드 성능을 검증하는 용도로만 사용됩니다. 정확성 숫자와 저장된 모델은 의미가 없습니다.

이러한 데이터 세트를 다운로드하고 사전 처리하는 방법에 대한 자세한 내용은 Criteo Terabyte 및 Criteo Kaggle 웹사이트를 참조하세요.

필수 패키지 설치

(vm)$ pip3 install tensorflow-recommenders
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

스크립트 디렉터리로 변경합니다.

(vm)$ cd /usr/share/tpu/models/official/recommendation/ranking

학습 스크립트를 실행합니다. 여기에서는 Criteo와 비슷한 허위 데이터 세트를 사용하여 DLRM 모델을 학습시킵니다. 학습은 약 20분 정도 걸립니다.

export EMBEDDING_DIM=32

python3 train.py --mode=train_and_eval \
     --model_dir=${STORAGE_BUCKET}/model_dirs/${EXPERIMENT_NAME} --params_override="
     runtime:
         distribution_strategy: 'tpu'
     task:
         use_synthetic_data: true
         train_data:
             input_path: '${DATA_DIR}/train/*'
             global_batch_size: 16384
         validation_data:
             input_path: '${DATA_DIR}/eval/*'
             global_batch_size: 16384
         model:
             num_dense_features: 13
             bottom_mlp: [512,256,${EMBEDDING_DIM}]
             embedding_dim: ${EMBEDDING_DIM}
             top_mlp: [1024,1024,512,256,1]
             interaction: 'dot'
             vocab_sizes: [39884406, 39043, 17289, 7420, 20263, 3, 7120, 1543, 63,
                 38532951, 2953546, 403346, 10, 2208, 11938, 155, 4, 976, 14,
                 39979771, 25641295, 39664984, 585935, 12972, 108, 36]
     trainer:
         use_orbit: false
         validation_interval: 1000
         checkpoint_interval: 1000
         validation_steps: 500
         train_steps: 1000
         steps_per_loop: 1000
     "

이 학습은 v3-8 TPU에서 약 10분 동안 실행됩니다. 완료되면 다음과 비슷한 메시지가 표시됩니다.

I0621 21:32:58.519792 139675269142336 tpu_embedding_v2_utils.py:907] Done with log of TPUEmbeddingConfiguration.
I0621 21:32:58.540874 139675269142336 tpu_embedding_v2.py:389] Done initializing TPU Embedding engine.
1000/1000 [==============================] - 335s 335ms/step - auc: 0.7360 - accuracy: 0.6709 - prediction_mean: 0.4984
- label_mean: 0.4976 - loss: 0.0734 - regularization_loss: 0.0000e+00 - total_loss: 0.0734 - val_auc: 0.7403
- val_accuracy: 0.6745 - val_prediction_mean: 0.5065 - val_label_mean: 0.4976 - val_loss: 0.0749
- val_regularization_loss: 0.0000e+00 - val_total_loss: 0.0749

Model: "ranking"
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
tpu_embedding (TPUEmbedding) multiple                  1
_________________________________________________________________
mlp (MLP)                    multiple                  154944
_________________________________________________________________
mlp_1 (MLP)                  multiple                  2131969
_________________________________________________________________
dot_interaction (DotInteract multiple                  0
_________________________________________________________________
ranking_1 (Ranking)          multiple                  0
=================================================================
Total params: 2,286,914
Trainable params: 2,286,914
Non-trainable params: 0
_________________________________________________________________
I0621 21:43:54.977140 139675269142336 train.py:177] Train history: {'auc': [0.7359596490859985],
'accuracy': [0.67094486951828], 'prediction_mean': [0.4983849823474884], 'label_mean': [0.4975697994232178],
'loss': [0.07338511198759079], 'regularization_loss': [0], 'total_loss': [0.07338511198759079],
'val_auc': [0.7402724623680115], 'val_accuracy': [0.6744520664215088], 'val_prediction_mean': [0.5064718723297119],
'val_label_mean': [0.4975748658180237], 'val_loss': [0.07486172765493393],
'val_regularization_loss': [0], 'val_total_loss': [0.07486172765493393]}

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm)$ exit
```
프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

Cloud TPU 리소스를 삭제합니다.

$ gcloud compute tpus tpu-vm delete dlrm-dcn-tutorial \
  --zone=europe-west4-a

gcloud compute tpus tpu-vm list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음 명령어의 출력에는 이 튜토리얼에서 만든 리소스가 포함되어서는 안 됩니다.
```
$ gcloud compute tpus tpu-vm list --zone=europe-west4-a
```
gcloud CLI를 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.
```
$ gcloud storage rm gs://bucket-name --recursive
```

다음 단계

일반적으로 TensorFlow Cloud TPU 튜토리얼에서는 샘플 데이터 세트를 사용하여 모델을 학습시킵니다. 이 학습 결과는 추론에 사용될 수 없습니다. 모델을 추론에 사용하려면 일반에게 공개된 데이터 세트나 자체 데이터 세트에서 데이터를 학습시키면 됩니다. 일반적으로 Cloud TPU에서 학습된 TensorFlow 모델에는 TFRecord 형식의 데이터 세트가 필요합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우에는 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델 성능을 개선하려면 모델 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보를 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정 방법에 대한 자세한 내용은 초매개변수 조정 개요 및 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. Cloud TPU 추론 변환기 도구를 사용하여 Cloud TPU v5e에서 추론을 위한 TensorFlow 모델을 준비하고 최적화할 수 있습니다. Cloud TPU v5e에서 추론에 대한 자세한 내용은 Cloud TPU v5e 추론 소개를 참조하세요.

Cloud TPU에서 DLRM 및 DCN 학습(TF 2.x)

목표

비용

시작하기 전에

리소스 설정

명령어 플래그 설명

Cloud Storage 버킷 변수 설정

합성 데이터를 사용하여 DLRM 또는 DCN 모델 실행 설정

삭제

다음 단계

초매개변수 조정

추론