개요
이 튜토리얼에서는 COCO 데이터 세트로 Cloud TPU를 사용하여 Mask RCNN 모델을 실행하는 방법을 보여줍니다.
Mask RCNN은 어려운 컴퓨터 비전 문제 중 하나인 객체 감지 및 이미지 분할을 처리하도록 설계된 심층신경망입니다.
Mask RCNN 모델은 이미지의 객체 인스턴스마다 경계 상자와 분할 마스크를 생성합니다. 이 모델은 Feature Pyramid Network(FPN) 및 ResNet50 백본을 기반으로 합니다.
이 튜토리얼에서는 Tensorflow Keras API를 사용하여 모델을 학습시킵니다. Keras API는 Cloud TPU에서 머신러닝 모델을 빌드하고 실행하는 데 사용할 수 있는 고급 TensorFlow API입니다. API는 낮은 수준의 구현체를 대부분 숨기는 방식으로 모델 개발 프로세스를 간소화합니다. 이로써 GPU나 CPU와 같은 다른 플랫폼과 TPU 간의 전환이 쉬워집니다.
이러한 안내에서는 개발자가 Cloud TPU에서 모델을 익숙하게 학습할 수 있다고 가정합니다. Cloud TPU를 처음 사용한다면 빠른 시작에서 기본적인 정보를 먼저 살펴보세요.
목표
- COCO 데이터 세트 준비
- 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
- 학습 및 평가에 TPU 리소스 설정
- 단일 Cloud TPU 또는 Cloud TPU Pod에서 학습 및 평가 실행
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- Compute Engine
- Cloud TPU
- Cloud Storage
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
시작하기 전에
이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요.
COCO 데이터 세트 준비
이 튜토리얼에는 COCO 데이터 세트가 사용됩니다. 데이터 세트는 학습에 사용되기 위해 Cloud Storage 버킷에서 TFRecord 형식이어야 합니다.
COCO 데이터 세트가 모델 학습에 사용할 영역에 위치한 Cloud Storage 버킷에 이미 준비된 경우 단일 기기 학습으로 곧장 이동할 수 있습니다. 그렇지 않으면 다음 순서에 따라 데이터 세트를 준비합니다.
Cloud Shell 창을 엽니다.
Cloud Shell에서 프로젝트 ID로
gcloud
를 구성합니다.export PROJECT_ID=project-id gcloud config set project ${PROJECT_ID}
Cloud Shell에서 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.
gcloud storage buckets create gs://bucket-name --project=${PROJECT_ID} --location=us-central2
데이터 세트를 다운로드하고 사전 처리할 Compute Engine VM을 만듭니다. 자세한 내용은 Compute Engine 인스턴스 만들기 및 시작을 참조하세요.
$ gcloud compute instances create vm-name \ --zone=us-central2-b \ --image-family=ubuntu-2204-lts \ --image-project=ubuntu-os-cloud \ --machine-type=n1-standard-16 \ --boot-disk-size=300GB
SSH를 사용하여 Compute Engine VM에 연결합니다.
$ gcloud compute ssh vm-name --zone=us-central2-b
VM에 연결하면 셸 프롬프트가
username@projectname
에서username@vm-name
으로 변경됩니다.앞에서 만든 스토리지 버킷용 변수와 스토리지 버킷에 학습 데이터(
DATA_DIR
)가 포함된 디렉터리용 변수를 설정합니다.(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
데이터를 사전 처리하는 데 필요한 패키지를 설치합니다.
(vm)$ sudo apt-get update && \ sudo apt-get install python3-pip && \ sudo apt-get install -y python3-tk && \ pip3 install --user Cython matplotlib opencv-python-headless pyyaml Pillow numpy absl-py tensorflow && \ pip3 install --user "git+https://github.com/cocodataset/cocoapi#egg=pycocotools&subdirectory=PythonAPI"
download_and_preprocess_coco.sh
스크립트를 실행하여 COCO 데이터 세트를 학습 애플리케이션에 필요한 TFRecord 파일(*.tfrecord
) 집합으로 변환합니다.(vm)$ git clone https://github.com/tensorflow/tpu.git (vm)$ sudo bash tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco
그러면 필수 라이브러리가 설치된 후 사전 처리 스크립트가 실행됩니다. 이 스크립트는 로컬 데이터 디렉터리에
*.tfrecord
파일을 출력합니다. COCO 다운로드 및 변환 스크립트는 완료되는 데 약 1시간 정도 걸립니다.Cloud Storage 버킷에 데이터 복사
데이터를 TFRecord 형식으로 변환한 후 gcloud CLI를 사용하여 로컬 스토리지에서 Cloud Storage 버킷으로 데이터를 복사합니다. 주석 파일도 복사해야 합니다. 이 파일은 모델의 성능을 검증하는 데 유용합니다.
(vm)$ gcloud storage cp ./data/dir/coco/*.tfrecord ${DATA_DIR} (vm)$ gcloud storage cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}
Compute Engine VM의 연결을 해제합니다.
(vm)$ exit
프롬프트가
username@projectname
으로 바뀌면 Cloud Shell에 있는 것입니다.Compute Engine VM을 삭제합니다.
$ gcloud compute instances delete vm-name \ --zone=us-central2-b
Cloud TPU 단일 기기 학습
Cloud Shell 창을 엽니다.
프로젝트 ID의 환경 변수를 만듭니다.
export PROJECT_ID=project-id
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
gcloud config set project ${PROJECT_ID}
새 Cloud Shell VM에서 이 명령어를 처음 실행하면
Authorize Cloud Shell
페이지가 표시됩니다. 페이지 하단에 있는Authorize
를 클릭하여gcloud
에서 사용자 인증 정보로 Google Cloud API를 호출하도록 허용합니다.Cloud TPU 프로젝트의 서비스 계정을 만듭니다.
gcloud beta services identity create --service tpu.googleapis.com --project ${PROJECT_ID}
이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
TPU 설정 변수 내보내기
프로젝트 ID, TPU 리소스에 사용할 이름, 모델을 학습시키고 학습 관련 데이터를 저장할 영역을 내보냅니다.
$ export TPU_NAME=mask-rcnn-tutorial $ export ZONE=europe-west4-a
Compute Engine VM 및 Cloud TPU를 실행합니다.
$ gcloud compute tpus tpu-vm create mask-rcnn-tutorial \ --zone=${ZONE} \ --accelerator-type=v3-8 \ --version=tpu-vm-tf-2.17.0-pjrt
명령어 플래그 설명
gcloud
명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.SSH를 사용하여 Compute Engine 인스턴스에 연결합니다. VM에 연결하면 셸 프롬프트가
username@projectname
에서username@vm-name
으로 변경됩니다.gcloud compute tpus tpu-vm ssh mask-rcnn-tutorial --zone=${ZONE}
TensorFlow 요구사항을 설치합니다.
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
Cloud TPU 이름 변수를 설정합니다.
(vm)$ export TPU_NAME=local
다음 환경 변수를 설정하고 bucket-name을 COCO 데이터 세트를 저장하는 Cloud Storage 버킷 이름으로 바꿉니다.
(vm)$ export STORAGE_BUCKET=gs://bucket-name
데이터 및 모델 디렉터리에 환경 변수를 추가합니다.
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mask-rcnn
몇 가지 필요한 환경 변수를 추가합니다.
(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07 (vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-* (vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-* (vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
PYTHONPATH
환경 변수를 설정합니다.(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"
TPU를 만들 때
--version
매개변수를-pjrt
로 끝나는 버전으로 설정한 경우 다음 환경 변수를 설정하여 PJRT 런타임을 사용 설정합니다.(vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
모델을 저장하는 디렉터리로 변경합니다.
(vm)$ cd /usr/share/tpu/models/official/vision
다음 스크립트는 학습 단계 10개와 평가 단계 10개를 학습하는 샘플 학습을 실행합니다. v3-8 TPU에서 완료하는 데 약 6분 정도 걸립니다. v3-8 TPU에서 수렴을 학습하는 데는 약 22,500단계와 약 6시간이 소요됩니다.
다음 명령어를 실행하여 Mask-RCNN 모델을 학습시킵니다.
(vm)$ python3 train.py \ --tpu=${TPU_NAME} \ --experiment=maskrcnn_resnetfpn_coco \ --mode=train_and_eval \ --config_file=configs/experiments/maskrcnn/r50fpn_640_coco_scratch_tpu4x4.yaml \ --model_dir=${MODEL_DIR} \ --params_override="task.train_data.input_path=${TRAIN_FILE_PATTERN},task.validation_data.input_path=${EVAL_FILE_PATTERN},task.annotation_file=${VAL_JSON_FILE},runtime.distribution_strategy=tpu,trainer.train_steps=10,trainer.validation_steps=10,task.train_data.global_batch_size=8,task.validation_data.global_batch_size=8"
명령어 플래그 설명
strategy_type
- 배포 전략입니다.
tpu
- TPU의 이름입니다.
model_dir
- 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용할 때
model_dir
는 Cloud Storage 경로(`gs://...`)여야 합니다. 이전 체크포인트가 TensorFlow 버전과 크기가 동일한 TPU를 사용해 생성되었다면 기존 폴더를 다시 사용해 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
학습이 완료되면 다음과 유사한 메시지가 표시됩니다.
{'frcnn_box_loss': 0.033865165, 'frcnn_cls_loss': 1.2535654, 'learning_rate': 0.008266499, 'mask_loss': 1.2039567, 'model_loss': 2.821458, 'rpn_box_loss': 0.034982488, 'rpn_score_loss': 0.2950886, 'total_loss': 4.340171, 'training_loss': 4.340171} train | step: 10 | steps/sec: 0.1 | output: {'frcnn_box_loss': 0.033865165, 'frcnn_cls_loss': 1.2535654, 'learning_rate': 0.008266499, 'mask_loss': 1.2039567, 'model_loss': 2.821458, 'rpn_box_loss': 0.034982488, 'rpn_score_loss': 0.2950886, 'total_loss': 4.340171, 'training_loss': 4.340171}
그런 다음 평가 단계의 출력이 표시됩니다.
이제 단일 기기 학습 및 평가가 완료되었습니다. 다음 단계를 수행하여 현재 단일 기기 TPU 리소스를 삭제합니다.
Compute Engine 인스턴스에서 연결을 해제합니다.
(vm)$ exit
프롬프트가
username@projectname
으로 바뀌면 Cloud Shell에 있는 것입니다.TPU 리소스를 삭제합니다.
$ gcloud compute tpus tpu-vm delete mask-rcnn-tutorial \ --zone=europe-west4-a
명령어 플래그 설명
zone
- Cloud TPU가 있는 영역입니다.
여기에서는 이 튜토리얼을 마무리하고 삭제하거나 Cloud TPU 포드에서 모델 실행을 살펴볼 수 있습니다.
Cloud TPU Pod로 모델 확장
Cloud TPU Pod에서 모델을 학습시키려면 학습 스크립트를 변경해야 할 수 있습니다. 자세한 내용은 TPU Pod에서 학습을 참조하세요.
TPU Pod 학습
Cloud Shell 창을 엽니다.
프로젝트 ID의 변수를 만듭니다.
export PROJECT_ID=project-id
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
gcloud config set project ${PROJECT_ID}
새 Cloud Shell VM에서 이 명령어를 처음 실행하면
Authorize Cloud Shell
페이지가 표시됩니다. 페이지 하단에 있는Authorize
를 클릭하여gcloud
에서 사용자 인증 정보로 Google Cloud API를 호출하도록 허용합니다.Cloud TPU 프로젝트의 서비스 계정을 만듭니다.
서비스 계정은 Cloud TPU 서비스가 다른 Google Cloud 서비스에 액세스하도록 허용합니다.
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
이전에 COCO 데이터 세트를 준비하고 스토리지 버킷으로 이동한 경우에는 포드 학습에 다시 사용할 수 있습니다. COCO 데이터 세트를 아직 준비하지 않은 경우 지금 준비하시고 여기로 돌아와 학습을 설정하세요.
Cloud TPU Pod 실행
이 튜토리얼에서는 v3-32 포드를 지정합니다. 다른 포드 옵션은 TPU 버전을 참조하세요.
$ gcloud compute tpus tpu-vm create mask-rcnn-tutorial \ --zone=${ZONE} \ --accelerator-type=v3-32 \ --version=tpu-vm-tf-2.17.0-pod-pjrt
SSH를 사용하여 Compute Engine 인스턴스에 연결합니다. VM에 연결하면 셸 프롬프트가
username@projectname
에서username@vm-name
으로 변경됩니다.gcloud compute tpus tpu-vm ssh mask-rcnn-tutorial --zone=${ZONE}
TensorFlow 요구사항을 설치합니다.
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
학습 스크립트에는 추가 패키지가 필요합니다. 지금 설치합니다.
(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3
Cloud TPU 이름 변수를 설정합니다.
(vm)$ export TPU_NAME=mask-rcnn-tutorial
bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.
(vm)$ export STORAGE_BUCKET=gs://bucket-name
몇 가지 필요한 환경 변수를 추가합니다.
(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07 (vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco (vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-* (vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-* (vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mask-rcnn-pod
PYTHONPATH
환경 변수를 설정합니다.(vm)$ export PYTHONPATH="/usr/share/tpu/models:${PYTHONPATH}" (vm)$ export TPU_LOAD_LIBRARY=0
모델을 저장하는 디렉터리로 변경합니다.
(vm)$ cd /usr/share/tpu/models/official/vision
(vm)$ cd /usr/share/models/official/legacy/detection
모델을 학습시킵니다.
이 절차에서는 10 학습 단계에 대해 COCO 데이터 세트에서 모델을 학습시킵니다. 이 학습은 v3-32 Cloud TPU에서 약 10분 정도 걸립니다.
(vm)$ python3 train.py \ --tpu=${TPU_NAME} \ --experiment=maskrcnn_resnetfpn_coco \ --mode=train_and_eval \ --config_file=configs/experiments/maskrcnn/r50fpn_640_coco_scratch_tpu4x4.yaml \ --model_dir=${MODEL_DIR} \ --params_override="task.train_data.input_path=${TRAIN_FILE_PATTERN},task.validation_data.input_path=${EVAL_FILE_PATTERN},task.annotation_file=${VAL_JSON_FILE},runtime.distribution_strategy=tpu,trainer.train_steps=10,trainer.validation_steps=10,task.train_data.global_batch_size=256,task.validation_data.global_batch_size=256"
명령어 플래그 설명
tpu
- TPU의 이름입니다.
model_dir
- 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용하는 경우
model_dir
는 Cloud Storage 경로(gs://...
)여야 합니다. 이전 체크포인트가 TensorFlow 버전과 크기가 동일한 Cloud TPU를 사용해 생성된 경우, 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다. params_override
- 기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다.
학습이 완료되면 다음과 유사한 메시지가 표시됩니다.
I0706 19:47:16.108213 139955064548416 controller.py:457] train | step: 10 | steps/sec: 0.1 | output: {'frcnn_box_loss': 0.05632668, 'frcnn_cls_loss': 1.3012192, 'learning_rate': 0.008266499, 'mask_loss': 1.2371812, 'model_loss': 2.9746659, 'rpn_box_loss': 0.08227444, 'rpn_score_loss': 0.2976642, 'total_loss': 4.493513, 'training_loss': 4.493513} train | step: 10 | steps/sec: 0.1 | output: {'frcnn_box_loss': 0.05632668, 'frcnn_cls_loss': 1.3012192, 'learning_rate': 0.008266499, 'mask_loss': 1.2371812, 'model_loss': 2.9746659, 'rpn_box_loss': 0.08227444, 'rpn_score_loss': 0.2976642, 'total_loss': 4.493513, 'training_loss': 4.493513}
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
학습을 실행한 후 TPU VM을 삭제하고 스토리지 버킷을 삭제합니다.
Compute Engine 인스턴스에서 연결을 해제합니다.
(vm)$ exit
프롬프트가
username@projectname
으로 바뀌면 Cloud Shell에 있는 것입니다. 프롬프트가username@projectname
으로 바뀌면 Cloud Shell에 있는 것입니다.Cloud TPU 및 Compute Engine 리소스를 삭제합니다.
$ gcloud compute tpus tpu-vm delete mask-rcnn-tutorial \ --zone=${ZONE}
gcloud compute tpus tpu-vm list
를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음 명령어의 출력에는 이 튜토리얼에서 만든 TPU 리소스가 포함되어서는 안 됩니다.$ gcloud compute tpus tpu-vm list --zone=${ZONE}
아래와 같이 gcloud CLI를 실행하여 bucket-name을 이 튜토리얼에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.
$ gcloud storage rm gs://bucket-name --recursive
다음 단계
일반적으로 TensorFlow Cloud TPU 튜토리얼에서는 샘플 데이터 세트를 사용하여 모델을 학습시킵니다. 이 학습 결과는 추론에 사용될 수 없습니다. 모델을 추론에 사용하려면 일반에게 공개된 데이터 세트나 자체 데이터 세트에서 데이터를 학습시키면 됩니다. 일반적으로 Cloud TPU에서 학습된 TensorFlow 모델에는 TFRecord 형식의 데이터 세트가 필요합니다.
데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우에는 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.
초매개변수 조정
데이터 세트로 모델 성능을 개선하려면 모델 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보를 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정 방법에 대한 자세한 내용은 초매개변수 조정 개요 및 초매개변수 조정을 참조하세요.
추론
일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. Cloud TPU 추론 변환기 도구를 사용하여 Cloud TPU v5e에서 추론을 위한 TensorFlow 모델을 준비하고 최적화할 수 있습니다. Cloud TPU v5e에서 추론에 대한 자세한 내용은 Cloud TPU v5e 추론 소개를 참조하세요.
텐서보드의 TPU 도구를 살펴보세요.