일반적인 데이터 처리 작업에는 Hadoop에서 효율적으로 처리할 수 없는 여러 단계(데이터 파이프라인)가 있습니다. Apache Spark는 모든 데이터를 시스템 메모리에 두어 더 유연하고 복잡한 데이터 파이프라인을 가능하게 만듦으로써 이 문제를 해결했지만, 새로운 병목 현상이 생겨났습니다. 수백 개의 CPU 노드가 있는 Spark 클러스터에서는 몇 백 기가바이트(GB)의 데이터를 분석하는 것만으로도 몇 시간, 심하게는 며칠이 걸릴 수도 있었습니다. 데이터 사이언스의 진정한 잠재력을 실현하려면 GPU는 데이터센터 설계의 중심에 위치하여 컴퓨팅, 네트워킹, 스토리지, 배포 및 소프트웨어라는 5가지 요소로 이루어져 있어야 합니다. 일반적으로, GPU의 엔드 투 엔드 데이터 사이언스 워크플로우는 CPU에서보다 10배 더 빠릅니다.
게시물 읽기 ›