그래, 당신은 그 권리를 들었다, 우리는 이미 두 개의 더 많은 계절을 확인할 수 있습니다. 그래서 계속 연습! 알파 스타 리그의 경쟁자를 보여주는 인터랙티브 시각화. TLO와 마 나에 대해 플레이 한 에이전트에는 특별히 라벨이 붙어 있습니다. 외도 스타 리그의 목표는 한국 이외의 플레이어 들의 재능 개발에 집중 하는 것입니다. 알파 스타는 또한 새로운 멀티 에이전트 학습 알고리즘을 사용 합니다. 신경망은 처음에 블리자드가 발표 한 익명화 된 휴먼 게임의 감독 학습을 통해 훈련을 받았습니다. 이를 통해 알파 스타는 스타크래프트 래더 플레이어 들이 사용 하는 기본적인 마이크로 및 매크로 전략을 모방 하 여 배울 수 있었습니다. 이 초기 에이전트는 95%의 게임에서 내장 된 “엘리트” 레벨 AI를 인간 플레이어에 게 패배 시켰습니다. 그룹 스테이지 중의 모든 경기는 BO3. 로 8 일치 하 고 이후 BO5 됩니다. 그랜드 파이널은 BO7. 지도 풀로 서, 우리는 9 지도를 사용 합니다. 지도 풀에는 9 개의 지도가 있기 때문에 BO3, BO5 용 지도 4 개 및 BO7에 대 한 2 개의 지도에서 6 개 맵을 제거 해야 합니다.

모든 베 발가락과 지도 선택은 경기 전에 이루어져야 합니다. 높은 사다리 단계 순위를 가진 플레이어는 첫 번째 또는 두 번째에 거부권 하려는 경우 결정할 수 있습니다. 누가의 순서는 BO7에 대 한 BO5와 ab ababab에 대 한 BO3 ababab abc에 대 한 것입니다. 블리자드 엔터테인먼트에서 제작 된 스타크래프트 II는 허구의 공상 과학 우주에 자리 잡고 있으며 인간의 지능에도 전하고 싶은 다양 한 계층의 게임 플레이가 특징입니다. 원래 제목과 함께, 그것은 모든 시간의 가장 크고 가장 성공적인 게임 중 하나입니다, 플레이어는 20 년 이상 e 스포츠 토너먼트에서 경쟁. TLO와 마 나에 대 한 게임에서, 알파 스타는 약 280의 평균 APM을가지고, 프로 선수 보다 훨씬 낮은, 그 행동이 더 정확할 수 있지만. 알파 스타는 리플레이를 사용 하 여 훈련을 시작 하 여 인간이 게임을 플레이 하는 방식을 모방 하기 때문에이 낮은 APM은 부분적으로 그 역할을 합니다. 또한, 알파 스타는 평균 350ms의 관찰과 행동 사이의 지연과 반응 한다. 저희 요원 들에 게 추가 주를 훈련 한 후, 우리는 세계에서 가장 강력한 스타크래프트 II 플레이어 중 하나인 마 나와 가장 강력한 프로 토스 선수 10 명에 맞서 경기를 했습니다. 알파 스타는 다시 5 경기에서 0으로 우승 하 여 강력한 마이크로 및 매크로 전략 기술을 시연 했습니다.

“나는 알파 스타가 거의 모든 게임에서 고급 동작과 다양 한 전략을 풀 수 있다는 인상을 받았고, 예상 하지 못했을 매우 인간적 인 게임 플레이 스타일을 사용 했습니다. “나는 내 게임 플레이가 실수를 강요 하 고 인간의 반응을 악용 할 수 있는에 의존 얼마나 많은 실현 했습니다, 그래서 이것은 나를 위해 완전히 새로운 빛에 게임을 넣어. 우리는 모두 다음에 오는 것을 보게 되어 기쁩니다. ” 알파 스타의 행동은 원시 게임 인터페이스 (단위 및 그 속성 목록)에서 입력 데이터를 수신 하 고 게임 내에서 액션을 구성 하는 일련의 명령어를 출력 하는 심층 신경망에 의해 생성 됩니다. 보다 구체적으로, 신경망 아키텍처는 심층 LSTM 코어, 포인터 네트워크를 사용 하는 자동 회귀 정책 헤드 및 중앙 집중식 값과 결합 된 장치 (관계형 심층 강화 학습과 유사)에 변압기 몸통을 적용 합니다. 기준선. 이 고급 모델은 장기 시퀀스 모델링과 번역, 언어 모델링 및 시각적 표현과 같은 큰 출력 공간을 포함 하는 기계 학습 연구의 다른 많은 과제에 도움이 될 것 이라고 믿습니다. 리그가 감 리 하는 다양 한 정의 분야에서의 싸움은 발 란에 대 한 큰 정치적 관심 뿐만 아니라 큰 사회적 관심이 다.