고품질 強化学習 도구

고객 신뢰를 얻은 強化学習 도구로 안정적이고 우수한 결과를 경험하세요.

強化学習

  • Jason-RL은 Jason BDI 에이전트에 강화학습을 장착하여 보상 경험을 통해 Q-학습과 SARSA 기반의 적응적 의사결정을 가능하게 합니다.
    0
    0
    jason-RL란?
    jason-RL은 Jason 멀티 에이전트 프레임워크에 강화학습 계층을 추가하여, AgentSpeak BDI 에이전트가 보상 피드백을 통해 행동 선택 정책을 학습할 수 있게 합니다. Q-학습과 SARSA 알고리즘을 구현하며, 학습 매개변수(학습률, 할인 인자, 탐색 전략) 설정 지원과 학습 지표 로그 기록이 가능합니다. 에이전트 계획 내에 보상 함수를 정의하고 시뮬레이션을 수행함으로써, 개발자는 시간이 지남에 따라 에이전트의 의사결정이 향상되고 환경 변화에 적응하는 모습을 관찰할 수 있습니다.
  • MARFT는 협력 AI 워크플로우와 언어 모델 최적화를 위한 오픈 소스 다중 에이전트 RL 파인튜닝 툴킷입니다.
    0
    0
    MARFT란?
    MARFT는 재현 가능한 실험과 협력 AI 시스템의 빠른 프로토타이핑을 가능하게 하는 Python 기반의 LLM입니다.
  • 맞춤형 3D 샌드박스 환경에서 AI 에이전트가 복잡한 작업을 학습할 수 있는 오픈소스 Minecraft 기반 RL 플랫폼입니다.
    0
    0
    MineLand란?
    MineLand는 Minecraft에서 영감을 받은 유연한 3D 샌드박스 환경을 제공하며, 기존 RL 라이브러리와 원활하게 통합 가능한 Gym 호환 API를 갖추고 있습니다. 자원 수집, 내비게이션, 건설 도전 과제 등 다양한 작업 라이브러리와 각 작업의 난이도 및 보상 구조를 구성할 수 있습니다. 실시간 렌더링, 다중 에이전트 시나리오, 헤드리스 모드를 통해 확장 가능한 학습과 벤치마킹이 가능합니다. 개발자는 새로운 맵을 설계하고, 맞춤 보상 함수를 정의하며, 추가 센서 또는 컨트롤을 플러그인할 수 있습니다. MineLand의 오픈소스 코드는 재현 가능한 연구, 협업 개발, 복잡한 가상 월드에서의 AI 에이전트 신속 프로토타이핑을 촉진합니다.
  • 모듈식 네트워크 구조와 셀프 플레이를 통한 스타크래프트 II RL 에이전트 훈련이 가능한 AlphaStar의 간소화된 PyTorch 구현.
    0
    0
    mini-AlphaStar란?
    mini-AlphaStar는 복잡한 AlphaStar 아키텍처를 해독하여 스타크래프트 II AI 개발을 위한 접근 가능하고 오픈소스인 PyTorch 프레임워크를 제공합니다. 화면 및 미니맵 입력을 위한 공간 특징 인코더, 비공간 특징 처리, LSTM 메모리 모듈, 행동 선택과 상태 평가를 위한 별도 정책 및 가치 네트워크를 갖추고 있습니다. 모방 학습으로 부트스트래핑하고, 셀프 플레이를 통한 강화 학습으로 미세 조정하며, pysc2를 통한 StarCraft II 환경 래퍼, 텐서보드 로깅 및 사용자 설정 가능한 하이퍼파라미터를 지원합니다. 연구원과 학생들은 인간 플레이 데이터셋을 생성하고, 사용자 정의 시나리오에서 모델을 훈련하며, 에이전트 성능을 평가하고 학습 곡선을 시각화할 수 있습니다. 모듈식 코드베이스는 네트워크 변형, 훈련 일정 및 다중 에이전트 설정을 쉽게 실험할 수 있게 합니다. 교육과 프로토타이핑에 초점을 맞췄으며, 배포용으로는 적합하지 않습니다.
  • 맞춤형 3D 가상 시나리오에서 협력 다중 에이전트 검사 작업을 훈련하는 Unity ML-Agents 기반 환경입니다.
    0
    0
    Multi-Agent Inspection Simulation란?
    멀티 에이전트 검사 시뮬레이션은 Unity 3D 환경 내에서 여러 자율 에이전트가 협력하여 검사 작업을 수행할 수 있도록 하는 포괄적 프레임워크를 제공합니다. 이 환경은 검사 대상, 조절 가능한 보상 함수, 에이전트 행동 매개변수와 함께 Unity ML-Agents와 통합됩니다. 연구자는 Python API를 통해 맞춤 환경 스크립트 작성, 에이전트 수 정의, 훈련 커리큘럼 설정이 가능하며, 병렬 훈련 세션, TensorBoard 로그 기록, 레이캐스트, 카메라 피드, 위치 데이터 등 맞춤 관측 기능도 지원합니다. 하이퍼파라미터와 환경 복잡도를 조절하여 커버리지, 효율성, 협력 지표에 대한 강화 학습 알고리즘의 벤치마킹도 가능합니다. 오픈소스 코드는 로봇 프로토타이핑, 협력 AI 연구, 다중 에이전트 시스템의 교육용 데모 확장에 적합합니다.
  • 격자 기반 시나리오에서 AI 에이전트를 협력적으로 훈련시키기 위한 오픈소스 Python 환경입니다.
    0
    0
    Multi-Agent Surveillance란?
    멀티 에이전트 감시는 연습형 격자 세계에서 포식자 또는 도주자로 행동하는 여러 AI 에이전트들의 유연한 시뮬레이션 프레임워크를 제공합니다. 사용자들은 격자 크기, 에이전트 수, 탐지 반경, 보상 구조 등의 환경 매개변수를 구성할 수 있습니다. 저장소에는 에이전트 행동을 위한 Python 클래스, 시나리오 생성 스크립트, matplotlib을 통한 내장 시각화, 인기 있는 강화학습 라이브러리와의 원활한 통합이 포함되어 있으며, 이를 통해 다중 에이전트 협력의 벤치마크 설정, 맞춤 감시 전략 개발, 재현 가능 실험 수행이 용이합니다.
  • 협력 드론 군집 제어를 위한 오픈소스 Python 시뮬레이션 환경입니다.
    0
    0
    Multi-Agent Drone Environment란?
    멀티에이전트 드론 환경은 OpenAI Gym과 PyBullet 기반으로 구성된 UAV 군집 시뮬레이션용 커스터마이징 가능한 Python 패키지입니다. 사용자는 운동학 및 동역학 모델을 갖춘 다수의 드론 에이전트를 정의하여 포메이션 비행, 타겟 추적, 장애물 회피 등의 협력 작업을 탐색합니다. 환경은 모듈식 작업 구성, 현실적인 충돌 감지, 센서 에뮬레이션을 지원하며, 커스텀 보상 함수와 분산 정책도 구현 가능합니다. 개발자는 자체 강화학습 알고리즘을 통합하고 여러 시나리오에서 성능을 평가하며, 에이전트의 궤적과 지표를 실시간으로 시각화할 수 있습니다. 오픈소스 설계는 커뮤니티 기여를 장려하여 연구, 교육, 고급 다중 에이전트 제어 솔루션의 프로토타이핑에 이상적입니다.
  • 강화 학습을 사용하여 여러 자율 폐기물 수집 에이전트의 협력을 조정하여 수집 경로를 효율적으로 최적화합니다.
    0
    0
    Multi-Agent Autonomous Waste Collection System란?
    다중 에이전트 자율 폐기물 수집 시스템은 경로 계획에 협력하도록 개별 폐기물 로봇을 훈련시키는 연구 기반 플랫폼입니다. 에이전트는 중복 커버리지를 피하고, 이동 거리를 최소화하며, 동적 폐기물 생성 패턴에 대응하는 방법을 학습합니다. Python으로 구축되었으며, 정책을 테스트하고 개선하기 위한 시뮬레이션 환경을 통합합니다. 사용자들은 도시 지도, 폐기물 하차 지점, 에이전트 센서, 보상 구조를 구성하여 특정 도시 지역 또는 운영 제약 조건에 맞게 행동을 조정할 수 있습니다.
  • PyTorch와 Unity ML-Agents를 사용한 분산형 다중 에이전트 DDPG 강화 학습 구현으로 협력 에이전트 훈련을 지원합니다.
    0
    0
    Multi-Agent DDPG with PyTorch & Unity ML-Agents란?
    이 오픈소스 프로젝트는 PyTorch와 Unity ML-Agents를 기반으로 구축된 완전한 다중 에이전트 강화 학습 프레임워크를 제공합니다. 분산 DDPG 알고리즘, 환경 래퍼, 훈련 스크립트를 포함하며, 사용자들은 에이전트 정책, 비평 네트워크, 재현 버퍼, 병렬 훈련 워커를 구성할 수 있습니다. 로깅 후크는 TensorBoard 모니터링을 가능하게 하며, 모듈화된 코드는 사용자 지정 보상 함수와 환경 매개변수를 지원합니다. 저장된 Unity 예제 씬은 협력 탐색 작업을 시연하며, 시뮬레이션에서 다중 에이전트 시나리오 확장과 벤치마킹에 이상적입니다.
  • 딥러닝과 강화 결정을 사용하는 협력 객체 추적을 위한 오픈소스 다중 에이전트 AI 프레임워크입니다.
    0
    0
    Multi-Agent Visual Tracking란?
    멀티에이전트 비ual 추적은 영상 객체 추적의 정확성과 견고성을 높이기 위해 통신하는 지능형 에이전트로 구성된 분산 추적 시스템을 구현합니다. 에이전트는 합성곱 신경망을 통해 감지를 수행하고, 가림을 처리하기 위해 관측을 공유하며, 강화 학습을 통해 추적 매개변수를 조정합니다. 인기 있는 영상 데이터셋과 호환되며, 훈련과 실시간 추론 모두를 지원합니다. 사용자는 기존 파이프라인에 쉽게 통합하고, 맞춤형 응용을 위해 에이전트 행동을 확장할 수 있습니다.
  • PySC2를 통한 StarCraft II에서 원시 수준의 에이전트 제어와 협력을 가능하게 하는 오픈 소스 다중 에이전트 강화학습 프레임워크.
    0
    0
    MultiAgent-Systems-StarCraft2-PySC2-Raw란?
    MultiAgent-Systems-StarCraft2-PySC2-Raw는 StarCraft II에서 다중 AI 에이전트 개발, 훈련 및 평가를 위한 완전한 툴킷을 제공합니다. 유닛 이동, 대상 지정, 능력에 대한 저수준 제어를 제공하며, 유연한 보상 설계와 시나리오 구성이 가능합니다. 사용자는 맞춤형 신경망 아키텍처를 쉽게 연결하고, 팀 기반 협력 전략을 정의하며, 지표를 기록할 수 있습니다. PySC2를 기반으로 병렬 훈련, 체크포인트 및 시각화를 지원하여 협력과 경쟁 다중 에이전트 강화학습 연구에 이상적입니다.
  • 협력적이고 경쟁적인 AI 에이전트 환경 개발 및 시뮬레이션을 위한 Python 기반 다중 에이전트 강화 학습 프레임워크입니다.
    0
    0
    Multiagent_system란?
    Multiagent_system은 다중 에이전트 환경을 구축하고 관리하기 위한 종합 도구 키트를 제공합니다. 사용자는 맞춤형 시뮬레이션 시나리오를 정의하고, 에이전트 행동을 지정하며, DQN, PPO, MADDPG와 같은 사전 구현된 알고리즘을 활용할 수 있습니다. 이 프레임워크는 동기식 및 비동기식 훈련을 지원하여 에이전트가 병행 또는 차례로 상호작용할 수 있게 합니다. 내장된 통신 모듈은 협력 전략을 위한 메시지 전달을 용이하게 하며, YAML 파일로 실험 구성을 간소화하며, 결과는 CSV 또는 TensorBoard에 자동 기록됩니다. 시각화 스크립트는 에이전트 궤적, 보상 변화, 통신 패턴의 해석을 돕습니다. 연구와 프로덕션 워크플로우를 위해 설계된 Multiagent_system은 싱글 머신 프로토타입부터 GPU 클러스터의 분산 훈련까지 원활하게 확장됩니다.
  • 사용자 정의 환경에서 동시 다중 에이전트 협력, 경쟁 및 훈련을 가능하게 하는 Python 기반 멀티 에이전트 시뮬레이션 프레임워크입니다.
    0
    1
    MultiAgentes란?
    MultiAgentes는 환경과 에이전트 정의를 위한 모듈식 아키텍처를 제공하며, 동기 및 비동기 멀티 에이전트 상호 작용을 지원합니다. 환경과 에이전트용 기본 클래스, 협력 및 경쟁 작업용 사전 정의된 시나리오, 보상 함수 사용자 지정 도구, 에이전트 간 메시징 및 관찰 공유를 위한 API를 포함합니다. 시각화 유틸리티는 에이전트 행동을 실시간으로 모니터링할 수 있으며, 로깅 모듈은 성능 메트릭을 기록하여 분석합니다. 이 프레임워크는 Gym 호환 강화 학습 라이브러리와 원활하게 통합되어 기존 알고리즘을 사용한 에이전트 훈련이 가능합니다. 확장성을 고려하여 개발자가 새로운 환경 템플릿, 에이전트 유형 및 통신 프로토콜을 추가할 수 있으며, 다양한 연구 및 교육 용도에 적합합니다.
  • 클래식 팩맨 게임 환경에서 다중 에이전트 AI 전략의 구현 및 평가를 가능하게 하는 오픈소스 프레임워크.
    0
    0
    MultiAgentPacman란?
    MultiAgentPacman은 사용자들이 팩맨 도메인에서 여러 AI 에이전트를 구현, 시각화, 벤치마크할 수 있는 Python 기반의 게임 환경을 제공합니다. minimax, expectimax, alpha-beta 가지치기와 같은 적대적 탐색 알고리즘 및 맞춤형 강화 학습 또는 휴리스틱 기반 에이전트도 지원합니다. 이 프레임워크는 간단한 GUI, 명령줄 제어, 게임 통계 기록 및 경쟁 또는 협력 시나리오에서 에이전트 성능 비교 유틸리티를 포함합니다.
  • 협력 및 경쟁 멀티 에이전트 강화 학습 시스템의 설계, 훈련 및 평가를 위한 오픈 소스 Python 프레임워크입니다.
    0
    0
    MultiAgentSystems란?
    MultiAgentSystems는 멀티 에이전트 강화 학습(MARL) 애플리케이션의 구축 및 평가 프로세스를 간소화하는 것을 목표로 합니다. 이 플랫폼은 MADDPG, QMIX, VDN과 같은 최신 알고리즘 구현과 중앙 집중형 학습 및 분산 실행을 포함합니다. OpenAI Gym과 호환되는 모듈형 환경 래퍼, 에이전트 간 통신 프로토콜, 보상 설계 및 수렴률과 같은 메트릭을 추적하는 로깅 유틸리티를 제공합니다. 연구자는 에이전트 아키텍처를 사용자 정의하고, 하이퍼파라미터를 조정하며, 협력 내비게이션, 자원 배분, 적대적 게임 등의 시뮬레이션을 수행할 수 있습니다. PyTorch, GPU 가속, TensorBoard 통합 지원으로, MultiAgentSystems는 협력 및 경쟁 멀티 에이전트 분야의 실험과 벤치마킹을 가속화합니다.
  • 시뮬레이션 환경에서 충돌 없는 다중 로봇 내비게이션 정책을 훈련시키기 위한 강화 학습 프레임워크입니다.
    0
    0
    NavGround Learning란?
    NavGround Learning은 내비게이션 작업에서 강화 학습 에이전트 개발 및 벤치마킹을 위한 종합 툴킷을 제공합니다. 다중 에이전트 시뮬레이션, 충돌 모델링, 커스터마이징 가능한 센서 및 액츄에이터를 지원합니다. 사용자는 사전 정의된 정책 템플릿을 선택하거나 커스텀 아키텍처를 구현하여 최신 RL 알고리즘으로 훈련하고 성능 지표를 시각화할 수 있습니다. OpenAI Gym 및 Stable Baselines3와의 통합은 실험 관리를 간소화하며, 내장된 로깅 및 시각화 도구는 에이전트 행동과 훈련 역학에 대한 심층 분석을 가능하게 합니다.
  • OpenSpiel은 강화 학습 및 게임 이론적 계획 연구를 위한 환경과 알고리즘 라이브러리를 제공합니다.
    0
    0
    OpenSpiel란?
    OpenSpiel은 간단한 행렬 게임부터 체스, 바둑, 포커와 같은 복잡한 보드게임까지 다양한 환경을 제공하며, 가치 반복, 정책 기울기, MCTS 등 여러 강화학습 및 검색 알고리즘을 구현하고 있습니다. 모듈식 C++ 핵심과 Python 바인딩을 통해 사용자 정의 알고리즘을 통합하거나, 새로운 게임을 정의하거나, 표준 벤치마크에서 성능을 비교할 수 있습니다. 확장성을 고려하여 설계되어 있으며, 단일 에이전트 및 다중 에이전트 설정을 지원하여 협력적이고 경쟁적인 시나리오 연구가 가능합니다. 연구자들은 OpenSpiel을 활용하여 빠르게 알고리즘을 프로토타입하고, 대규모 실험을 수행하며, 재현 가능한 코드를 공유합니다.
  • Pits and Orbs는 AI 에이전트가 함정을 피하고, 구슬을 모으며, 턴 기반 시나리오에서 경쟁하는 다중 에이전트 그리드 월드 환경을 제공합니다.
    0
    0
    Pits and Orbs란?
    Pits and Orbs는 Python으로 구현된 오픈소스 강화 학습 환경으로, 에이전트가 목표를 추구하고 환경 위험에 직면하는 턴 기반 다중 에이전트 그리드 월드를 제공합니다. 각 에이전트는 사용자 정의 가능한 격자를 탐색하며, 페널티를 부여하거나 에피소드를 종료하는 무작위로 배치된 함정을 피하고, 긍정적인 보상을 위해 구슬을 모아야 합니다. 이 환경은 경쟁 모드와 협력 모드를 모두 지원하며, 연구자들이 다양한 학습 시나리오를 탐구할 수 있게 합니다. 간단한 API는 Stable Baselines 또는 RLlib과 같은 인기 RL 라이브러리와 원활하게 통합됩니다. 주요 기능으로는 조정 가능한 격자 크기, 동적 함정 및 구슬 분포, 구성 가능한 보상 구조, 그리고 훈련 분석을 위한 선택적 로깅이 포함됩니다.
  • 강화학습을 이용하여 포켓몬 배틀을 플레이하는 AI 에이전트의 개발과 훈련을 지원하는 파이썬 프레임워크입니다.
    0
    1
    Poke-Env란?
    Poke-Env는 포켓몬 쇼다운 배틀용 AI 에이전트의 생성과 평가를 간소화하기 위해 설계된 포괄적인 파이썬 인터페이스를 제공합니다. 서버와의 통신, 게임 상태 데이터 파싱, 이벤트 기반 아키텍처를 통해 턴별 행동 관리를 수행합니다. 사용자는 리인포스먼트 러닝이나 휴리스틱 알고리즘을 이용한 맞춤 전략 구현을 위해 기본 플레이어 클래스를 확장할 수 있습니다. 이 프레임워크는 배틀 시뮬레이션, 병렬 매치업, 행동, 보상, 결과 등에 대한 상세 로그 기록을 지원하며, 낮은 수준의 네트워킹 및 파싱 작업을 추상화하여 AI 연구자와 개발자가 알고리즘 설계, 성능 최적화, 전략 벤치마킹에 집중할 수 있게 합니다.
  • PyBrain: 머신러닝 및 신경망을 위한 모듈형 Python 기반 라이브러리.
    0
    0
    pybrain.org란?
    PyBrain, 즉 Python 기반 강화 학습, 인공지능 및 신경망 라이브러리의 약어는 머신러닝 작업을 위해 설계된 모듈형 오픈소스 라이브러리입니다. 신경망 구축, 강화 학습 및 기타 AI 알고리즘을 지원합니다. 강력하고 사용하기 쉬운 알고리즘으로, PyBrain은 다양한 머신러닝 문제를 다루고자 하는 개발자와 연구자에게 귀중한 도구를 제공합니다. 이 라이브러리는 다른 Python 라이브러리와 원활하게 통합되며, 간단한 감독 학습부터 복잡한 강화 학습 시나리오까지의 작업에 적합합니다.
추천