Proximal Policy Optimization for Formation Control and Obstacle Avoidance in Multi-Agent Systems