도쿄대 연구팀이 GPT-3 LLM(대형 언어 모델)을 사용해 동작을 수행할 수 있는 휴머노이드 로봇 Alter4를 공개했습니다. Alter3은 최신 도구를 사용합니다. AI 열기 미리 프로그래밍된 데이터베이스 항목 없이도 셀카 포즈부터 고스팅까지 다양한 포즈를 동적으로 가정할 수 있습니다.

연구원들은 “얼굴 표정과 몸짓을 사용한 대화 콘텐츠에 대한 Alter3의 반응은 최소한의 변경만으로 다른 안드로이드에 쉽게 적응할 수 있는 휴머노이드 로봇 공학의 중요한 발전입니다.”라고 말했습니다.

로봇과의 LLM 통합 분야에서는 기본적인 의사소통을 개선하고 현실적인 반응을 모델링하는 데 중점을 두고 있습니다. 연구원들은 또한 로봇이 복잡한 지침을 이해하고 실행하여 기능을 향상시킬 수 있도록 LLM의 기능을 조사하고 있습니다.

전통적으로 낮은 수준의 관리 로봇 하드웨어에 묶여 있으며 LLM 기업의 권한 밖에 있습니다. 이로 인해 LLM 기반 작업을 직접 관리하는 데 어려움이 있습니다. 이 문제를 해결하기 위해 일본 팀은 인간의 움직임 표현을 Android에서 이해할 수 있는 코드로 변환하는 방법을 개발했습니다. 이는 개발자가 각 신체 부위를 개별적으로 프로그래밍할 필요 없이 로봇이 시간이 지남에 따라 일련의 동작을 독립적으로 생성할 수 있음을 의미합니다.

상호 작용 중에 사람은 "iPhone으로 셀카 찍기"와 같은 Alter3 명령을 내릴 수 있습니다. 그 후, 로봇은 필요한 단계에 대한 지침을 얻기 위해 GPT-4에 일련의 요청을 시작합니다. GPT-4 이를 작업이 "이해"하고 필요한 동작을 수행할 수 있도록 하는 Python 코드로 변환합니다. 이 혁신을 통해 Alter3는 상체를 움직일 수 있고 하체는 스탠드에 부착된 상태로 고정되어 있습니다.

Alter3는 2016년 이후 Alter의 휴머노이드 로봇 시리즈 중 세 번째 버전으로, 압축 공기로 구동되는 얼굴 표정과 사지 움직임을 담당하는 43개의 액추에이터를 자랑합니다. 이 구성은 다양한 표현 제스처를 제공합니다. 로봇은 걸을 수는 없지만 일반적인 걷기 및 달리기 동작을 모방할 수 있습니다.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3는 또한 카메라와 OpenPose 프레임워크를 사용하여 사람의 포즈를 복사하는 기능도 시연했습니다. 로봇은 관찰된 자세에 맞게 관절을 조정하고 나중에 사용할 수 있도록 성공적인 모방을 저장합니다. 인간과의 상호작용은 보다 다양한 자세로 이어졌으며, 이는 신생아가 모방을 통해 학습하는 방식과 유사하게 인간을 모방함으로써 다양한 움직임이 나온다는 생각을 뒷받침합니다.

LLM 이전에 연구자들은 사람의 자세를 재현하거나 차를 마시거나 체스를 두는 등의 행동을 시뮬레이션하기 위해 43개의 액추에이터 모두를 주의 깊게 제어해야 했습니다. 이를 위해서는 수많은 수동 조정이 필요했지만 일체 포함 팀이 이런 일상에서 벗어나는 데 도움이 되었습니다. “우리는 Alter3가 상황에 맞는 표정과 몸짓을 표시하여 효과적으로 대화에 참여할 것으로 기대합니다. 예를 들어 슬픔이나 행복에 대한 반응으로 감정을 반영하여 우리와 감정을 공유하는 능력을 보여주었습니다."라고 연구원은 말합니다.

또한 읽기:

근원흥미로운 엔지니어링

가입하기

0 코멘트

임베디드 리뷰

모든 댓글 보기

기타 기사

도쿄에서는 GPT-3를 기반으로 한 Alter4 휴머노이드 로봇의 성공 사례가 공개되었습니다.

최근 댓글