Root Nation소식IT 뉴스Meta의 ImageBind AI는 인간의 인식을 모방할 수 있습니다.

Meta의 ImageBind AI는 인간의 인식을 모방할 수 있습니다.

-

Meta는 이름으로 오픈 액세스 인공 지능에 코드를 게시합니다. 이미지 바인드, 사람들이 환경을 인식하거나 상상하는 방식과 유사한 데이터 간의 관계를 예측합니다. Midjourney, Stable Diffusion 및 DALL-E 2와 같은 이미지 생성기는 단어를 이미지에 바인딩하여 텍스트 설명만으로 시각적 장면을 만들 수 있도록 하지만 ImageBind는 그 이상입니다. 텍스트, 이미지 또는 비디오, 오디오, 3D 측정, 온도 데이터 및 동작 데이터를 연결할 수 있으며 모든 기회에 사전 교육을 받을 필요가 없습니다. 이것은 결국 텍스트 프롬프트, 이미지 또는 오디오(또는 이들의 조합)와 같은 간단한 입력에서 복잡한 환경을 생성할 수 있는 프레임워크의 초기 단계입니다.

메타버스 프로젝트

ImageBind를 인간 학습에 대한 기계 학습의 근사치로 생각할 수 있습니다. 예를 들어, 바쁜 도시 거리와 같은 역동적인 환경에 서 있는 경우 뇌는 (대부분 무의식적으로) 광경, 소리 및 기타 감각을 흡수하여 지나가는 자동차, 높은 건물, 날씨 등에 대한 정보를 얻습니다. . 인간과 다른 동물은 유전적 이점인 생존과 DNA 전달을 위해 이 데이터를 처리하도록 진화했습니다. (주위 환경에 대해 더 많이 알수록 위험을 피하고 환경에 적응하여 더 잘 생존하고 번창할 수 있습니다.) 컴퓨터가 동물의 다감각 연결을 모방하는 데 가까워짐에 따라 이러한 연결을 사용하여 제한된 데이터만을 기반으로 완전히 실현된 장면을 생성할 수 있습니다.

따라서 Midjourney를 사용하여 "간달프 의상을 입고 비치볼에서 균형을 잡는 바셋 하운드"를 만들고 그 이상한 장면의 상대적으로 사실적인 사진을 얻을 수 있지만 ImageBind와 같은 다중 모드 AI 도구는 관련성이 있는 개와 함께 비디오를 만들 수 있습니다. 상세한 거실, 실내 온도, 개와 현장에 있는 다른 모든 사람의 정확한 위치를 포함한 소리. "이것은 정적 이미지를 오디오 프롬프트와 결합하여 정적 이미지에서 애니메이션을 만들 수 있는 훌륭한 기회를 만듭니다."라고 Meta 연구원은 개발자 지향 블로그에서 언급합니다. "예를 들어 제작자는 이미지를 알람 시계 및 우는 수탉과 결합하고 오디오 신호를 사용하여 수탉을 분할하거나 알람 시계 소리를 사용하여 시계를 분할하고 비디오 시퀀스에서 둘 다 애니메이션할 수 있습니다."

 

메타

이 새로운 장난감으로 무엇을 할 수 있는지에 관해서는 Meta의 핵심 야망 중 하나인 VR, 혼합 현실 및 메타 공간을 분명히 지적합니다. 예를 들어 완전히 실현된 3D 장면(사운드, 모션 등 포함)을 즉석에서 구축할 수 있는 미래의 헤드셋을 상상해 보십시오. 또는 가상 게임 개발자는 궁극적으로 이를 사용하여 디자인 프로세스에서 힘든 작업의 ​​상당 부분을 절약할 수 있습니다. 마찬가지로 콘텐츠 제작자는 텍스트, 이미지 또는 오디오를 기반으로 사실적인 사운드트랙과 모션으로 몰입형 비디오를 만들 수 있습니다. ImageBind와 같은 도구가 실시간 멀티미디어 설명을 생성하여 시각 또는 청각 장애가 있는 사람들이 자신의 환경을 더 잘 이해할 수 있도록 도와줌으로써 접근성의 새로운 문을 여는 방법을 쉽게 상상할 수 있습니다.

또한 흥미로운 점: 인공 지능을 기반으로 한 최고의 도구

"일반적인 AI 시스템에는 각 관련 양식에 대한 특정 임베딩(즉, 머신 러닝에서 데이터와 데이터의 관계를 나타낼 수 있는 숫자 벡터)이 있습니다."라고 Meta는 말합니다. “ImageBind는 각각의 개별 양식 조합으로 데이터를 훈련할 필요 없이 여러 양식에 대한 공통 임베딩 공간을 생성할 수 있음을 보여줍니다. 예를 들어 바쁜 도시 거리의 오디오 데이터와 열 데이터 또는 깊이 데이터와 해변 절벽의 텍스트 설명이 포함된 샘플로 데이터 세트를 만들 수 없기 때문에 이것은 중요합니다.”

Meta는 이 기술이 결국에는 말하자면 현재의 가지 "감각"을 넘어설 것이라고 믿습니다. "현재 연구에서 가지 양식을 조사했지만 촉각, 언어, 후각 및 fMRI 뇌 신호와 같이 가능한 한 많은 감각을 연결하는 새로운 양식을 도입하면 보다 풍부한 인간 중심 AI 모델이 가능할 것이라고 믿습니다." 이 새로운 샌드박스를 탐색하는 데 관심이 있는 개발자는 Meta의 오픈 소스 코드에 뛰어들어 시작할 수 있습니다.

또한 읽으십시오:

근원Engadget
가입하기
에 대해 알림
손님

0 코멘트
임베디드 리뷰
모든 댓글 보기
기타 기사
업데이트 구독
지금 인기