2026년 AI 에이전트의 핵심, Harness Engineering

Tech 21분 읽기
조회 194

최고 시속 350km를 넘나드는 1,000마력의 F1 엔진을 일반 경차 프레임에 얹는다면 어떤 일이 벌어질까요? 아마 시동을 거는 순간, 차체는 그 폭발적인 힘을 감당하지 못하고 붕괴될 가능성이 큽니다. 가속 페달을 밟아보기도 전에 심각한 사고로 이어질 수 있을 것입니다.

아무리 엔진 성능이 압도적이라 해도 이를 뒷받침할 견고한 섀시(Chassis), 정밀한 조향 장치, 신뢰할 수 있는 제동 시스템이 없다면 그 출력은 동력이 아닌 ‘위험 요소’가 됩니다. 결국 핵심은 엔진의 힘 그 자체가 아니라, 그 힘을 어떻게 목적에 맞게 통제하고 활용하느냐를 결정하는 제어 구조에 있습니다.

이와 같은 원리는 스포츠 분야에서도 동일하게 적용됩니다. 최근 몇 년 사이 라온피플의 VTrack 같은 런치 모니터(Launch Monitor)와 SwingEz 같은 AI 기반 스윙 분석 기술이 널리 보급되면서, 골프에서 가장 중요한 요소가 단순한 근력이나 유연성과 같은 ‘피지컬’이 아니라는 점이 점차 분명해지고 있습니다. 아무리 벤치프레스를 150kg씩 들어 올릴 수 있는 장타자라 하더라도, 그립이 안정적이지 않거나 임팩트 순간의 클럽 궤도(Path)를 제대로 제어하지 못하면 공은 의도와 다르게 OB(Out of Bounds) 구역으로 향하고 맙니다.

충분한 힘을 갖추고 있음에도 불구하고, 그 힘을 정확하게 전달하고 조절하는 메커니즘이 없다면 원하는 결과를 얻기 어렵습니다. 결국 성과를 좌우하는 것은 출력이 아니라, 제어력과 구조라고 할 수 있습니다.


2026년 AI의 현주소, ‘지적 엔진’에 걸맞은 ‘섀시’가 필요할 때

2026년 현재, 우리가 마주한 인공지능(AI) 기술의 현주소도 이와 놀라울 정도로 닮아 있습니다. GPT-4를 넘어 수천억 개의 파라미터를 갖춘 거대 언어 모델(LLM)과 시각-언어 모델(VLM)은 인류가 개발한 가장 강력한 ‘지적 엔진’입니다. 방대한 지식을 바탕으로 복잡한 문제를 분석하고 자연스럽게 상호작용하는 이들의 능력은 이미 완성형에 가깝습니다.

하지만 여기서 우리는 근본적인 질문을 던져야 합니다. 이처럼 막강한 지능을 현실의 업무 환경과 시스템에 그대로 적용해도 과연 괜찮을 것인가 하는 점입니다.

단순한 질의응답을 넘어 스스로 목표를 세우고 외부 API를 호출하며, 산업 설비나 핵심 업무 시스템을 조작하는 자율형 AI 에이전트(Autonomous AI Agent)에게 통제 장치 없는 권한을 부여하는 것은 매우 위험한 선택이 될 수 있습니다.

아무리 성능이 뛰어난 모델이라도, 사실과 다른 내용을 생성하는 환각(Hallucination) 현상에서 완전히 자유로울 수 없기 때문입니다. 특히 에이전트 환경에서의 오판은 단순한 텍스트 오류에 그치지 않고 파일 삭제, 설정 변경, 데이터 외부 전송 등 ‘실제 행동’으로 이어져 시스템 전체의 신뢰성을 무너뜨릴 수 있습니다.
결국 지금의 거대 AI 모델은 압도적인 능력을 지님과 동시에, 세심한 길들이기가 필요한 ‘야생마’와 같습니다. 명확한 가이드라인과 제어 시스템이라는 섀시가 갖춰지지 않는다면, 기술은 우리가 의도하지 않은 방향으로 질주하게 될 것입니다.


하니스 엔지니어링(Harness Engineering)의 등장

바로 이 지점에서 2026년 현재, 전 세계 AI 엔지니어와 플랫폼 아키텍트들이 주목하는 기술적 해법이 등장합니다. AI의 무한한 생성 능력을 안전하고 예측 가능한 궤도로 유도하기 위한 정교한 체계, 즉 AI라는 야생마를 길들이는 ‘마구(Harness)’와 같은 구조적 장치가 필요해진 것입니다. 이것이 바로 하니스 엔지니어링(Harness Engineering)입니다.

Harness Engineering은 단순히 프롬프트를 정교하게 작성하는 기법을 의미하지 않습니다. 이는 AI 모델이 수행할 수 있는 작업의 범위와 권한을 정의하고, 예기치 못한 오류가 발생했을 때 시스템이 어떻게 즉각적으로 반응해야 하는지를 구조와 운영 차원에서 설계하는 공학적 접근을 의미합니다.

다시 말해, 모델의 지능 자체를 키우는 데 집중하기보다, 그 지능이 현실 세계에서 책임감 있고 안정적으로 작동할 수 있도록 견고한 제어 체계를 구축하는 기술이라 할 수 있습니다.

프롬프트를 넘어 하니스를 설계하는 것. 이것이 자율형 AI 에이전트 시대를 맞이한 지금, 우리가 반드시 이해하고 준비해야 할 기술적 전환점입니다.


AI 제어 기술의 변화

그렇다면 한 가지 질문이 자연스럽게 이어집니다. “왜 2026년에 이르러 ‘Harness’라는 다소 낯선 용어가 AI 업계의 핵심 키워드로 급부상하게 된 것일까요?”

이 용어는 인프라 자동화와 개발자 도구 분야에서 잘 알려진 하시코프(HashiCorp)의 공동 창업자, 미첼 하시모토(Mitchell Hashimoto)가 AI 에이전트 시스템을 설명하는 과정에서 본격적으로 조명되기 시작했습니다. 그는 에이전트를 도입하며 경험한 시행착오를 공유하면서, “모델을 더 똑똑하게 만드는 것보다, 에이전트가 실수하지 않도록 구조를 설계하는 일이 더 중요해졌다”는 문제 의식을 명확히 제시했습니다. 이후 이 관점은 빠르게 업계 전반으로 확산되었고, ‘Harness Engineering’이라는 이름으로 정리되기 시작했습니다.

이 변화를 제대로 이해하기 위해서는, 우리가 지금까지 AI를 어떤 방식으로 다루어 왔는지를 차분히 되짚어볼 필요가 있습니다. AI 활용 기술은 지난 몇 년간 뚜렷한 단계적 진화를 거쳐왔으며, Harness Engineering은 그 흐름의 연장선상에서 등장한 개념이기 때문입니다.

Phase 1. Prompt Engineering: “AI에게 어떻게 말을 걸 것인가?”

초기 ChatGPT가 등장했을 당시, AI를 다루는 핵심 기술은 단연 프롬프트 엔지니어링(Prompt Engineering)이었습니다. 이 단계에서 사람들의 관심은 한 가지 질문으로 모아졌습니다.“어떤 식으로 질문해야 AI로부터 원하는 답을 이끌어낼 수 있을까?”

사용자들은 모델에게 역할을 부여했습니다. “당신은 20년 경력의 베테랑 마케터입니다.”또는 사고 과정을 유도하기 위해 “단계별로 생각한 뒤 답변해 주세요(Please think step by step).”와 같은 문구를 사용했습니다.

이 시기의 프롬프트 엔지니어링은, AI가 이미 보유한 방대한 지식과 패턴 인식 능력 중에서 가장 적절한 출력을 끌어내는 대화의 기술에 가까웠다고 볼 수 있습니다. AI의 ‘입’을 열고, 말투와 사고 흐름을 조율하는 데 초점이 맞춰져 있었습니다.

다만 이 단계에서 AI는 여전히 말하는 존재에 머물러 있었습니다. 행동하지 않았고, 실행 책임도 없었습니다.

Phase 2. Context Engineering & RAG: “AI에게 어떤 자료를 읽힐 것인가?”

프롬프트 엔지니어링이 일정 수준의 성과를 거두자, 곧 한계도 분명해졌습니다. AI는 최신 정보를 알지 못했고, 각 조직의 내부 지식이나 기밀 문서에 접근할 수 없었습니다. 이로 인해 그럴듯하지만 사실과 다른 답변, 즉 환각(Hallucination)이 지속적으로 문제로 지적되었습니다.

이 문제를 해결하기 위해 등장한 것이 컨텍스트 엔지니어링(Context Engineering), 그리고 그 대표적인 구현 방식인 검색 증강 생성(RAG, Retrieval-Augmented Generation)입니다. 이 접근 방식은 AI가 답변을 생성하기 전에, 사내 위키·내부 문서·최신 자료 등을 먼저 검색해 그 결과를 컨텍스트로 제공하는 구조를 취합니다. 요컨대, AI에게 이렇게 요구하기 시작한 것입니다.“자유롭게 상상하지 말고, 이 문서 안에서만 답하세요.”

이 단계에서 AI는 여전히 말을 합니다. 그러나 그 말의 근거와 범위가 일정 부분 통제되기 시작했습니다. 지식의 출처를 제한함으로써 정확성을 높이고자 한 시도였습니다. 그럼에도 불구하고, 이 접근 역시 중요한 한계를 지니고 있었습니다. AI는 여전히 행동하지 않았기 때문입니다.

Phase 3. Harness Engineering: “AI의 손발을 어떻게 통제할 것인가?”

2025년을 지나 2026년에 이르러, AI는 더 이상 채팅창 안에 머무르지 않게 되었습니다.이제 AI는 사용자를 대신해 웹을 검색하고, 엑셀 파일을 수정하며, 서버 로그를 분석해 오류 원인을 추적하고, 경우에 따라서는 코드 수정과 배포까지 시도하는 에이전트가 되었습니다.

여기서부터 상황은 근본적으로 달라집니다. AI가 단순히 ‘말하는 존재’가 아니라, 행동(Action)을 수행하는 존재가 된 순간, 프롬프트나 컨텍스트만으로는 더 이상 충분하지 않게 된 것입니다.

AI가 명령줄 인터페이스(CLI)를 실행하기 전에

  • 해당 명령을 실행할 권한이 있는지 확인해야 하고
  • 실행 결과가 기대와 다를 경우 자동으로 중단하거나 되돌릴 수 있어야 하며
  • 로그와 행동 기록이 남아 추후 검증이 가능해야 합니다.

이는 더 이상 대화 기술의 문제가 아닙니다. 실행 환경, 권한 관리, 검증 로직, 실패 시 대응 전략을 포함한 시스템 엔지니어링의 영역입니다. 이 역할을 담당하는 구조가 바로 ‘Harness’이며, 이를 설계하는 접근 방식이 Harness Engineering입니다.

정리하자면 다음과 같이 표현할 수 있습니다.

“프롬프트가 AI의 ‘말투와 사고 흐름’을 다듬는 기술이었다면,
하니스(Harness)는 AI의 ‘행동 반경과 책임’을 설계하는 기술입니다.”

AI의 지능이 강력해질수록, 그 지능을 어떻게 묶고, 제한하고, 책임 있게 작동시키느냐가 더 중요해집니다. 바로 이 지점에서 Harness Engineering은 선택이 아니라, 필연적인 다음 단계로 등장한 것입니다.


현장에서는 무용지물이 되는 정확도 99%

일상적인 챗봇이 시나 번역에서 미묘한 오류를 내는 것은 가볍게 웃어넘길 수 있습니다. 하지만 자율형 AI 에이전트를 미션 크리티컬(Mission-Critical)한 산업 현장이나 엔터프라이즈 시스템에 투입한다면 이야기는 완전히 달라집니다.

스마트 팩토리의 생산 라인이나 공공 안전을 책임지는 지능형 영상 관제 시스템을 떠올려 보십시오. 만약 VLM(시각-언어 모델) 기반의 관제 솔루션이 반사된 빛을 화재 스파크로 잘못 인식하는 환각(Hallucination)을 일으킨다면 어떻게 될까요? 단순한 챗봇이라면 “화재가 발생했습니다”라는 텍스트를 출력하는 데 그치겠지만, 제어 권한을 가진 에이전트라면 환각을 사실로 믿고 즉시 공장 전원을 차단하거나 스프링클러를 작동시킬 수 있습니다. AI 입장에서는 ‘맞다고 믿고 수행한 정상적인 판단’이었지만, 결과는 대규모 생산 설비 중단과 자재 손실이라는 재앙으로 이어집니다.

이 때문에 산업 현장에서 99%의 정확도란 긍정적인 수치가 아닙니다. 오히려 “100번 중 1번은 시스템 전체를 파괴할 수 있다”는 뜻으로 해석됩니다. 단 1%의 오차도 용납되지 않는 실전에서는 통계적인 파라미터 수나 벤치마크 점수가 아무런 위안이 되지 않습니다. 중요한 것은 오차율을 단순히 줄이는 것을 넘어, 모델이 오판하더라도 그 피해가 물리적 사고로 직결되지 않도록 구조적으로 차단하는 것입니다.

현장에서 경험을 쌓은 아키텍트들의 시선이 모델 바깥으로 향하는 이유가 여기에 있습니다. 모델이 얼마나 똑똑한가보다 ‘틀렸을 때 시스템이 어떻게 방어하고 제어하는가’가 훨씬 중요해졌기 때문입니다.

결국 Harness Engineering이 요구되는 진짜 이유는 명확합니다. 하니스는 AI의 완벽함을 기대하지 않고, 오히려 그 ‘불완전함’을 전제로 시스템을 설계합니다. 모델의 오류가 사고로 이어지지 않도록 실행 권한을 통제하고 검증 절차를 겹겹이 배치하는 것. 이것이 AI 에이전트를 실험실의 장난감이 아닌 ‘신뢰할 수 있는 실전형 인프라’로 만들기 위한 절대적인 최소 조건입니다.


실전형 에이전트 Harness의 네 가지 핵심 아키텍처

그렇다면 실제 현장에서 신뢰받는 하니스 아키텍처는 어떠한 구조로 설계되어 있을까요?2026년 현재, 뛰어난 성능과 안정성으로 주목받고 있는 Claude Code, OpenClaw와 같은 로컬·하이브리드 AI 에이전트 시스템의 내부를 살펴보면, 공통적으로 매우 정제된 구조적 특징을 발견할 수 있습니다.

이들 시스템의 내부는 단순한 모델 호출의 연속이 아니라, 마치 정밀하게 설계된 스위스 시계처럼 서로 맞물려 작동하는 여러 계층으로 구성되어 있습니다. 특히 실전 환경에서 검증된 에이전트 하니스는 다음과 같은 네 가지 핵심 아키텍처 계층을 중심으로 설계되어 있습니다.

① 도구 및 실행 인터페이스 계층(Tools & Action Layer): “AI를 위한 안전한 팔다리”

이 계층은 AI 에이전트가 외부 세계와 상호작용하는 유일하고 규격화된 창구에 해당합니다. 핵심 원칙은 단순합니다. AI가 시스템의 핵심 자원에 직접 접근하지 못하도록 차단하고, 반드시 하니스가 정의한 도구(Tools)를 통해서만 행동하도록 제한하는 것입니다.

예를 들어, 에이전트가 파일을 읽어야 하는 상황이 발생했을 때, 직접 파일 시스템을 열도록 허용하지 않습니다. 대신 하니스는 read_file(path)와 같이 명시적으로 정의된 인터페이스만을 제공합니다. 이 과정에서 하니스는 입력된 경로가 허용된 디렉터리 범위 안에 있는지, 즉 샌드박스(Sandbox) 정책을 위반하지 않는지를 먼저 점검한 뒤, 안전하다고 판단되는 결과만을 에이전트에게 반환합니다.

에이전트는 “무엇을 하고 싶다”는 의도를 표현할 수 있을 뿐, 그 의도가 곧바로 실행으로 이어지지는 않습니다. 실제 실행 권한은 언제나 하니스에 있습니다.

② 상태 및 메모리 관리 계층(State & Memory Layer): “AI의 해마(Hippocampus)”

현실의 업무는 단일 턴으로 끝나지 않습니다. 에러 로그를 분석하고, 관련 코드를 탐색하며, 수정안을 적용하고, 다시 검증하는 과정은 수십 개의 중간 상태를 거칩니다. 이 과정에서 에이전트가 “방금 무엇을 확인했는지”를 잊어버린다면, 작업의 일관성은 즉시 붕괴됩니다.

이 때문에 실전형 하니스는 상태(State)와 기억(Memory)을 명시적인 설계 대상으로 다룹니다. 일반적으로 다음과 같은 구분이 이루어집니다.

  • 단기 기억 (Session State): 현재 작업 흐름과 직전 판단의 맥락
  • 장기 기억 (Persistent Memory): 벡터 데이터베이스나 파일 기반으로 저장되는 작업 이력과 학습된 패턴

특히 고도화된 하니스에서는, 모든 컨텍스트를 그대로 유지하지 않습니다. 의미 없는 로그나 중복 정보는 주기적으로 압축하거나 제거하며, 이를 통해 연산 비용과 토큰 사용량을 관리합니다. 이 과정은 단순한 최적화가 아니라, 에이전트가 핵심 목표에서 이탈하지 않도록 돕는 내비게이션 기능에 가깝습니다.

③ 자체 검증 루프(Verification Loop): “AI를 위한 자기 검열 시스템”

이 계층은 많은 실무자들이 “하니스 아키텍처의 핵심”으로 꼽는 부분입니다. 중요한 점은, 에이전트가 어떤 행동을 결정했다고 해서 그 판단이 즉시 실행되지 않는다는 사실입니다.

실전형 하니스는 에이전트가 생성한 코드, 명령, 의사결정 결과를 항상 검증 단계에 먼저 통과시키도록 설계됩니다. 이 검증은 매우 구체적이고 기계적인 방식으로 이루어집니다.

예를 들어,

  • 로컬 린터(linter)를 통한 문법 검사
  • 테스트 스위트 또는 시뮬레이터를 통한 실행 결과 확인
  • 규칙 기반 필터를 통한 위험 패턴 탐지

이 과정에서 오류나 논리적 모순이 발견되면, 하니스는 실행을 중단하고 해당 결과를 그대로 에이전트에게 되돌려줍니다. “생성된 코드에 무한 루프가 발견되었습니다.” “이 명령은 이전 단계의 전제와 충돌합니다.”

이러한 피드백 루프를 통해, 환각이나 오판은 실행되기 이전 단계에서 차단됩니다. Claude Code 계열 시스템에서 반복적으로 강조되는 ‘verification-first’ 접근은 바로 이 계층을 가리킵니다.

④ 강제 제약과 가드레일(Constraints & Guardrails): “최후의 안전 장치”

마지막 계층은 가장 보수적이면서도, 가장 중요한 역할을 수행합니다. 이 계층은 어떤 상황에서도 절대 허용되어서는 안 되는 행동을 명시적으로 차단합니다.

예를 들어,

  • 전체 파일 시스템 삭제와 같이 회복 불가능한 명령
  • 관리자 권한 상승 또는 보안 설정 무력화 시도
  • 민감 정보가 포함된 경로에 대한 직접적인 접근

이러한 행위는, 에이전트가 아무리 논리적으로 그럴듯한 이유를 제시하더라도 하드코드 수준에서 실행이 차단됩니다. 일부 환경에서는 소프트웨어적 제약을 넘어, 물리적 차단 장치나 사람의 개입(Human-in-the-Loop)을 요구하기도 합니다.

이 계층은 에이전트를 신뢰하지 않기 위한 장치가 아닙니다. 오히려 에이전트를 실무에 투입할 수 있게 만드는 최소 조건입니다. 실전 환경에서는 “잘 작동할 가능성”보다, “최악의 상황에서도 안전한지”가 훨씬 더 중요하기 때문입니다.


실행 루프의 전체 그림 ‘Agent = Model + Harness’

지금까지의 논의를 종합하면, AI 에이전트의 본질을 꿰뚫는 명확한 공식이 하나 도출됩니다.

Agent = Model + Harness

아무리 뛰어난 지능(Model)을 가졌더라도 그것만으로는 에이전트가 될 수 없습니다. 모델은 입력을 받아 출력을 뱉어내는 ‘두뇌’일 뿐, 실제 세계와 상호작용하며 실수를 통제하는 능력은 없기 때문입니다. 에이전트가 되려면 모델의 판단을 실제 행동으로 연결하고 통제하는 또 다른 층위, 즉 하니스(Harness)가 반드시 필요합니다.

이 역할 분담은 에이전트의 실행 루프(Execution Loop)에서 가장 뚜렷하게 드러납니다.

  • Model (판단): 목표를 인식하고 필요한 행동을 제안합니다.
  • Harness (실행 및 통제): 모델의 제안을 즉시 실행하지 않고 먼저 검증하며, 허용 범위를 확인한 뒤 실행(또는 차단)하여 그 결과를 다시 모델에게 피드백합니다.

이 구조의 진정한 가치는 ‘오류에 대한 관용’에 있습니다. 하니스는 모델에게 “절대 틀리지 말라”고 요구하지 않습니다. 대신 모델이 틀릴 수 있음을 전제로, 그 오판이 치명적인 사고로 이어지지 않도록 방어합니다. 가드레일과 검증 루프를 통해 에이전트의 실패를 재앙이 아닌 ‘관리 가능한 이벤트’로 축소하는 것입니다.

또한, 하니스는 모델 독립성을 보장합니다. 더 똑똑한 모델이 등장하면 언제든 뇌를 교체할 수 있습니다. 튼튼한 하니스만 유지된다면 시스템의 행동 방식과 안정성은 크게 변하지 않습니다. 2026년 기업들의 진정한 경쟁력이 ‘모델 선택’이 아닌 ‘하니스 설계’로 이동한 이유입니다.

결국 하니스 엔지니어링(Harness Engineering)* 중요한 이유는 단순합니다. 새로운 지능을 발명(invent)하여 AI를 ‘더 똑똑하게’ 만드는 기술이 아니라, 현장에서 책임감 있게 ‘실제로 쓸 수 있도록’ 실행 구조를 설계하는 기술이기 때문입니다.


AI의 패권은 ‘모델’에서 ‘시스템’으로 이동하고 있다

글로벌 테크 기업들의 경쟁 구도는 이미 새로운 국면으로 접어들었습니다. “누가 더 거대한 모델을 만드는가”라는 성능 경쟁은 여전히 유효하지만, 승부를 가르는 결정적 요인은 더 이상 아닙니다. 이제 진정한 격전지는 “불완전한 AI를 현실의 복잡한 현장에서 얼마나 안정적으로 구동시키는가”로 옮겨가고 있습니다.

즉, 경쟁의 중심이 모델 그 자체에서 모델을 감싸고 통제하는 ‘하니스(Harness)’로 이동한 것입니다. 현장의 예측 불가능한 변수들(데이터의 결손, 환경의 변화, 사람의 개입, 실패의 후폭풍)을 끝까지 감당할 수 있는 구조를 설계했는지가 비즈니스의 성패를 결정합니다.

데이터와 인프라 전문 기업들이 AI 에이전트와 MLOps를 결합하고, 불확실성이 극단적으로 높은 신약 개발 파이프라인에 AI를 연동할 수 있는 비결도 바로 여기에 있습니다. 이는 모델이 완벽해서가 아닙니다. 오히려 ‘모델은 완벽하지 않다’는 전제 아래, 불안정한 지능을 책임지고 끌고 갈 수 있는 견고한 하니스 아키텍처를 설계했기 때문에 가능한 일들입니다.

이러한 맥락에서 오늘날 흔히 들리는 “우리는 최고의 AI 에이전트를 개발했습니다”라는 말은, 사실 다음과 같은 의미를 내포하고 있습니다.

“우리는 야생마와 같은 모델이 어떤 산업 환경에서도 사고를 일으키지 않도록,
철저하게 설계된 시스템적 마구(Harness)를 입혔습니다.”

이제 화려한 프롬프트로 AI를 설득하던 시기는 서서히 저물고 있습니다. 그 자리를 대신하는 것은 지능의 힘을 믿는 막연한 낙관이 아니라, 지능의 한계를 인정하고 보완하는 공학적 태도입니다. 말 잘하는 AI를 만드는 것보다, 실수하는 AI를 안전하게 다루는 구조를 만드는 일이 훨씬 더 중요해진 시대가 온 것입니다.

하니스 엔지니어링은 단순한 유행이 아닙니다. AI를 실험실 밖으로 끌어내어 우리 사회의 핵심 인프라로 편입시키기 위한 필연적인 진화입니다. 그리고 그 중심에는 이제 모델을 숭배하는 ‘마법사’가 아니라, 정교한 제어 시스템을 설계하는 ‘공학자’가 서 있습니다.마지막으로 질문을 하나 던지며 글을 맺고자 합니다.

마지막으로 질문을 하나 던지며 글을 맺고자 합니다.

“여러분이 비즈니스 현장에서 사용 중인 AI는, 과연 얼마나 튼튼한 마구를 차고 있습니까?”