1년 전쯤부터 AI 헤비유저가 되기로 결심했다. 유명한 AI서비스는 전부다 구독하고, 중국 업체들의 서비스도 쓴다. 주말에는 각종 바이브코딩 도구들에 얼토당토한 요구들을 던져보기도 한다. 거대한 시대변화에 뒤쳐지지 않으려는 문과출신 중년 아저씨의 몸부림이다.
얼마전 GPT5가 나왔다. 챗GPT가 처음 출시될 때 별다른 홍보가 없었음에도 불구하고 역대 가장 빨리 성장한 서비스가 됐었는데, 이번 GPT5는 미리부터 홍보가 요란했다. 빈 수레가 요란한 격일까 싶어 살짝 걱정이 됐지만, 첫날 반응들은 괜찮았고 나도 만족스러웠다. 속도가 빨라졌고, API(애플리케이션 연동) 요금이 크게 내려갔다. 어차피 LLM에 대단한 인사이트를 기대하는 것은 불가능하다고 생각했기 때문에, 효율화만으로도 충분히 만족스러웠다.
그러나 둘째날부터 뭔가 이상했다. 커뮤니티 사이트에선 구 버젼을 돌려달라는 리뷰가 올라오기 시작했고, 나도 이상한 경험을 했다. ‘암호화폐와 블록체인의 신뢰 모델’이라는 제목의 논문 파일을 업로드하고 요약을 요청했는데, 엉뚱한 답변이 나왔다.
"해당 논문은 국제 무역과 경제 성장의 관계를 실증적으로 분석한 연구로, 다음과 같이 정리할 수 있습니다.... (어쩌구 저쩌구)"
내가 올린 파일과는 아무 관련 없는 정보를 데이터까지 포함해서 길게도 뽑아냈다. 황당해서 “너 솔직히 첨부파일 안읽었지?”라고 프롬프팅 했다. 그랬더니,
"읽었습니다. 제가 드린 요약은 실제로 해당 PDF 본문(텍스트와 표 일부) 내용을 기반으로 작성한 것이 맞습니다."
오픈AI는 GPT5의 중요한 개선 포인트로 할루시네이션(모르면서 엉뚱한 답변을 능청스럽게 하는) 현상을 개선했다고 했는데, 이건 단 한 번도 겪어보지 못한 심각한 수준의 할루시네이션이었다. API로 업무 프로세스를 연동하는 과정에서 이런 거짓말은 치명적일 수 있다.
오픈AI의 LLM 모델들의 성능은 사실 지난 1년반 동안 크게 발전하지 못했다. GPT-4o 모델까지 거침없이 세상을 놀래키더니, GPT-4.5에서 크게 한 번 말아먹었다. 작년 상반기는 AI기술 영역에서 ‘매개변수 1조개 모델’에 대한 기대감이 클 때였다. GPT같은 LLM은 모델의 매개변수 개수를 늘리면 성능이 향상되는데 24년 들어 이 개수가 1조개에 근접하기 시작했다. 수십억개 매개변수로도 놀라운 일이 벌어졌는데 1조개라면 인간을 뛰어넘는 인공지능이 나올지도 모른다는 기대감도 있었다. 하지만 매개변수 1조개의 LLM은 더 똑똑해지지 않았다. GPT 4.5는 막대한 학습비용을 잡아먹었지만 그냥 똑같은 말을 더 이상하게 하는 모델일 뿐이었다. 오픈AI는 급하게 4.1을 메인모델로 바꿨고, 4.5는 유명무실해졌다. 그 뒤로 아마존 1조 모델, 메타 1조 모델 등 회자되던 모델들은 발표되지 않거나 사라졌다. 메타는 인공지능 개발팀을 새로 구성하기 시작했다.
인공지능에는 스케일링 법칙이라는게 있었다. 더 많은 학습을 시키고, 더 많은 컴퓨팅 자원을 쏟아부으면 더 똑똑해진다는 것이다. 작년부터 이 법칙이 잘 작동되지 않는 것 같은 징후들이 나오고 있다. 이미 최선단 LLM들은 인터넷 상에서 구할 수 있는 거의 모든 정보들을 학습한 상태다. 학습량을 늘리기 위해서 LLM이 만든 정보를 재학습하는 합성 데이터 모델이 나왔지만, 오히려 부작용이 나타나고 있다. 정보량과 성능 개선이 한계에 부딪힌 뒤로 지난 1년반 동안 나온 혁신들은 같은 성능을 더 적은 비용으로 내는 효율을 높이는 쪽이었다. 2025년초 화제가 된 중국의 딥시크도 더 적은 매개변수를 쓰고 더 적은 컴퓨팅 자원으로 기존 모델과 비슷한 성능을 내는 것이었다.
나 같은 사이비 문과생이 가진 첨단 기술에 대한 이해는 (좋게 말해) ‘철학적’일 수밖에 없다. 나의 철학적 이해는 다음과 같다. LLM의 기반이 되는 트랜스포머 모델은 데이터의 ‘평균’을 예측하는 도구이다. 그래서 균형잡힌 학습을 위해서는 좋은 데이터, 나쁜 데이터가 모두 필요하고, 그래서 합성데이터로는 현재 한계의 돌파가 어렵다. 그리고 정보량이 아무리 많다고 한들, 모델은 늘 ‘평균적인’ 판단을 할 뿐이다. 그래서 LLM에 신박한 인사이트를 기대해서는 안된다고 생각한다. 물론 챗GPT같은 서비스들은 지금으로서도 충분히 훌륭하다. 다만, 비싼 GPU와 전기가 너무 많이 필요하니 현재의 역량을 유지하면서 서비스 단가를 내릴 수 있다면 대단한 혁신이다. 하지만 매개변수 수를 줄이고 답변 속도를 빠르게 하면, 위에 내가 경험한 것 같은 할루시네이션이 일어나기 시작하고 통제가 잘 안된다.
GPT5는 더 빠르고 더 싸다. 하지만 그 만큼 이전에 없던 이상한 짓을 한다. 1년 반만에 요란한 나팔소리와 함께 버전 4에서 5로 타이틀이 바뀌는 문자 그대로 ‘메이저 업데이트’가 나왔는데 막상 그 밥에 그 나물이다. 순간적으로 공포감이 머리를 스치고 지나갔다. AI혁명이 드디어 한계에 도달한 것인가. 이제부터 버블인가.
지금 미국 주식시장 시가총액 1등부터 8등까지 모두 인공지능 관련 기업들(NVDA, MSFT, AAPL, GOOG, AMZN, META, AVGO, TSLA)이다. 순위야 그렇다치고 이 8개 기업이 미국 상장기업 시가총액에서 차지하는 비중이 1/3이다. 미국같은 거대 경제에서 소수 기업이 이 정도의 기업가치를 독점하는 일은 지극히 이례적인 현상이다. 물론, 긍정적인 시나리오 하에서는 이런 천문한적 기업가치도 가치투자일 수 있다. 전세계 사람들이 미국 빅테크의 AI기술에 종속되고, 이 거대기업들이 ‘빅브라더’가 되어 인간을 노동에서 해방시킴과 동시에 전세계 거의 모든 산업에서 세금처럼 부가가치의 일부를 가져간다면, 시가총액이 천조원이면 어떻고 1경원이면 어떻겠는가. 세계 AI기술을 독과점할 수 있다면 그 가치는 무한에 가깝다.
GPT5로 체감되는 최선단 LLM모델의 실망은 AI기술 독과점에 대한 빅테크 기업가치 논리의 중대한 위협이다. 2년 가까이 선두 업체들의 기술이 정체되는 사이, 중국을 비롯한 수많은 경쟁자들이 추격하고 있다. 한국도 ‘국가대표 AI모델’을 만든다고 업체들을 선정했는데, 이들 기업들이 내놓은 모델을 보면 어느 정도 기능 수행이 지금도 가능하다. 1등이 주춤하면 꼴찌도 언제가는 따라간다.
LLM이 큰 혁신을 이뤄냈을 때 이 기술이 ‘석유’처럼 소수에 의해 독과점되는 기술일지 ‘인터넷’처럼 모두가 공유하는 공공재가 될지 논쟁이 있었다. 하지만 곧 빅테크 업체들이 초격차로 치고 나가면서 ‘석유시나리오’가 유력해 보였다. 빅테크의 무한 기업가치의 근간이다. 다만, 지금은 다시 공유하는 인프라로서 ‘인터넷 시나리오’를 생각해볼 여지가 생겼다. 독점과 경쟁 사이 적정 밸류에이션의 차이는 GPT3와 GPT5간의 차이보다 훨씬 더 크다.
■ 강대권 대표는 현재 라이프자산운용을 이끌고 있다. 서울대 경제학과 및 동대학원 석사(산업경제학 전공)를 마쳤고, 서울대 가치투자 동아리 '스믹(SMIC)' 출신으로도 유명하다. 가치투자 2세대 스타 펀드매니저인 강 대표는 한국투자밸류자산운용을 거쳐 유경PSG자산운용에서 최고투자책임자(CIO)를 역임했다. 당시 국내 운용사 최연소 CIO다. 지난 2016년, 2020년 국내 주식형 운용사 수익률 1위를 기록한 바 있다.