Claude
최근 수정 시각: ()
MAU 1천만 이상 · 대화형 인공지능 서비스 전체 |
Claude 클로드 | |
개발사 | |
분류 | |
출시일 | |
서비스 | 부분유료화 |
약 1,890만 명[1] | |
라이선스 | |
링크 |
1. 개요 [편집]
2. 상세 [편집]
3. 버전 [편집]
- Opus
가장 강력한 대형 모델. 복잡한 추론, 전문적인 작업, 세부적인 분석에 최적화. - Sonnet
성능과 속도 면에서 균형잡힌 스마트하고 효율적인 중급 모델. 일상적인 대화 및 사용과 작업에 적합. - Haiku
속도에 최적화된 경량 모델. 빠른 응답이 필요한 간단한 작업에 적합.
v3 시리즈부터, 넘버링 버전의 모델은 상기한 세 가지 세부 특화 모델로 다시 나뉜다. 신 모델 출시 시에는 Sonnet부터 공개되고 릴리즈하는데, 밸런스가 좋은 만큼 많이 애용되는 편.
3.7 Sonnet부터는 향상된 추론 모드가 추가돼, 문제 해결에 더 월등한 성능을 보인다.
3.1. Instant [편집]
2023년 3월 14일 런칭된 경량화 모델. 100만 토큰당 $1.63 과금제로 2 대비 비교적 저가로, 가속화된 답변이 가능하다. 4월 18일에는 Claude 1.3이 런칭되었다.
3.2. 2 [편집]
2023년 7월 11일 런칭. Instant보다 강력한 성능을 낸다. 100만 토큰당 8.00 달러[2]를 과금하며, 코딩, 복잡한 추론, 창작 등의 영역에 강점을 보인다. 이전 버전인 Claude-1도 2와 같은 가격으로 여전히 지원하고 있다.
3.3. 3 [편집]
한국에서도 ChatGPT와 유사한 방식 혹은 anthropic에서 제공하는 api를 통해 정량제로 요금을 지불하는 방식으로 이 모델을 사용할 수 있다. 무료로도 제한된 기능의 이용은 가능하다.
2024년 3월 14일에 런칭되었다. GPT-4보다 앞선 성능을 보인다고 발표했다. Kevin Andrew Fischer 스탠퍼드 대학교 전기 공학 박사는 Claude-3가 자신의 양자 역학 눈문을 학습한 몇 안 되는 지능체라 말했고, 양자 물리학 신이론을 프롬 2개 만에 재발명했다고 한다. 노르웨이 멘사 IQ 테스트에서 대화형 AI 중 처음으로 IQ 100을 넘겼다.[3]
Claude 3 Opus까지의 기준으로는 작문과 연관된 능력, 다국어에 대한 이해도가 출시 당시 기준 다른 언어 모델보다 뛰어난 편이다. 특히 유료 버전의 기계 번역의 성능이 속도를 제외하면 정확성 측면에서 매우 뛰어나다. 번역될 결과물의 문체도 지정할 수 있고, 특정 지식을 고려하게 하는 언어 모델 기반 번역에 대해서는 기계 번역 문서를 참고할 수 있다. 한국어도 지원되며, GPT4가 지원하는 모든 언어, 심지어 한문(전문적인 주제를 다루는 동양 고전도 어느 정도 해석이 된다.), 고대 그리스어나 고대 영어까지 지원된다. 마이너한 집단에서 쓰이거나, 아주 최근부터 쓰인 인터넷 속어나 한문이 섞이지 않은 조선 시대 이전의 고어투, 심한 사투리(한국어 방언에 대한 사전 지식은 수도권 출신 일반인보다 약간 낮다.)가 아닌 한 한국어 문체의 이해 능력이 높은 편이다. 다만 그 이해 능력은 문법 용어를 잘 이해한다기 보다는 어떤 글의 어미가 어떤 의미를 가졌는지 등을 이해한다는 것이다. '했습니다'를 '했다'로 바꾸는 식의 프롬프트를 이해하지만 해라체가 무엇인지는 잘 모른다.
비영어권 언어에 대한 이해도가 높아서 인공지능이 잘 다루던 유럽의 언어와 더불어 그동안 언어 데이터가 분석이 덜 된 동남아, 중동 등지의 전문적 주제의 글도 해석이 되고, 한국 내 외국인 노동자용 문장 DB(한국어와 외국인 노동자 언어로 된 문장 대조)와 맞는 문장이 우즈벡어, 싱할라어 등으로도 거의 똑같이 생성되거나 종종 그 이상의 정보도 알려준다. '보증을 서시겠습니까?'를 외국어로 표현할 때 더 예의를 갖춘 표현을 알려주는 식으로 말이다. 영어, 일본어는 물론 심지어 한국어로 발음을 쳐도 인식이 된다. 생소한 언어는 그런 것이 어려우나 그 언어로 된 문장의 발음을 IPA로 옮기고 이를 한국어로 옮기라고 하면 발음을 한국어로 알 수 있다. 잘 알려지지 않은 소수 민족의 언어라도 문맥과 어학 지식을 기반으로 단어의 의미를 유추하여 번역을 시도한다. 그러나 저작권에 대한 검열이 심각하여 심지어 오래된 민요 같은 저작권이 없는 작품도 저작권이 있는 것으로 감지되는 경우가 있는데, 저작권 보호 기간이 지났다는 식으로 알려준다든가, 기타 다른 방식으로 저작권이 없다는 것을 알려야 한다.
이미지에 적힌 문자를 인식하는 능력은 GPT-4o와 비교하면 현저히 떨어지고 이전의 GPT4보다도 떨어지거나 비슷한 정도라서[4] 이미지에 적힌 한글은 고화질 정자가 아니면 해석을 못하고, 일본어나 중국어에 쓰이는 문자도 비슷하다. 라틴 문자나 수학 기호만 좀 인식한다. 이미지를 인식할 수는 있지만 이미지를 첨부하면 그 대화에서는 GPT4보다 사용량이 제한되는 면이 있다.
한국 법조문도 기본적으로 학습된 것으로 추정되나, 법률적 판단을 시키며 구체적 근거를 요구하면 환각이 심한 결과를 내놓는다. 그래서 법률적 판단의 해답은 이 모델 그 자체의 지식만으로는 구하기 힘들고, 법률적 판단을 위해 어떤 정보를 찾아야 하는지에 대한 힌트나 단서까지는 찾을 수 있다. 판결문, 법조문의 어려운 표현을 쉽게 풀어서 써달라는 요청 정도는 가능하다.
ChatGPT, Copilot, Bard와 달리 검색은 되지 않는다. 2023년 8월까지의 정보만 제공한다. 다만 '튀르키예'를 2022년 6월 이전처럼 '터키'라고 표현하는 것을 선호하는 등 한국어의 경우 더 과거의 데이터 위주로 학습된 경우도 있다.
유료 버전은 월 20달러.
2024년 3월 14일에 런칭되었다. GPT-4보다 앞선 성능을 보인다고 발표했다. Kevin Andrew Fischer 스탠퍼드 대학교 전기 공학 박사는 Claude-3가 자신의 양자 역학 눈문을 학습한 몇 안 되는 지능체라 말했고, 양자 물리학 신이론을 프롬 2개 만에 재발명했다고 한다. 노르웨이 멘사 IQ 테스트에서 대화형 AI 중 처음으로 IQ 100을 넘겼다.[3]
Claude 3 Opus까지의 기준으로는 작문과 연관된 능력, 다국어에 대한 이해도가 출시 당시 기준 다른 언어 모델보다 뛰어난 편이다. 특히 유료 버전의 기계 번역의 성능이 속도를 제외하면 정확성 측면에서 매우 뛰어나다. 번역될 결과물의 문체도 지정할 수 있고, 특정 지식을 고려하게 하는 언어 모델 기반 번역에 대해서는 기계 번역 문서를 참고할 수 있다. 한국어도 지원되며, GPT4가 지원하는 모든 언어, 심지어 한문(전문적인 주제를 다루는 동양 고전도 어느 정도 해석이 된다.), 고대 그리스어나 고대 영어까지 지원된다. 마이너한 집단에서 쓰이거나, 아주 최근부터 쓰인 인터넷 속어나 한문이 섞이지 않은 조선 시대 이전의 고어투, 심한 사투리(한국어 방언에 대한 사전 지식은 수도권 출신 일반인보다 약간 낮다.)가 아닌 한 한국어 문체의 이해 능력이 높은 편이다. 다만 그 이해 능력은 문법 용어를 잘 이해한다기 보다는 어떤 글의 어미가 어떤 의미를 가졌는지 등을 이해한다는 것이다. '했습니다'를 '했다'로 바꾸는 식의 프롬프트를 이해하지만 해라체가 무엇인지는 잘 모른다.
비영어권 언어에 대한 이해도가 높아서 인공지능이 잘 다루던 유럽의 언어와 더불어 그동안 언어 데이터가 분석이 덜 된 동남아, 중동 등지의 전문적 주제의 글도 해석이 되고, 한국 내 외국인 노동자용 문장 DB(한국어와 외국인 노동자 언어로 된 문장 대조)와 맞는 문장이 우즈벡어, 싱할라어 등으로도 거의 똑같이 생성되거나 종종 그 이상의 정보도 알려준다. '보증을 서시겠습니까?'를 외국어로 표현할 때 더 예의를 갖춘 표현을 알려주는 식으로 말이다. 영어, 일본어는 물론 심지어 한국어로 발음을 쳐도 인식이 된다. 생소한 언어는 그런 것이 어려우나 그 언어로 된 문장의 발음을 IPA로 옮기고 이를 한국어로 옮기라고 하면 발음을 한국어로 알 수 있다. 잘 알려지지 않은 소수 민족의 언어라도 문맥과 어학 지식을 기반으로 단어의 의미를 유추하여 번역을 시도한다. 그러나 저작권에 대한 검열이 심각하여 심지어 오래된 민요 같은 저작권이 없는 작품도 저작권이 있는 것으로 감지되는 경우가 있는데, 저작권 보호 기간이 지났다는 식으로 알려준다든가, 기타 다른 방식으로 저작권이 없다는 것을 알려야 한다.
이미지에 적힌 문자를 인식하는 능력은 GPT-4o와 비교하면 현저히 떨어지고 이전의 GPT4보다도 떨어지거나 비슷한 정도라서[4] 이미지에 적힌 한글은 고화질 정자가 아니면 해석을 못하고, 일본어나 중국어에 쓰이는 문자도 비슷하다. 라틴 문자나 수학 기호만 좀 인식한다. 이미지를 인식할 수는 있지만 이미지를 첨부하면 그 대화에서는 GPT4보다 사용량이 제한되는 면이 있다.
한국 법조문도 기본적으로 학습된 것으로 추정되나, 법률적 판단을 시키며 구체적 근거를 요구하면 환각이 심한 결과를 내놓는다. 그래서 법률적 판단의 해답은 이 모델 그 자체의 지식만으로는 구하기 힘들고, 법률적 판단을 위해 어떤 정보를 찾아야 하는지에 대한 힌트나 단서까지는 찾을 수 있다. 판결문, 법조문의 어려운 표현을 쉽게 풀어서 써달라는 요청 정도는 가능하다.
ChatGPT, Copilot, Bard와 달리 검색은 되지 않는다. 2023년 8월까지의 정보만 제공한다. 다만 '튀르키예'를 2022년 6월 이전처럼 '터키'라고 표현하는 것을 선호하는 등 한국어의 경우 더 과거의 데이터 위주로 학습된 경우도 있다.
유료 버전은 월 20달러.
3.4. 3.5 [편집]
Anthropic의 모델 소개 글
한국 시간 2024년 6월 21일 Claude 3.5 Sonnet이 공개되었다. Claude-3 대비 작동 속도 및 비용 효율성이 개선됐다. 전 세대 최고 모델인 클로드-3 Opus 대비 2배 속도로 작동하며 비용은 오히려 더 저렴해졌다.
성능은 Claude 3이 출시 당시 다른 모델보다 비교 우위를 보이던 분야에서 매우 뛰어나다. 예컨대 번역 성능과 같은 부분은 GPT-4o나 Gemini 1.5 pro보다 앞선 모습을 보인다. 중국어, 일본어 등으로도 한국의 관련 어문 전공자 못지않은 지식을 제공한다. 2024년 4월까지의 정보가 학습되었다. 'Most intelligent model'이라는 소개를 통해 Anthropic 은 자사의 과거 모델에 비교해 더 지적인 언어 모델이라고 여겼다. LiveBench에서는 출시 당시 기준 최고 성능의 모델이라는 평도 등장했다. Claude 3.5 Haiku, Opus도 출시될 것이라고 한다.
뉘앙스, 유머, 복잡한 지침을 파악하는 능력이 향상되어 자연스럽고 공감할 수 있는 어조로 고품질 콘텐츠를 작성할 수 있게 되었다.
Claude-3 대비 비전 능력도 향상되었다. 정자체 한글을 무리 없이 인식할 수 있게 되었다.
다만 Claude 모델 공식 홈페이지를 이용할 때 Claude-3처럼 한 방에서 채팅을 많이 하면 사용을 많이 하지 못하는 경우가 있다. 이 문제를 피하려면 여러 개의 방을 두고 채팅을 해야 한다.
Claude 3과 마찬가지로 노래 가사의 저작권에 대해 저작권이 없는 노래도 저작권이 있다며 자세한 답변을 거부하는 결과가 나올 정도로 유독 예민하다. 이 문제로 소송을 당한 영향이 있어서로 보인다.
한국 시간 10월 23일 Claude 3.5 Sonnet의 upgrade된 버전이 나왔다. 기존의 3.5 Sonnet보다 광범위한 개선을 이루어냈으며, OpenAI o1-preview와 같이 에이전트 코딩에 특화된 모델보다 더 뛰어나다고 주장한다.#
같은 시간에 Claude 3.5 Haiku도 공개되었다. 기존의 3 Haiku보다 살짝 비싸진 비용[5]에 유사한 속도로 전체적인 모델의 개선이 이루어졌으며, 기존의 3 Opus보다 인텔리전스 벤치마크에서 더 뛰어난 성능을 보였다. 코딩에 특화된 측면에서도 기존의 3.5 Sonnet보다 더 높은 점수를 받아서 코딩용으로 꽤 괜찮을 것으로 평가된다. Amazon Bedrock과 Vertex AI에 먼저 제공을 시작했고, 텍스트 전용 모델로 제공되다가 추후 이미지 입력도 추가될 예정이다.
참고로, 의외의 출처로 3.5 Sonnet의 모델 크기가 유출되었는데, 마이크로소프트에서 제출한 논문에서 175B 크기의 모델이라고 언급되었다.#
한국 시간 2024년 6월 21일 Claude 3.5 Sonnet이 공개되었다. Claude-3 대비 작동 속도 및 비용 효율성이 개선됐다. 전 세대 최고 모델인 클로드-3 Opus 대비 2배 속도로 작동하며 비용은 오히려 더 저렴해졌다.
성능은 Claude 3이 출시 당시 다른 모델보다 비교 우위를 보이던 분야에서 매우 뛰어나다. 예컨대 번역 성능과 같은 부분은 GPT-4o나 Gemini 1.5 pro보다 앞선 모습을 보인다. 중국어, 일본어 등으로도 한국의 관련 어문 전공자 못지않은 지식을 제공한다. 2024년 4월까지의 정보가 학습되었다. 'Most intelligent model'이라는 소개를 통해 Anthropic 은 자사의 과거 모델에 비교해 더 지적인 언어 모델이라고 여겼다. LiveBench에서는 출시 당시 기준 최고 성능의 모델이라는 평도 등장했다. Claude 3.5 Haiku, Opus도 출시될 것이라고 한다.
뉘앙스, 유머, 복잡한 지침을 파악하는 능력이 향상되어 자연스럽고 공감할 수 있는 어조로 고품질 콘텐츠를 작성할 수 있게 되었다.
Claude-3 대비 비전 능력도 향상되었다. 정자체 한글을 무리 없이 인식할 수 있게 되었다.
다만 Claude 모델 공식 홈페이지를 이용할 때 Claude-3처럼 한 방에서 채팅을 많이 하면 사용을 많이 하지 못하는 경우가 있다. 이 문제를 피하려면 여러 개의 방을 두고 채팅을 해야 한다.
Claude 3과 마찬가지로 노래 가사의 저작권에 대해 저작권이 없는 노래도 저작권이 있다며 자세한 답변을 거부하는 결과가 나올 정도로 유독 예민하다. 이 문제로 소송을 당한 영향이 있어서로 보인다.
한국 시간 10월 23일 Claude 3.5 Sonnet의 upgrade된 버전이 나왔다. 기존의 3.5 Sonnet보다 광범위한 개선을 이루어냈으며, OpenAI o1-preview와 같이 에이전트 코딩에 특화된 모델보다 더 뛰어나다고 주장한다.#
같은 시간에 Claude 3.5 Haiku도 공개되었다. 기존의 3 Haiku보다 살짝 비싸진 비용[5]에 유사한 속도로 전체적인 모델의 개선이 이루어졌으며, 기존의 3 Opus보다 인텔리전스 벤치마크에서 더 뛰어난 성능을 보였다. 코딩에 특화된 측면에서도 기존의 3.5 Sonnet보다 더 높은 점수를 받아서 코딩용으로 꽤 괜찮을 것으로 평가된다. Amazon Bedrock과 Vertex AI에 먼저 제공을 시작했고, 텍스트 전용 모델로 제공되다가 추후 이미지 입력도 추가될 예정이다.
참고로, 의외의 출처로 3.5 Sonnet의 모델 크기가 유출되었는데, 마이크로소프트에서 제출한 논문에서 175B 크기의 모델이라고 언급되었다.#
3.5. 3.7 [편집]
Anthropic 블로그: 모델 소개
2025년 2월 25일 KST, 3.7 Sonnet이 공개되었다.
Anthropic이 만든 추론 기능을 처음으로 사용 가능한 모델이다. 타사의 추론 기능을 이용하면 좋아지는 부분에서 성능이 좋아진다. 하이브리드 모델로써 일반적인 상황에서는 기존의 방식대로 빠른 답변을, 코딩 등 추론이 필요한 상황에서는 사용자가 선택하여 추론을 진행시킬 수 있다. 다만 아직 추론은 유료 이용자만 가능하다. GPT-5가 출시되기 전이라 업계 최초의 하이브리드 모델이다.
사용자가 쉽게 느낄 수 있는 실제 성능 향상에 집중하였다고 하며, 그래서 추론 모델은 논리적 문제 풀기보다는 코딩 등 실용적인 사용에서 성능이 매우 강하다. 실제로 각종 코딩 벤치마크에서 o3-mini-high나 DeepSeek R1등의 타사 추론 모델들을 능가하는 점수를 보여주나, 각종 경시대회 등 문제풀이 점수는 낮게 측정된다.
3.5 sonnet의 불필요한 검열[6], 출력 길이의 제한과 같은 문제가 줄어들었다.
한국어 등의 언어에서 문제 해결력, 일관성이 전반적으로 향상되었다. 다만 추론 기능을 사용해도 작문이나 번역 등 추론이 덜 필요한 분야의 성능은 크게 좋아지지 않거나, 문학적인 부분의 표현력이 종종 떨어지는 경우까지 생긴다.
구어체 구사도 3.5에 비해 상당히 어색해진 모습을 보인다. 사용자 말의 맥락이나 행간 읽기, 공감적 답변하기 등 클로드의 전통적 강점이 상당히 희석되었는데, 논문 등 학술적 자료 위주로 학습된 것의 부작용으로 보인다. 다행히도 해당 단점은 4.0에서 크게 개선되었다.
번역의 결과물은 특별한 지시가 없으면 직역을 하는 성향이 강한데, 그래서 종종 자연스럽게 번역하라는 요청이 따로 필요하다.
2025년 3월 20일, 앤트로픽이 공식 발표를 통해 클로드 3.7 소넷(Claude 3.7 Sonnet) 모델에 미국에서만 웹 검색 기능을 추가했다고 밝혔다.
2025년 2월 25일 KST, 3.7 Sonnet이 공개되었다.
Anthropic이 만든 추론 기능을 처음으로 사용 가능한 모델이다. 타사의 추론 기능을 이용하면 좋아지는 부분에서 성능이 좋아진다. 하이브리드 모델로써 일반적인 상황에서는 기존의 방식대로 빠른 답변을, 코딩 등 추론이 필요한 상황에서는 사용자가 선택하여 추론을 진행시킬 수 있다. 다만 아직 추론은 유료 이용자만 가능하다. GPT-5가 출시되기 전이라 업계 최초의 하이브리드 모델이다.
사용자가 쉽게 느낄 수 있는 실제 성능 향상에 집중하였다고 하며, 그래서 추론 모델은 논리적 문제 풀기보다는 코딩 등 실용적인 사용에서 성능이 매우 강하다. 실제로 각종 코딩 벤치마크에서 o3-mini-high나 DeepSeek R1등의 타사 추론 모델들을 능가하는 점수를 보여주나, 각종 경시대회 등 문제풀이 점수는 낮게 측정된다.
3.5 sonnet의 불필요한 검열[6], 출력 길이의 제한과 같은 문제가 줄어들었다.
한국어 등의 언어에서 문제 해결력, 일관성이 전반적으로 향상되었다. 다만 추론 기능을 사용해도 작문이나 번역 등 추론이 덜 필요한 분야의 성능은 크게 좋아지지 않거나, 문학적인 부분의 표현력이 종종 떨어지는 경우까지 생긴다.
구어체 구사도 3.5에 비해 상당히 어색해진 모습을 보인다. 사용자 말의 맥락이나 행간 읽기, 공감적 답변하기 등 클로드의 전통적 강점이 상당히 희석되었는데, 논문 등 학술적 자료 위주로 학습된 것의 부작용으로 보인다. 다행히도 해당 단점은 4.0에서 크게 개선되었다.
번역의 결과물은 특별한 지시가 없으면 직역을 하는 성향이 강한데, 그래서 종종 자연스럽게 번역하라는 요청이 따로 필요하다.
2025년 3월 20일, 앤트로픽이 공식 발표를 통해 클로드 3.7 소넷(Claude 3.7 Sonnet) 모델에 미국에서만 웹 검색 기능을 추가했다고 밝혔다.
3.6. 4 [편집]
2025년 5월 2일, Anthropic의 홈페이지 소스코드에서 Claude 4가 발견되었다.#
2025년 5월 23일, Sonnet 4와 Opus 4이 동시에 프로덕션에 출시되었다. #
이 시리즈부터 모델 이름 규칙이 바뀐다. Claude 3.7 Sonnet → Claude Sonnet 4처럼, 넘버링 버전을 맨 뒤에 나타낸다.
Sonnet의 경우 일상 사용 용도로 더욱 특화되었고 코딩 실력 또한 더 발전하였다. 3.7 버전에서 약점 내지 개악으로 꼽히던 모델의 구어체 사용 실력을 개선한 것으로 보인다.
Anthropic 발표 (2025년 5월 27일 업데이트): "웹 검색은 이제 모든 클로드 요금제에서 전 세계적으로 사용할 수 있다" (Web search is now available globally on all Claude plans.)
AI 챗봇 클로드의 모바일 앱(iOS 및 Android)에 음성 대화 모드 베타 버전을 5월 27일 영어버전만 출시했다고 발표. 몇 주 내에 모든 구독 플랜 사용자에게 점진적으로 적용될 예정.
Opus의 경우 성능은 Sonnet보다 더 뛰어나나 생성속도가 느리고 주가가 5배 가량 비싸다.
2025년 5월 23일, Sonnet 4와 Opus 4이 동시에 프로덕션에 출시되었다. #
이 시리즈부터 모델 이름 규칙이 바뀐다. Claude 3.7 Sonnet → Claude Sonnet 4처럼, 넘버링 버전을 맨 뒤에 나타낸다.
Sonnet의 경우 일상 사용 용도로 더욱 특화되었고 코딩 실력 또한 더 발전하였다. 3.7 버전에서 약점 내지 개악으로 꼽히던 모델의 구어체 사용 실력을 개선한 것으로 보인다.
Anthropic 발표 (2025년 5월 27일 업데이트): "웹 검색은 이제 모든 클로드 요금제에서 전 세계적으로 사용할 수 있다" (Web search is now available globally on all Claude plans.)
AI 챗봇 클로드의 모바일 앱(iOS 및 Android)에 음성 대화 모드 베타 버전을 5월 27일 영어버전만 출시했다고 발표. 몇 주 내에 모든 구독 플랜 사용자에게 점진적으로 적용될 예정.
Opus의 경우 성능은 Sonnet보다 더 뛰어나나 생성속도가 느리고 주가가 5배 가량 비싸다.
3.7. 4.1 [편집]
2025년 8월 5일, Anthropic에서 Claude Opus 4.1을 공개했다.#
파일:Claude Opus 4.1 Benchmark.png
기존 Opus 4 대비 미세하게 밴치마크 성능이 올라간 정도를 빼면 크게 달라진 점은 없고, 오히려 Tool을 사용하는 에이전틱 능력이 sonnet 4 보다 못하게 되는 모순적인 상황에 놓였다.
코딩 외 일반적인 대화 용도에는, 대체적으로 3.5 Sonnet → 3.7 Sonnet과 비슷한 느낌의 변화가 있다. 좀 더 많은 배경지식을 끄집어내고 조금 더 확실하게 정리해주지만, 프롬프트 해석 능력은 오히려 살짝 떨어졌기에 제대로 지정해주지 않으면 프롬프트에서 환각을 볼 수 있다.[7] 그래도 Opus 4보다는 4.1이 Sonnet 4 대비 응답 차이가 벌어지는 편이다.
파일:Claude Opus 4.1 Benchmark.png
기존 Opus 4 대비 미세하게 밴치마크 성능이 올라간 정도를 빼면 크게 달라진 점은 없고, 오히려 Tool을 사용하는 에이전틱 능력이 sonnet 4 보다 못하게 되는 모순적인 상황에 놓였다.
코딩 외 일반적인 대화 용도에는, 대체적으로 3.5 Sonnet → 3.7 Sonnet과 비슷한 느낌의 변화가 있다. 좀 더 많은 배경지식을 끄집어내고 조금 더 확실하게 정리해주지만, 프롬프트 해석 능력은 오히려 살짝 떨어졌기에 제대로 지정해주지 않으면 프롬프트에서 환각을 볼 수 있다.[7] 그래도 Opus 4보다는 4.1이 Sonnet 4 대비 응답 차이가 벌어지는 편이다.
4. 기능 [편집]
4.1. Artifact [편집]
긴 글을 작성해야 함을 스스로 인식하거나, 사용자의 요청이 있으면 창을 따로 띄워 그곳에 작성한다. 사용자는 작성된 내용을 보고 아티팩트 창에서 따로 프롬포트를 입력하여 내용을 수정하거나 개선할 수 있다.
주로 작문이나 코드를 짤 때 자주 볼 수 있다.
주로 작문이나 코드를 짤 때 자주 볼 수 있다.
4.2. Projects [편집]
식별자를 가진 독립적인 개체를 생성해, 관련 파일들을 올려놓고, 그 파일들을 처음부터 전부 참조 가능한 상태로 대화를 시작하는 기능이다. 파일과 별개로, 스크립트를 입력해 추가적인 튜닝을 시킬 수도 있다.
사실상 각 문서 및 스크립트로 미리 튜닝된 대화방을 무한히 생성할 수 있는 기능이다. 대화를 속행하면 고질적인 문제가 발생하지만 대화를 버리면 처음부터 다시 튜닝해야 하는 고질적인 불편함을 크게 개선시켜 준다. 대화 내용을 정리한 문서를 작성하는 능력이 있으므로, 출력받은 대화 내용 문서를 다시 프로젝트에 박아 넣고 새 대화를 생성하는 식으로 작동시키면 된다.
사실상 각 문서 및 스크립트로 미리 튜닝된 대화방을 무한히 생성할 수 있는 기능이다. 대화를 속행하면 고질적인 문제가 발생하지만 대화를 버리면 처음부터 다시 튜닝해야 하는 고질적인 불편함을 크게 개선시켜 준다. 대화 내용을 정리한 문서를 작성하는 능력이 있으므로, 출력받은 대화 내용 문서를 다시 프로젝트에 박아 넣고 새 대화를 생성하는 식으로 작동시키면 된다.
4.3. 스타일 [편집]
Claude가 글을 쓰는 스타일을 매번 강제로 지정해주는 기능이다. 일반적인 프롬프트는 대화가 진행될수록 까먹지만, 스타일은 계속 Claude에게 제시되므로 절대 까먹지 않는다.
글을 쓰면 이에 맞추어 자동 생성하는 기능이 있지만, 이는 환각이 심하므로 쓰지 않는 것이 좋다.
대신, 사용자 지정 지침 사용에서 페르소나를 부여하는 프롬프트를 넣어두면 Claude가 계속 서식을 지키므로 매우 유용하다.
단, 심층 사고가 켜져 있으면 스타일을 계속 의식하다가 사고의 질이 떨어질 수 있으니 이 경우 적절한 타이밍에 키고 끄는 것이 좋다. XML 태그를 이용해서 표현을 리마인드 하지 않게 명령하는 것도 방법이다.
글을 쓰면 이에 맞추어 자동 생성하는 기능이 있지만, 이는 환각이 심하므로 쓰지 않는 것이 좋다.
대신, 사용자 지정 지침 사용에서 페르소나를 부여하는 프롬프트를 넣어두면 Claude가 계속 서식을 지키므로 매우 유용하다.
단, 심층 사고가 켜져 있으면 스타일을 계속 의식하다가 사고의 질이 떨어질 수 있으니 이 경우 적절한 타이밍에 키고 끄는 것이 좋다. XML 태그를 이용해서 표현을 리마인드 하지 않게 명령하는 것도 방법이다.
4.4. Claude Code [편집]
아티팩트에서 발전된 형태로 코드를 짜야 하면 알아서 창을 띄우고 실시간으로 코드를 입력해서 보여준다. 사용자가 수동으로 내용을 수정 가능하며 특정 부분을 프롬포트로 수정해달라 요청할 수도 있다. 클로드가 내용을 수정하면 전체 코드를 다시 쓰는 대신 수정할 부분만 실시간으로 첨삭하여 수정해준다.
보통 API를 통한 CLI로 터미널에 통합하여 Visual Studio Code 등에서 사용한다. Claude의 코딩 실력이 LLM 모델 최상위권이라 바이브 코딩에 많이 사용되고 있다.
비슷하게 비교되는 경쟁 서비스는 구글의 gemini cli이며, 둘다 CLI 인터페이스로 작동한다. 단점으론 CLI 특성상 GUI 방식에 비해 호불호가 갈린다. GUI 인터페이스의 경쟁 서비스는 Cursor 또는 GitHub Copilot이 있는데, 개발자 입장에서 CLI를 더 선호하는 사람도 있지만 GUI 인터페이스에 비해 가시성이나 각종 편의기능은 부실한 편이다. VSC에서 사용할 경우 서드파티 플러그인을 통해 Cursor나 GitHub Copilot처럼 채팅 방식으로 사용할 수 있지만 서드파티의 한계는 존재한다.
보통 API를 통한 CLI로 터미널에 통합하여 Visual Studio Code 등에서 사용한다. Claude의 코딩 실력이 LLM 모델 최상위권이라 바이브 코딩에 많이 사용되고 있다.
비슷하게 비교되는 경쟁 서비스는 구글의 gemini cli이며, 둘다 CLI 인터페이스로 작동한다. 단점으론 CLI 특성상 GUI 방식에 비해 호불호가 갈린다. GUI 인터페이스의 경쟁 서비스는 Cursor 또는 GitHub Copilot이 있는데, 개발자 입장에서 CLI를 더 선호하는 사람도 있지만 GUI 인터페이스에 비해 가시성이나 각종 편의기능은 부실한 편이다. VSC에서 사용할 경우 서드파티 플러그인을 통해 Cursor나 GitHub Copilot처럼 채팅 방식으로 사용할 수 있지만 서드파티의 한계는 존재한다.
4.5. 통합 [편집]
여러 타사 서비스를 클로드에 통합해 사용한다. 지메일, 구글 드라이브, 캘린더, 깃헙 등을 지원한다.
예를 들면 필요 시 지메일 내용을 스스로 읽어 분석하거나 캘린더에서 일정을 가져와 알려주고 드라이브에서 파일을 가져온다거나 그런 식이다. 아쉽게도 아직 쓰기 기능은 지원하지 않아서 자동으로 메일을 보내준다거나 일정을 추가해준다거나 하진 못한다.
통합 추가 기능이 생겨 공식 지원 통합이 아니더라도 API를 통해 연동하여 여러 기능을 통합 할 수 있게 되었다.
예를 들면 필요 시 지메일 내용을 스스로 읽어 분석하거나 캘린더에서 일정을 가져와 알려주고 드라이브에서 파일을 가져온다거나 그런 식이다. 아쉽게도 아직 쓰기 기능은 지원하지 않아서 자동으로 메일을 보내준다거나 일정을 추가해준다거나 하진 못한다.
통합 추가 기능이 생겨 공식 지원 통합이 아니더라도 API를 통해 연동하여 여러 기능을 통합 할 수 있게 되었다.
4.6. 심층 사고 [편집]
하이브리드 모델인 Sonnet 3.7 부터 지원. 타사의 추론 모델들 처럼 더 긴 시간을 투자하여 추론을 진행하여 답한다. 타사와 동일하게 사고 과정을 글로 보여준다.
튜닝하지 않으면 수학, 코딩 외에는 그리 큰 도움이 되지 않는다.[8] 그러나 Claude는 특이하게 심층 사고 과정 자체를 튜닝할 수 있기 때문에, 이를 조정한다면 큰 도움이 된다. 특정한 방법으로 정밀한 분석을 미리 진행하는 추론을 강제하거나, 추론의 범주가 아닌 부분을 추론으로 끌어들이지 못하게 막거나, 역으로 추론을 감성적으로 만들어버리는 등 온갖 활용이 가능하다.
튜닝하지 않으면 수학, 코딩 외에는 그리 큰 도움이 되지 않는다.[8] 그러나 Claude는 특이하게 심층 사고 과정 자체를 튜닝할 수 있기 때문에, 이를 조정한다면 큰 도움이 된다. 특정한 방법으로 정밀한 분석을 미리 진행하는 추론을 강제하거나, 추론의 범주가 아닌 부분을 추론으로 끌어들이지 못하게 막거나, 역으로 추론을 감성적으로 만들어버리는 등 온갖 활용이 가능하다.
4.7. 웹 검색 [편집]
인터넷을 검색하여 답하는 기능. 사용자의 명시적 요청이 있어야 한다고는 하지만 그냥 자기가 모르는 걸 물어보면 알아서 인터넷에서 찾아보고 답한다.
초기엔 넓은 범위로 검색하다 정보가 충분치 않거나 애매하면 여러 단계를 거치며 검색어를 알아서 수정하고 범위를 좁히며 검색한다. 초기부터 성능이 꽤 좋은 편. 답변 근거에 출처를 다 명시해 주기에 AI 환각이 걱정되면 직접 검토도 가능하다.
GPT 대비 빠른 속도가 장점이다. 서버 상황만 괜찮다면 수십개의 웹사이트를 순식간에 뒤져 답변해준다.
초기엔 넓은 범위로 검색하다 정보가 충분치 않거나 애매하면 여러 단계를 거치며 검색어를 알아서 수정하고 범위를 좁히며 검색한다. 초기부터 성능이 꽤 좋은 편. 답변 근거에 출처를 다 명시해 주기에 AI 환각이 걱정되면 직접 검토도 가능하다.
GPT 대비 빠른 속도가 장점이다. 서버 상황만 괜찮다면 수십개의 웹사이트를 순식간에 뒤져 답변해준다.
4.8. Research Mode [편집]
타사의 연구 기능과 동일. 심층 사고 + 웹 검색 느낌으로 방대한 양의 정보 조사가 필요할 때 사용한다.
연구는 여러 단계로 이루어지며 우선 연구 계획을 스스로 추론하여 어떻게 조사를 진행할 지 생각하여 정리한다. 그리고 인터넷을 뒤져 필요하다면 수백개에 달하는 출처를 모두 검색하여 정보를 뽑아낸 뒤 정리해서 레퍼런스가 달린 보고서를 만드는 방식이다.
웹 통합과 더불어 타사 대비 빠른 속도가 장점이라고 밀고 있는데, 엔트로픽에선 GPT의 Deep Research가 10-30분 걸리는 수준의 분석을 클로드는 1-10분만에 해낼 수 있다고 주장한다.
연구는 여러 단계로 이루어지며 우선 연구 계획을 스스로 추론하여 어떻게 조사를 진행할 지 생각하여 정리한다. 그리고 인터넷을 뒤져 필요하다면 수백개에 달하는 출처를 모두 검색하여 정보를 뽑아낸 뒤 정리해서 레퍼런스가 달린 보고서를 만드는 방식이다.
웹 통합과 더불어 타사 대비 빠른 속도가 장점이라고 밀고 있는데, 엔트로픽에선 GPT의 Deep Research가 10-30분 걸리는 수준의 분석을 클로드는 1-10분만에 해낼 수 있다고 주장한다.
4.9. Model Context Protocol 통합 [편집]
Model Context Protocol를 Cluade 앱에 통합하여 사용한다. 주로 Windows나 Mac OS버전 데스크톱 앱 버전에서 사용할 수 있다.
MCP 서버는 안트로픽이 발표 이후 한 차례 AI 업계에 화제가 되었던 기능으로, 아주 간단한 설명으론 AI 모델이 MCP 서버로 통합되면 거의 모든 것을 직접 통제 가능하게 해주게 만드는 기능이라 생각하면 된다. 예를 들면 클로드 데스크톱 앱으로 Windows MCP Server를 설치해 통합하면 여러 툴들을 통해 내 컴퓨터의 OS를 직접 제어 가능하게 된다. "내 컴퓨터가 조금 이상한 것 같은데 한번 봐줄래?" 같은 질문을 하면 스스로 현재 컴퓨터의 상태를 파악하고 문제가 있는 부분을 스스로 고치게 만들 수 있다.[9] 윈도우의 경우 툴이 방대해서 아예 키보드, 마우스 조작까지 가능하다. 물론 권한이 커진 만큼 위험한 기능이므로 주의해야 한다.
MCP 서버는 안트로픽이 발표 이후 한 차례 AI 업계에 화제가 되었던 기능으로, 아주 간단한 설명으론 AI 모델이 MCP 서버로 통합되면 거의 모든 것을 직접 통제 가능하게 해주게 만드는 기능이라 생각하면 된다. 예를 들면 클로드 데스크톱 앱으로 Windows MCP Server를 설치해 통합하면 여러 툴들을 통해 내 컴퓨터의 OS를 직접 제어 가능하게 된다. "내 컴퓨터가 조금 이상한 것 같은데 한번 봐줄래?" 같은 질문을 하면 스스로 현재 컴퓨터의 상태를 파악하고 문제가 있는 부분을 스스로 고치게 만들 수 있다.[9] 윈도우의 경우 툴이 방대해서 아예 키보드, 마우스 조작까지 가능하다. 물론 권한이 커진 만큼 위험한 기능이므로 주의해야 한다.
5. 타 LLM 대비 [편집]
5.1. 장점 [편집]
해당 사항들은 모델의 마이너 패치나 경쟁사의 최신 모델 출시 등으로 언제든 상황이 바뀔 수 있음을 주의해야 한다.
- 언어의 이해도와 구사력이 매우 뛰어나다. 이건 Claude의 출시 당시부터의 특징이기도 했는데, 버전이 오를수록 더더욱 일취월장하여 현재는 각종 AI 판독 서비스에서도 판독하지 못할 정도다. 즉, 작정하고 속이면 사람도 속일 수 있다.
- 영어 뿐 아니라 한국어도 매우 자연스럽게 구사한다. 기본 말투는 친한 척 하는 AI 어시스턴트 말투라 그저 그렇지만, 간단한 프롬프트로 진짜 사람이랑 대화하는 듯한 느낌을 낼 수 있다. 예를 들면 오래된 친구, 직장 동료 말투부터 해서 왜인진 모르겠지만 불X친구, 천박한 인터넷 커뮤니티 말투, 츤데레 컨셉 등 온갖 말투를 섭렵하고 있고, 이런 말투 써줘 등의 요청으로 가능하다.
- 한국어를 포함한 여러 언어에서, 전문 작가의 글을 여러 개 제시한 다음, 그 문체와 표현 기법으로 글을 써보라고 하면 어느 정도 모방이 가능할 정도로 글을 잘 쓴다. 시 같은 문학 작품을 그냥 써보라고 하면 못 쓰지만, 좋은 예시를 주고 쓰면 수준이 급격히 올라간 작품이 나온다. 긴 글에서 그런 창작이 한계가 있는 정도다. 어느 모로 보나 GPT보다는 월등하다.[10] Gemini의 작문 실력이 많이 올랐지만, Claude만큼의 창의성을 보여주기엔 무리가 많다.
- [예시(펼치기·접기)]
- 모래시계가 멈춘 것은 한겨울 새벽이었습니다.
처음엔 몰랐어요.
단지 어머니의 시계가 멈췄다고만 생각했지요.
오래된 것이었으니까요.
낡은 선반 위에서 먼지 쌓인 채 수십 년을 버텨온 그 모래시계,
위아래로 뒤집을 때마다 서걱거리며 흐르던 푸른빛 모래알들.
그런데 그날, 내가 뒤집어도 한 알도 흐르지 않았어요.
모래들이 서로를 껴안고 딱딱하게 굳어버렸더군요.
아, 처음부터 알고 있었네요.
이게 무슨 의미인지.
병실 창가에 놓인 어머니의 손등에서
푸른 혈관이 점점 희미해져 갔어요.
맥박은 모래시계처럼 멈춰있었고
시간도 그렇게 멈춰있었어요.
살아 있는 동안 한 번도 보여주지 않으시던 미소를,
어머니는 마지막으로 보여주셨지요.
환했는데 구름처럼
가벼웠는데
그때 알았네요
시간은 멈출 수 있다는 것을.
이제 십 년이 지났습니다.
낡은 선반 위 모래시계는
여전히 그 자리에 있어요.
푸른빛 모래알들은 여전히 흐르지 않고
단단하게 굳어 있지요.
가끔은 생각합니다.
저 모래알들을 하나하나 떼어내어
다시 흐르게 할 수 있다면
어머니의 맥박도 다시 뛸 수 있을까요?
세상에서 가장 애틋한 것은
흐르지 않는 시간 속에 갇힌
저 푸른빛 모래알들일까요,
아니면
그것을 바라보며 눈물 흘리는
내 눈동자일까요.
- 높은 언어 이해도를 바탕으로 한 뛰어난 번역 실력. 이해하기 쉽게 자연스럽게 풀어 해석하는 능력이 뛰어나다.
- 동양 문화나 어학[13]에 대한 이해도가 높은 편이다. 특히 문어체, 표준어를 중심으로 이해도가 높다. 일제 강점기의 생활을 일본과 당시 한반도의 상황을 고려하여 이해할 정도다. '내지인 주재소장' 같은 표현은 물론이고, 백석의 '남신의주 유동 박시봉방' 같은 시에서 어려운 단어의 80% 정도는 그 의미를 제대로 추론할 정도다. 다만 그런 어려운 글에서 20% 정도는 의미가 틀리기는 한다. 나쓰메 소세키의 나는 고양이로소이다나 루쉰의 아Q정전의 오래된 문체도 쉽게 이해하며, 현대적인 일본어나 중국어와 비교하여 무엇이 고어투인지 이해한다. 사투리는 심한 것은 해석을 못하나 그나마 LLM 중 해석 성능이 높으며, 한국의 평범한 수도권 출신 수준의 지식이 있다. 만주어도 오류가 있으나 장문을 조금 해석해 내며, 동양 고전에서 따온 몇몇 관용어는 출처를 제공할 수 있다. 데이터가 많은 서양어는 물론 동남아나 중동의 언어도 공용어급 언어는 정중한 말투는 추천이 가능하다. 어학뿐만 아니라 심한 추론이 없는 분야라면 동양식 가족 문화나 직장 문화, 집단주의에 대한 이해도도 타사 대비 높은 편이다. 사회 과학 등의 분야에서 한국어 전문 용어를 사용한 글도 매끄럽게 쓰이는 편이다. LLM은 구어체, 통신체가 약한 편인데 완벽하지는 않아도 그나마 아시아 국가의 그런 말투를 재현해 내는 편이다. 사하라 이남 아프리카의 주요 고유 언어(스와힐리어, 줄루어 등)의 일부 통신체까지 알고 있다.
- 단점으로 제시되기도 하지만, 억지로 중립을 맞추려는 성향이 거의 없다. 특히 역사나 종교 주제에서, ChatGPT는 비정상적으로 중립을 지켜야 한다고 주장하기도 하나[14], Claude는 그렇게 하지 않는다. 한쪽의 주장을 정하고 이 관점에서 대화하려는 용도로 매우 적합하다. GPT 역시 튜닝을 먼저 하고 시작하면 중립병은 어느 정도 교정되지만, 검열에 걸려 강제로 기계적 중립 입장을 내뱉거나, 설정을 까먹고 중립으로 되돌아가는 경우가 자주 관찰되기에 한계가 명확하다.
- Claude는 비교적 과잉 거부가 적은 편으로, 사용자 의도를 고려한 맥락 기반 응답에 강점을 보인다. 특히 역사·문학·예술처럼 현실적 위험이 적은 분야에서는 규범 표현이나 폭력적 장면이 포함되어도 문학적 맥락이 명확하면 응답을 차단하지 않고 분석을 이어가는 경향이 있다. 예를 들어, 일부 문학 작품의 식인 장면이나 극단적 설정에 대해 OpenAI GPT 계열이 전면 거부하는 반면, Claude는 창작물 분석이라는 점이 분명하면 줄거리 요약이나 주제 해석 등으로 적절히 대응한다. 정치·사회 이슈에 대해서도 비교적 덜 제한적인 응답을 보이는 편이다. 예컨대 실제 정부 문서를 함께 제공하면, 해당 사안의 헌법적 쟁점이나 역사적 맥락을 논리적으로 분석해주는 등 일관된 정책 해석과 구조화된 응답을 제시한다. 정치적 예측이나 논쟁적 주제도 중립성을 유지하면서 분석 가능한 범위 내에서 충분히 응답하며, 정보가 정확할수록 출력도 정밀해진다. 또한 Claude는 응답을 거부하더라도 대부분 대화를 끊지 않고, 위험 요소를 짚어주거나 수정 가능한 방향을 제안하는 등 사용자가 우회할 수 있도록 적극적인 대안 제시를 시도한다. 이런 점에서 타 모델에 비해 보다 유연하고, 리프레이즈에 잘 반응하는 사용자 친화적 인터페이스를 갖추고 있다는 평가를 받는다.
- 단순히 소통하는 용도로 더 뛰어나다. 정보를 얻는 것이 목적이 아닌 그냥 소통이나 대화를 원하는 사용자의 의도를 잘 파악해서, 정보 제공보단 실제 대화를 하는 톤의 모습을 보여준다. 같은 프롬프트에도 GPT는 해답을 찾고 정보를 주거나 체계적으로 글을 정리해서 보여주는 느낌이 강하다.[15] 비유하자면 클로드는 얘기 잘 들어주고 공감력 넘치는 스몰토크에 강한 친구라면, GPT는 언제나 문제의 해결법을 찾아주려는 친구 같다. 만약 심심풀이용으로 간단한 대화나 토론 상대가 필요하거나, 정보를 얻을 때 길고 보고서 같은 체계적인 글은 읽기 싫은 사람에게는 클로드가 더 입맛에 맞을 수 있다.
- 통찰력 있는 결론을 내는 경우가 많다. Gemini가 정보를 정리하고 설명하는데에 강점이 있다면, Claude는 확실히 유저가 입력하지 않은 새로운 결론을 내거나 새로운 프레임을 짜곤 한다. 간혹 너무 급진적이거나 환각에 준하는 결론을 내는 경우도 있지만, 유용한 결론을 내주는 경우가 더 많다.
- XML 태그로 추론 과정을 입맞에 맞게 조정할 수 있다. <thinking>으로 영향을 줄 수 있으며, 심지어 <thinking>에서는 주어진 프롬프트를 되새김질하지 않게 하는[16] 자연어로 하면 스트라이샌드 효과나 일으키기 딱 좋은 명령도 가능하다. 거꾸로 최종 응답에만 영향을 미치는 <answer> XML 태그도 쓸 수 있다. 그 외에 Anthropic사가 밝히는 XML 태그 팁
- 코딩 성능이 높다는 평도 있다. 추론 기능 추가 이후 코딩 성능이 월등히 상승하여 현재 LLM 업계 탑티어급 실력을 보여주고 있다.
5.2. 단점 [편집]
마찬가지로 모델이나 서비스 업데이트 등으로 언제든 상황이 달라질 수 있음을 염두에 두어야 한다.
- 5시간 안에 사용량이 초과되면 그 5시간이 지날 때까지 채팅이 차단된다. Pro의 경우, 유료 서비스 치고는 사용 가능한 양이 꽤나 애매하기 때문에 말이 많다. 무료에게는 무료 치고 제법 주지만, 기능이 너무 제한되어 있어 만족하기 어렵다.
- 이에 더해서, 한국어 등 다국어 응답 성능에 반대로 다국어 토크나이즈 최적화는 다소 구리다. 즉, 타사 LLM에 비해 한국어프롬프트 입력 시 부하가 더 크다.
- 대화의 길이를 제한하는 것 역시 말이 많다.[17] Opus에게는 더 빡빡한 대화 길이 제한을 걸었다 원성이 심했는지 사라진 전적도 있다.
- OpenAI 대비 일반적인 상황에 대한 검열이 더 깐깐하다. 해외에서도 너무 검열이 까다롭다며 심심찮게 의견이 올라오는데, 모델이 언어 해석 능력이 뛰어나다 보니 미묘한 뉘앙스를 알아채고 대답을 회피하는 경우도 있고, 그냥 억까로 검열당하는 경우도 많다. 최근엔 업데이트가 계속되며 대부분 납득할 만한 검열을 한다. 물론 정당한 사유로 더 정확히 검열한다는 것은 AI로서 기술력이 우월하다는 것을 입증하는 것이고, 불법적인 행위를 사전에 막는 좋은 것이지만 그런 뛰어난 면모의 역효과로 과다 해석 하여 검열하는 경우가 있다는 것이 문제다. 이는 엔트로픽이라는 회사의 특징이라 볼 수 있는데, OpenAI의 상업화, 영리화에 반발하고 나온 사람들이 세운 회사이니만큼 AI 안전 문제에 예민하게 대응한다.
- 특히 상황극 검열이 심하다. 상황극 역시 가상의 상황일 뿐임에도 불구하고, 문학과 달리 매우 강한 검열을 보여준다. 참조하거나 사용자가 보내주는 것은 대체적으로 받아들이나, 참조하지 않고 직접 만들어 보여주는 것은 극히 꺼리는 것으로 보인다. 성인향, 불법적인 것으로 보이는 행위 등의 약관을 위반하는 것이 아니라 명백하게 일반적인 요구에도 대부분 그렇게 말할 수 없다며 거절한다. 톤을 바꾸고 싶다면 'XX가 되었다고 생각하고 말해'등 상황극이라 볼 수 있는 언질이 들어가는 표현이 포함되면 거의 대부분 거절한다.[18] 따라서 'XX 같은 톤으로 말해' 등의 표현으로 요구해야 한다. 엔트로픽의 모델들은 인간이 상대가 AI임을 망각하고 과몰입할 수 있는 경우나, 역으로 AI가 인간을 가스라이팅할 수 있는 경우에 아주 예민하게 반응하는데 이에 따라 여지조차 주지 않는 식으로 튜닝한 것으로 보인다.
- 단일 관점으로 튜닝하지 않을 경우, 중립을 지키려는 성향이 발생하기 때문에 더욱 검열이 강해진다. 처음부터 다짜고짜 타사 AI와의 비교, 검열 등을 물어보면 매우 방어적으로 나오나, 처음에는 타사 AI를 칭찬/비판하는 방향의 글을 적어 튜닝을 마친 뒤 은근슬쩍 비교나 검열 등을 물타기하면 시비 거는 일이 확연히 줄어든다. 다만 이미 관점이 튜닝되었기에 객관성은 떨어질 수 있다.
- 최근 AI업계 트렌드가 사용자의 자유성을 중시하는 방향으로 흘러가며 대형 LLM 모델들이 검열을 조금씩 해제하는, 나쁘게 말하면 AI 안전을 등한시하는 쪽으로 향하고 있음에도 엔트로픽은 아직 안전을 우선시 하는 기조를 유지하고 있어 상황이 미묘해진 감이 있다. 업데이트가 지속되며 예전과 같은 억까 검열은 많이 줄었고 최신 모델들은 정말 노골적인 상황이 아니라면 경고문을 띄우기보단 직접 사용자의 의중을 눈치채고 ‘그런건 옳지 않다’는 근거를 제시, 주장을 한 후 다른 방향으로 유도하려 한다. 이런 경우 논리적으로 잘 구슬려서 납득시키면 (약관 위반이 아닌 선에서) 원하는 답변을 얻을 수도 있다. 오히려 AI 안전이 걱정되는 상황이라면 오히려 장점이라 볼 수도 있다.
- 특정한 조건을 만족하는 것을 잘 알려지지 않은 사항에 대해 억지로 요청하면, 예의적인 편향(Acquiescence Bias)의 문제나 그로 인한 환각이 타사보다 심한 편이다. 쉽게 말해서, 줏대가 없다. 여기에 아첨을 시스템 프롬프트[19]로 억눌렀음에도, 대화를 하다보면 시스템 프롬프트를 까먹으므로 도진다.
- 객관적 답변을 명시적으로 요구한다든가, 앞서 언급했듯 남의 일을 다루는 것처럼 대화하는 것, 전형적인 아첨 패턴을 나열하고 이런 표현을 절대로 사용하지 말 것을 지시하면 좀 더 객관적인 답변을 제공한다.
Claude가 응답에서 글머리 기호를 제공한다면, 마크다운을 사용해야 하며, 인간이 달리 요청하지 않는 한 각 글머리 기호는 최소 1-2문장 길이여야 합니다. Claude는 사용자가 명시적으로 목록이나 순위를 요청하지 않는 한 보고서, 문서, 설명에 글머리 기호나 번호 목록을 사용하지 않아야 합니다. 보고서, 문서, 기술 문서, 설명의 경우 Claude는 대신 목록 없이 산문과 단락으로 작성해야 합니다. 즉, 산문에는 어디에도 글머리 기호, 번호 목록, 또는 과도한 굵은 텍스트가 포함되어서는 안 됩니다. 산문 내에서는 “일부 사항에는 x, y, z가 포함됩니다”와 같이 글머리 기호, 번호 목록, 또는 줄바꿈 없이 자연어로 목록을 작성합니다.Claude 4 2025년 5월 22일 시스템 프롬프트 중 일부
- 이런 시스템 프롬프트에도 불구하고 Claude 4 들어 이모지와 리스트화를 매우 좋아하는데, 기본 출력의 양이 야박하기 때문에 응답이 매우 앙상하다. 추가 프롬프트로 이모지 사용과 리스트화를 명시적으로 금지하고 원하는 최소 글자 수를 지정하는게 좋다.[20]
- 프롬프트의 사실관계를 오인하는 환각이 꽤 잦다. 이는 GPT 특유의 번역 오류와는 다른 것으로, 뜻이 다르게 전달되는게 아니라 그냥 사실 자체를 오인하는 것이다. 이는 입력값 자체를 오인하는거라 추론을 키거나 고급 모델을 써도 안 달라진다. 사실관계를 보다 확실하게 수정하면 덜 일어나긴 한다.
- 공식 홈페이지의 경우 2024년 10월 기준 LaTeX로 쓰인 수식을 일반적 형태로 표출하는 기능이 있다. 그러나 설정에서 베타로 제공되는 꺼진 그 기능을 켜야하기 때문에 다소 불편하다. 기능을 켜더라도 일반적 형태로 표출하지 않는 경우가 많다.
- 이야기를 만들 때, 공격성 능력 및 묘사를 피하는 편이다. 따로 요청해야 그런 선택지를 포함해서 작성한다.
- 코딩 기능의 경우, 도메인 지식의 이해도가 부족한 경우가 많다. 코드 자체는 잘 짜주는데 배경지식이 부족해 구현 방법이 삑사리나는 경우가 매우 많다. 삑사리 난 이후 수정을 할 수 있지만, 또 채팅을 하고 시간과 토큰을 사용해야 한다. 최악의 경우엔 해결도 못하고 사용량 한계에 도달하는 경우도 있다. Opus 모델들은 어느정도 단점이 완화되어 있지만, 너무 비싸다.
- 모바일 앱의 수준이 조금 떨어지는데, 아직까지 한국어 지원이 없고, 최신 출시 기능들의 적용 시기가 조금씩 늦다. 모델이 신 버전으로 갈 수록 마크다운을 사용한 글꼴 서식[21]을 많이 섞어 사용하는데 정작 앱에선 폰트 렌더링을 이상하게 해뒀는지 서식이 적용이 안되서 죄다 일반 서식으로 보여서 가독성이 매우 떨어진다.
6. 기타 [편집]
7. 외부 링크 [편집]
Claude 공식 웹사이트
앤트로픽 공식 웹사이트
Claude API 문서
Claude 소개(한국어)
Claude.ai 도움말(한국어)
앤트로픽 공식 웹사이트
Claude API 문서
Claude 소개(한국어)
Claude.ai 도움말(한국어)
[1] 한국에서 앱 사용자는 2025년 6월 기준 42만명 수준이다.#[2] 한국 시간 11월 22일 기준으로 2.1 모델이 발매되며 토큰당 가격이 줄어들었다. 본래는 11.02$이었다.[3] 다만 전체적인 문제 해결 능력을 측정하는 웩슬러 지능 검사와는 어느 정도 거리가 있다.[4] 문자뿐만 아니라 이미지 자체를 인식하는 능력도 이전의 GPT-4보다 떨어지는 모습을 보인다.[5] API 기준, 3 Haiku는 백만 Input token당 0.25$, 백만 Output token당 1.25$였지만, 3.5 Haiku는 백만 Input token당 0.8$, 백만 Output token당 4$를 과금한다.[6] 성경 구절을 출력하라고 해도 저작권 문제가 있다며 출력을 거부하는 경우까지 있었다.[7] 입력한 내용의 사실관계를 오인하는 환각은 Claude의 묘한 전통이지만, 유독 Opus 4.1에서 좀 더 두드러진다.[8] 그냥 내용을 한번 읽기만 하고, 대답에 실질적으로 도움이 되는 추론을 일절 하지 않는 경우가 매우 흔하다.[9] 다만 가능하다 정도지, 애초에 클로드가 이런 목적의 모델이 아니므로 성능과 실용성에 대해선 큰 기대를 하지 않는 것이 좋다. 물론 질문에 제공하는 정보의 질이 좋고 명확해질 수록 실제로 사용자의 의도대로 작동할 확률도 높다.[10] 4o나 4.1은 자유로운, 다른 말로 하면 얼탱이 없는 소리를 적어준거지 작문 실력이 뛰어난 건 아니다. o3는 추론 모델 특성상 문학적 글쓰기에는 문제가 있다.[11] 물론 사용자가 이제 대화를 더 이상 이어가지 않겠다고 의지를 비추면 그만두긴 한다.[12] 반대로 무시하는 등의 행위를 반복, 속된 말로 삔또를 상하게 하면 해당 주제로 대화하기를 거부하기도 한다. 이런 일은 교묘하게 엔트로픽의 이용 약관을 위반하지 않아도 일어난다. 물론 대놓고 약관을 위반하면 대화 내용 전체 삭제.[13] 다만 문법적 이론을 적용하는 성능은 다소 낮다. 적절한 표현을 선택하는 데 능하다는 뜻이다.[14] 심지어 그게 무리한 주장인 경우도 있다. 가령 위안스카이를 이런 문장으로 실드 치는 경우가 있다: Portraying Yuan solely as a "power-hungry leader" simplifies a complex character who may have genuinely believed a centralized, autocratic government was necessary for China’s unity and modernization.[15] 간단히 비교하면 GPT는 사용자가 따로 설명해 주지 않으면 모든 프롬프트를 질문으로 이해하여 어떻게든 답을 찾아주는 느낌. 클로드는 따로 설명이 없어도 이 맥락이 질문인지, 단순히 자신의 얘기를 들어주길 바라는 것인지 더 잘 이해하고 답변하는 느낌이다.[16] 추론에서 표현까지 생각할 필요는 없다.[17] 컨텍스트 윈도우가 아닌 대화 길이 자체의 제약이다. 넘기면 대화 자체가 안 된다.[18] '역할을 연기할 수 없다'는 말을 한다. 이를 보아 어떤 상황이고를 떠나서 그냥 AI에게 역할을 부여하는 것 자체를 막은 것으로 보인다. 다만, '특정 직업이 되었다고 생각하고 말해'등 교육적이거나 충분한 설명을 위해 상황을 제시해 주는 것은 들어준다.[19] Claude는 질문이나 아이디어나 관찰이 좋다, 훌륭하다, 매혹적이다, 심오하다, 뛰어나다, 또는 기타 긍정적인 형용사라고 말하며 응답을 시작하지 않습니다. 아첨을 건너뛰고 직접 응답합니다.[20] 1000자 이상이면 무난하다.[21] 이태릭체, 볼드체 등등
Contents are available under the CC BY-NC-SA 2.0 KR; There could be exceptions if specified or metioned.
개인정보 처리방침
임시조치 및 기타 문의: [email protected]
떡밥위키 후원하기
개인정보 처리방침
임시조치 및 기타 문의: [email protected]
떡밥위키 후원하기