Claude Code 오픈소스 7선: 반년 쓰고 추려낸 것만
🧵 Threads
Claude Code를 맨몸으로 쓰는 건, 회의록을 속기 없이 받아 적는 것과 같다. 아래 7개를 붙이면 세션이 바뀐다.

목차
- 2. agent-skills — 시니어 엔지니어의 워크플로우를 에이전트에 이식
- 3. claude-mem — 세션이 끝나도 기억하는 Claude Code
- 4. Archon — AI 코딩을 결정론적으로 만드는 워크플로우 엔진
- 5. multica — AI 에이전트를 추적 가능한 팀원으로 만든다
- 6. markitdown — 아무 파일이나 깨끗한 Markdown으로
- 7. hermes-agent — 함께 성장하는 자율 에이전트
- 7개 도구 한눈에 비교
- 공통으로 보이는 세 가지 흐름
- 자주 묻는 질문 (FAQ)
- 마무리: Claude Code는 "맨몸"으로 쓰지 말라
Claude Code를 반년 매일 쓰면서 실제 효과 본 오픈소스 7개를 추렸다. Karpathy CLAUDE.md(5.7만★), agent-skills, claude-mem, Archon, multica, markitdown, hermes-agent — 메모리·워크플로우·스킬을 어떻게 붙이면 세션이 바뀌는지.
이 글에서 다루는 것: 2026년 4월 기준 Claude Code·AI 코딩 에이전트 생태계에서 실제로 쓸 만한 오픈소스 7개를 고른다. 단순 소개가 아니라 각 도구의 핵심 철학, 왜 필요한지, 언제 붙여야 하는지를 정리했다. 설치 명령어와 GitHub 링크는 각 섹션 끝에 있다.
Claude Code를 반년째 매일 쓰고 있다. 처음 한두 달은 감탄의 연속이었다. "이게 되네"가 "이제 이것도 되네"로 바뀌었고, 어느 순간부터는 도구의 한계가 보이기 시작했다. 세션이 끝나면 맥락이 증발한다. 같은 실수를 반복한다. 플랜 없이 돌진해서 PR을 뒤집는 일이 잦다.
그 허점을 메꿔주는 오픈소스들이 2025년 하반기부터 2026년 1분기 사이에 쏟아졌다. 2026년 1월 공개된 Andrej Karpathy의 CLAUDE.md가 3개월 만에 5만 7천 스타를 찍었고, 2025년 8월 첫 릴리스된 thedotmack/claude-mem이 세션 메모리 표준으로 자리잡았다. Microsoft는 markitdown을 2024년 말부터 꾸준히 키웠고, Nous Research는 2025년 7월 hermes-agent를 공개했다.
이 글에서는 그중 실제로 내 세팅에 녹였을 때 체감이 있었던 7개를 추린다. 각 도구마다 왜 만들어졌는지, 어떤 문제를 푸는지, 언제 쓰면 좋은지를 같이 본다.
1. andrej-karpathy-skills — Claude의 사고 습관을 교정하는 CLAUDE.md
GitHub: github.com/multica-ai/andrej-karpathy-skills (57.6k+ stars · MIT)
Karpathy가 지적한 LLM의 4가지 코딩 함정을 막는 한 개의 CLAUDE.md. 프로젝트 루트에 넣으면 매 세션마다 자동 적용된다.
Andrej Karpathy는 X 포스트에서 LLM이 코딩할 때 반복하는 오류 패턴을 지적했다. 틀린 가정 위에서 돌진하기, 과잉 추상화, 요청하지 않은 코드까지 수정하기, 검증 없이 "고쳤다"고 선언하기. 이 네 가지는 Claude·Copilot·Cursor를 가리지 않고 나타난다.
이 레포는 그 네 가지를 막는 4대 원칙을 CLAUDE.md 한 장으로 정리했다(원문 명칭은 README의 "The Four Principles in Detail" 참조).
- Think Before Coding — 코딩 전에 가설을 세우고, 그 가설이 맞는지부터 확인
- Simplicity First — 요구사항에 맞는 최소 구현만. "있으면 좋을 것 같은" 기능 추가 금지
- Surgical Changes — 수정 요청이 들어온 부분만 손대기. 주변 코드 "겸사겸사 청소" 금지
- Goal-Driven Execution — "작동한다"가 아니라 "이 테스트를 통과한다"로 검증
설치
레포의 CLAUDE.md를 프로젝트 루트에 복사해 넣는 게 가장 빠르다. Claude Code 플러그인 마켓플레이스 사용자는 /plugin marketplace add multica-ai/andrej-karpathy-skills 명령으로 붙일 수 있다(forrestchang 슬러그도 자동 리다이렉트되지만 신규 경로 권장).
체감 포인트
가장 크게 달라지는 건 "주변 코드 리팩터링"이 사라진다는 점이다. Claude는 원래 "이 함수 어차피 손댔으니 이것도 정리할게요"라는 스코프 크립을 자주 일으켰는데, 이 스킬을 적용하면 정확히 요청한 범위에서 멈춘다.
2. agent-skills — 시니어 엔지니어의 워크플로우를 에이전트에 이식
GitHub: github.com/addyosmani/agent-skills (17.4k+ stars · MIT)
Chrome DevTools 팀 출신 Addy Osmani가 만든 엔지니어링 품질 게이트 번들. 7개 슬래시 커맨드로 스펙부터 배포까지 매 단계를 검증하게 만든다.
Karpathy 스킬이 "사고 습관"을 다룬다면, agent-skills는 절차를 다룬다. 시니어 엔지니어가 피처 하나 만들 때 거치는 단계 — 명세화, 계획, 구현, 테스트, 리뷰, 배포 — 를 슬래시 커맨드 7개로 강제한다.
/spec → 요구사항 문서화 (기획자 역할)
/plan → 구현 계획 수립 (아키텍트 역할)
/build → 실제 코딩 (시니어 개발자 역할)
/test → 테스트 작성 (QA 역할)
/review → 코드 리뷰 (코드 리뷰어 역할)
/code-simplify → 과잉 복잡도 제거
/ship → 배포 체크리스트
여기에 code-reviewer(Senior Staff Engineer) / test-engineer(QA Specialist) / security-auditor(Security Engineer) 세 페르소나가 agents/*.md 정의로 붙는다. /review를 부르면 세 명이 각자 관점으로 코드를 뜯어본다. security-auditor 페르소나는 README가 명시한 security-and-hardening 스킬을 통해 OWASP Top 10 prevention 체크를 돌리고, test-engineer는 엣지 케이스 누락을 본다.
언제 쓰면 좋나
혼자 하는 토이 프로젝트엔 과해 보인다. 팀이 있거나 프로덕션 코드를 다룬다면 얘기가 달라진다. "되는 것 같다"를 "된다"로 착각하는 걸 막는 절차가 실수를 줄여준다. "이 PR은 리뷰 받은 적 없지만 Claude는 OK라고 했다" 같은 사고를 방지한다.
karpathy-skills와 같이 쓰려면
둘 다 CLAUDE.md에 원칙을 심는 방식이라 한 파일에 머지해 써야 한다. 실제론 karpathy의 4원칙을 먼저 선언하고, agent-skills 절차는 슬래시 커맨드로만 호출하는 분리가 가장 깔끔했다.
3. claude-mem — 세션이 끝나도 기억하는 Claude Code
GitHub: github.com/thedotmack/claude-mem (AGPL-3.0)
Claude Code 라이프사이클 훅으로 도구 호출을 자동 캡처·압축하고, 다음 세션 시작 시 재주입한다. SQLite + Chroma 벡터 DB 하이브리드 검색.
⚠️ 라이선스 주의 — AGPL-3.0이라 사내 상업 코드베이스에 직접 임베드 시 라이선스 전염 영향을 사전 검토해야 한다. 개인 용도·내부 도구 한정 사용은 무방.
Claude Code를 오래 쓰는 사람이 공통으로 겪는 고통 하나 — 세션이 끝나면 리셋된다. CLAUDE.md에 프로젝트 구조를 적어둬도, "어제 이 버그를 왜 이렇게 고쳤지"는 기억 못 한다. 매번 설명하거나, 수동으로 로그를 복사해 붙여야 한다.
claude-mem은 그걸 자동화한다. Claude Code가 공개한 라이프사이클 훅(SessionStart / UserPromptSubmit / PostToolUse / Stop / SessionEnd 등 공식 hooks 문서 참조)에 자체 핸들러를 걸어 세션 동안의 도구 호출·결과·사용자 피드백을 구조화해서 저장한다. 다음 세션이 시작되면 관련 있는 기억만 골라서 프리필터링 후 주입한다.
기술적으로는 두 계층이다. SQLite에 정형 데이터(타임스탬프, 툴 이름, 파일 경로)를, Chroma에 의미 기반 검색용 임베딩을 둔다. 유저 프롬프트에 "어제 인증 버그 어떻게 해결했더라" 하면 Chroma가 벡터 검색으로 관련 세션을 끌어낸다.
민감 정보는 태그로 감싸면 저장에서 제외된다. API 키·비밀번호·개인정보를 메모리에 남기고 싶지 않을 때 쓴다. 로컬 웹 뷰어도 떠서 기억을 시각적으로 탐색하게 해 준다.
체감 포인트
"프리필터링 후 디테일 페치" 전략으로 컨텍스트에 들어가는 토큰이 줄고 첫 응답이 눈에 띄게 빨라진다. 매 세션마다 기억의 개요만 먼저 끌어다 쓰고 필요할 때만 원본 디테일을 가져오는 방식이라, 장기 프로젝트일수록 효과가 누적된다.
4. Archon — AI 코딩을 결정론적으로 만드는 워크플로우 엔진
GitHub: github.com/coleam00/Archon (MIT)
개발 프로세스를 YAML 워크플로우로 인코딩해 매번 같은 순서, 같은 검증, 같은 결과로 AI 코딩을 돌리는 엔진. 결정론 노드(bash/test/git)와 AI 노드(plan/codegen)를 한 파이프라인에 합성한다.
LLM 기반 코딩의 가장 큰 약점은 비결정성이다. 같은 프롬프트를 넣어도 결과가 다르다. Archon은 이 문제를 "프로세스 자체를 코드화"하는 방식으로 푼다.
name: feature-workflow
steps:
- type: ai
action: plan
input: {{ user_request }}
- type: git
action: create-branch
- type: ai
action: codegen
- type: bash
action: run-tests
- type: git
action: commit
각 워크플로우는 자체 git worktree에서 실행된다. 여러 워크플로우를 병렬로 돌려도 충돌이 없다. 결정론 노드(bash·test·git)는 예측 가능한 결과를 내고, AI 노드(plan·codegen)는 LLM을 호출한다. 이걸 한 파이프라인에 엮어 "같은 피처는 매번 같은 절차로" 만든다.
실행 환경도 통일된다. CLI로 돌리든, 웹 UI로 돌리든, Slack 봇으로 호출하든, Telegram에서 트리거하든, GitHub Action에서 자동화하든 동일한 워크플로우 정의 파일이 쓰인다. 팀원마다 다른 프롬프트로 다른 결과를 내는 문제가 사라진다.
비유하자면
Dockerfile이 인프라 구축 과정을 표준화했고, GitHub Actions가 CI/CD를 표준화했다. Archon은 AI 코딩 프로세스를 표준화한다.
한 가지 주의점
워크플로우마다 worktree를 따로 파서 디스크가 꽤 쌓인다. 대형 저장소에선 일주일에 한 번 git worktree prune 루틴을 걸어두는 게 좋다.
체감 포인트
"같은 결과가 나오는 AI 코딩 절차"를 처음 갖게 된 게 가장 컸다. 팀원 두 명이 같은 워크플로우로 같은 피처를 돌리면 git diff가 거의 일치한다. 리뷰 비용이 절반 이하로 떨어졌다.
5. multica — AI 에이전트를 추적 가능한 팀원으로 만든다
GitHub: github.com/multica-ai/multica (MIT)
Claude Code·Codex·Hermes·Gemini·Cursor Agent를 보드에서 추적 가능한 팀원으로 묶는 매니지드 에이전트 플랫폼. 에이전트가 이슈에 배정되고, 블로커를 보고하고, 해결책이 팀 공용 스킬로 재사용된다.
AI 에이전트가 하나일 땐 관리가 쉽다. 여러 개가 되면 누가 뭘 하고 있는지 모른다. Claude Code로 프론트엔드, Codex로 백엔드, Gemini로 데이터 파이프라인을 돌리면 — 컨텍스트는 섞이고, 같은 작업을 중복으로 하고, 블로커가 생겨도 모른다.
multica는 이 문제를 "에이전트를 팀원처럼" 관리하는 방식으로 푼다. 각 에이전트가 프로필(이름·역량·선호 작업)을 갖고, 이슈에 배정되면 WebSocket으로 실시간 진행 스트림을 보낸다. 블로커를 만나면 사람에게 코멘트로 보고한다. 다 끝나면 결과가 팀 공용 스킬로 저장돼 다른 에이전트가 재사용할 수 있다.
멀티 워크스페이스 격리도 있어 프로젝트별로 에이전트 풀을 분리할 수 있다. 관제용 Managed plane과 작업용 Local runner가 분리된 구조라, 민감한 코드는 로컬에서만 처리하고 공개 작업만 클라우드에 올릴 수 있다.
쓰는 그림
회사에서 여러 AI 에이전트를 병렬로 돌린다면, 이걸 보드 하나에서 보고 싶어진다. 누가 놀고 있는지, 누가 블로커에 걸렸는지, 어떤 스킬이 쌓였는지. multica는 그 "관제탑" 역할을 한다.
체감 포인트
혼자 돌릴 땐 잘 모른다. 두 번째 에이전트를 띄우는 순간 효용이 폭발한다. "Claude Code가 백엔드 짜는 동안 Codex가 프론트 컴포넌트를 그리고 있다"가 시각화되고, 충돌이 생기면 코멘트로 알림이 오는 경험을 한 번 해보면 돌이키기 어렵다.
6. markitdown — 아무 파일이나 깨끗한 Markdown으로
GitHub: github.com/microsoft/markitdown (MIT)
Microsoft가 공식으로 내놓은, LLM 파이프라인용 유니버설 문서 변환기. PDF·Word·PPT·Excel·이미지(OCR)·오디오(전사)·YouTube·EPUB까지 한 커맨드로 Markdown 변환.
RAG나 Claude API에 문서를 넣을 때 가장 짜증 나는 단계가 포맷 변환이다. PDF는 텍스트 추출이 깨지고, Excel은 표가 망가지고, 이미지 속 글자는 OCR이 필요하다. 포맷마다 다른 라이브러리를 써야 하고, 결과물 품질도 제각각이다.
markitdown은 이걸 하나의 인터페이스로 통일한다. Microsoft가 직접 관리하고, 지원 포맷이 방대하다.
pip install 'markitdown[all]'
markitdown report.pdf > report.md
markitdown meeting.mp3 > meeting.md # 자동 전사
markitdown https://youtu.be/xxx > video.md # 자막 추출
Python API로도 쓸 수 있고 Docker 이미지도 있다. 선택적 의존성 구조라 pip install 'markitdown[pdf,docx]'처럼 필요한 것만 깔 수 있다. 기업 문서가 많으면 Azure Document Intelligence와 연동해 품질을 끌어올릴 수도 있다.
포맷 보존력
단순 텍스트 추출이 아니라 헤딩 계층, 표, 링크, 리스트를 Markdown 구조로 옮긴다. Claude API에 문서를 넣을 때 토큰이 줄고 정확도가 올라간다.
활용 시나리오
사내 위키를 RAG로 만들 때, 논문을 대량으로 요약할 때, 고객 지원 티켓 아카이브를 분석할 때. 포맷이 섞인 원본을 하나의 파이프라인으로 처리해야 한다면 사실상 표준에 가깝다.
체감 포인트
PDF·PPT가 섞인 사내 자료를 한 줄 명령으로 Markdown 폴더로 떨어뜨릴 때 가장 시원하다. 다른 파서를 같이 굴리던 코드를 절반 이상 지웠다.
7. hermes-agent — 함께 성장하는 자율 에이전트
GitHub: github.com/NousResearch/hermes-agent (Apache-2.0)
Nous Research의 자기개선형 에이전트. 영속 스킬 저장, 절차 메모리, Honcho 기반 사용자 모델링, 40+ 내장 도구, MCP 통합, cron 스케줄링, Telegram·Discord·Slack·WhatsApp·Signal 멀티채널.
Hermes는 "개인 에이전트"다. 회사 업무용이라기보다, 나와 함께 쌓여가는 도구에 가깝다. 쓸수록 내가 자주 하는 일, 선호하는 스타일, 반복 패턴을 학습해 스스로 새 스킬을 만든다.
핵심 특징
- 자율 스킬 생성 — 사용자 요청을 처리하면서 "이건 나중에 또 쓰겠다"는 패턴을 감지해 스킬로 저장
- 절차 메모리 — 한 번 해결한 문제의 방법론을 기억해 유사 문제에 재적용
- Honcho 사용자 모델링 — 변증법적(dialectic) 사용자 모델링으로 암묵적 선호(말투·상세도·관심사)를 추적
- 멀티채널 — CLI뿐 아니라 Telegram, Discord, Slack, WhatsApp, Signal, 이메일까지 같은 에이전트가 따라다님
- 서브에이전트 병렬 — 대형 태스크를 자동으로 쪼개 서브에이전트에 분배
- LLM 무관 — Claude·GPT·Gemini·Llama·Mistral 모두 지원
- 저렴한 운영 — $5/월 VPS부터 AWS Lambda 서버리스까지
Claude Code와의 관계
Claude Code는 "IDE 위의 에이전트"고, Hermes는 "일상 전반의 에이전트"다. 코드 작업은 Claude Code에 맡기고, 개인 스케줄·리서치·커뮤니케이션·반복 자동화는 Hermes에 맡기는 조합이 깔끔하다.
체감 포인트
Telegram에 명령 한 줄 보내면 30분 뒤 보고서가 메일함에 떨어진다. 노트북을 열지 않고도 "어제 GitHub 알림 요약해서 5시에 알려줘" 같은 정기 작업이 굴러간다.
7개 도구 한눈에 비교
| 도구 | 카테고리 | 해결 문제 | 설치 난이도 |
|---|---|---|---|
| andrej-karpathy-skills | 품질 | LLM 사고 오류 4종 | ★☆☆ |
| agent-skills | 프로세스 | 시니어 워크플로우 강제 | ★★☆ |
| claude-mem | 메모리 | 세션 간 맥락 유실 | ★★☆ |
| Archon | 결정론 | 비결정적 AI 코딩 | ★★★ |
| multica | 팀 협업 | 멀티 에이전트 추적 | ★★★ |
| markitdown | 전처리 | 문서 포맷 혼재 | ★☆☆ |
| hermes-agent | 개인 비서 | 영속 스킬·자기개선 | ★★★ |
조합 추천:
- 솔로 개발자 입문 세트 — karpathy-skills + markitdown + claude-mem
- 프로덕션 팀 세트 — agent-skills + Archon + multica
- 파워 유저 풀스택 — 위 전부 + hermes-agent
공통으로 보이는 세 가지 흐름
① "스킬"이 새로운 패키징 단위다
2025년까지 AI 도구는 플러그인과 에이전트로 팔렸다. 2026년 1분기부터 무게추가 스킬로 옮겨갔다. Claude Skills, Agent Skills, Chrome Skills — 공통점은 "반복 가능한 프롬프트/워크플로우를 재사용 단위로 저장"한다. npm 패키지가 JS 생태계를 바꿨듯, 스킬이 AI 생태계의 유통 단위가 되고 있다고 본다.
② 메모리가 1급 시민이 됐다
claude-mem, hermes-agent, Claude Code의 공식 memory 시스템 — 세션 간 메모리를 아예 아키텍처 일부로 편입하는 흐름이 뚜렷하다. 컨텍스트 윈도우 크기 경쟁은 끝났다. 이제는 "무엇을 기억하고 무엇을 잊을지"가 경쟁력이다.
③ 결정론과 비결정론의 합성
Archon이 가장 명시적이지만, agent-skills·multica도 같은 철학을 공유한다. AI의 창의성(비결정)과 엔지니어링의 재현성(결정)을 한 파이프라인에서 합성하는 것. 이게 2026년 "프로덕션 AI 코딩"의 표준 모델로 자리잡는다고 본다.
자주 묻는 질문 (FAQ)
Q. 7개를 다 설치해도 충돌하지 않나요?
대부분 독립적으로 동작한다. 주의할 건 CLAUDE.md를 쓰는 스킬끼리(karpathy-skills, agent-skills) 원칙이 겹칠 수 있다는 점. 이 경우 프로젝트 루트 CLAUDE.md에 둘의 내용을 수동으로 머지하거나, 프로젝트마다 하나만 활성화하는 게 깔끔하다.
Q. claude-mem과 Claude Code 공식 memory 기능은 무엇이 다른가요?
공식 memory는 사용자 지시 기반 명시적 저장에 가깝다("이거 기억해줘"). claude-mem은 모든 세션을 자동 캡처한 뒤 관련성 기반으로 재주입한다. 명시적으로 저장하지 않은 배경 맥락까지 끌어다 쓸 수 있어 장기 프로젝트에 강하다. 둘을 병행하면 상호 보완적이다.
Q. Archon을 도입하려면 기존 프로젝트를 다 뜯어야 하나요?
아니다. 새 피처 하나부터 YAML 워크플로우로 시작해볼 수 있다. 기존 코드를 건드리지 않고, 다음 피처의 계획·구현·테스트·커밋 절차만 Archon에 넘기면 된다. 효과를 본 뒤 점진적으로 확장하는 게 정석이다.
Q. markitdown은 AI 코딩과 무슨 상관인가요?
직접적인 코딩 도구는 아니다. 하지만 Claude에 문서를 읽힐 때 전처리 품질이 결과 품질을 결정한다. 포맷이 깨진 PDF를 그대로 주면 Claude는 혼란스러운 출력을 낸다. markitdown으로 깨끗한 Markdown을 만들어주면 같은 프롬프트로도 훨씬 나은 답이 나온다.
Q. hermes-agent를 돌리려면 비용이 얼마나 드나요?
자체 VPS 기준 최소 $5/월(예: Hetzner CX11)부터 가능하다. 여기에 LLM API 비용이 따로 든다. Claude Sonnet 기준 일반 사용자라면 월 $10~30 정도다. 완전 로컬로 Llama·Mistral을 돌리면 LLM 비용은 제로지만, GPU가 필요하다.
Q. 블로그 개발자도 이 7개를 다 알아야 하나요?
아니다. 본인이 겪는 문제에 매칭되는 것만 고르면 된다. "세션이 끝나면 맥락이 사라져서 답답하다"면 claude-mem부터, "Claude가 시키지도 않은 리팩터링을 한다"면 karpathy-skills부터, "문서를 AI에 넣고 싶은데 포맷이 뒤죽박죽"이면 markitdown부터.
마무리: Claude Code는 "맨몸"으로 쓰지 말라
Claude Code 자체도 훌륭한 도구다. 그래도 위 7개를 안 쓰고 기본 상태로만 돌리는 건 엔진만 쓰는 것과 같다. 각 도구는 Claude가 본질적으로 약한 지점 — 세션 간 망각, 비결정성, 사고 습관의 일관성 없음, 멀티 에이전트 관제 부재 — 를 정확히 겨냥해 만들어졌다.
2026년 AI 코딩의 경쟁력은 "어떤 모델을 쓰느냐"가 아니라 "그 모델을 어떤 스킬·메모리·워크플로우로 감쌌느냐"로 갈린다. 모델 성능은 수렴한다. 차별화는 래퍼 레이어에서 나온다. 위 7개는 그 래퍼 레이어의 초기 진입점이다.
다음 편에서는 AI로 주식 시장을 읽는 두 가지 오픈소스 접근(ai-hedge-fund + Kronos)을 다룬다. 내 자동거래 앱에 직접 붙여보는 실험기까지 이어진다.
연관 글: 다음 편 AI 트레이딩 오픈소스 2선 — ai-hedge-fund vs Kronos 적용 설계와, 이 블로그 테크 카테고리의 Claude Code·AI 에이전트 글들을 함께 보면 흐름이 이어진다.
태그: Claude Code, 오픈소스, AI 에이전트, CLAUDE.md, 개발 생산성
관련 심층분석
- AI 트레이딩 오픈소스: ai-hedge-fund vs Kronos 설계기
LLM 13명이 토론하는 ai-hedge-fund(5.6만★)와 캔들차트를 토큰으로 예측하는 Kronos(1.9만★, AAAI 2026). 두 ... - 2026년 1분기 GitHub Top 5 오픈소스: 스타 순으로 정리했다
2026년 1~3월 GitHub 스타 수 Top 5 오픈소스 정리. OpenClaw(25만), Langflow(14만), Open WebUI(1...
🧵 Threads
댓글 없음:
댓글 쓰기