ClickHouse 와 DuckDB / MySQL 과 비교

aimler 2025. 11. 14. 18:37

2025. 11. 14. 18:37

📌 1. ClickHouse란 무엇인가?

ClickHouse는 Yandex가 개발한 컬럼 지향(Columnar) OLAP 데이터베이스입니다.
핵심 컨셉은:

초고속 읽기 성능 (OLAP 분석 쿼리)
압축률 우수
분산 처리 가능
실시간 분석(near real-time)

ClickHouse는 “데이터 웨어하우스 + 실시간 로그·이벤트 분석 엔진”의 중간 형태로 볼 수 있습니다.

대표적 사용처:

로그 분석 (ELK 대체)
모니터링/Metric 저장 (Prometheus 대체 가능)
이벤트 분석 (사용자 행동 로그)
대규모 시계열 데이터 처리
BI/OLAP 분석

📌 2. ClickHouse vs MySQL 비교

구분	ClickHouse	MySQL
DB 유형	OLAP (컬럼 지향)	OLTP (행(Row) 지향)
목적	대규모 읽기/집계	실시간 트랜잭션
쓰기 성능	매우 빠름(배치 인서트 최적)	빠름(단건 트랜잭션 강함)
읽기 성능	대량 데이터 집계에 매우 강함	단건 조회/조인에 강함
인덱스	스킵 인덱스, 파티션, sparse index	B-Tree 인덱스
조인	제한적, 새로운 버전에서 개선됨	매우 강력
트랜잭션	거의 없음 (OLAP이므로)	ACID 준수
확장성	수평 확장 매우 우수	수평 확장 어려움
저장 구조	컬럼 저장 + 고압축	행 기반 저장
활용 적합성	로그, 이벤트 분석, 대용량 OLAP	주문/결제 시스템, ERP, CRUD 서비스

요약하면

MySQL → 서비스 DB(트랜잭션)
ClickHouse → 분석, 로그, 대규모 집계

특히 초당 수천만 로그를 넣고 바로 분석하는 구조에서는 ClickHouse가 MySQL을 압도적으로 능가합니다.

📌 3. ClickHouse vs DuckDB 차이점

DuckDB와 ClickHouse는 둘 다 OLAP 엔진입니다. 그러나 철학이 완전히 다릅니다.

구분	ClickHouse	DuckDB
설계 철학	서버형 OLAP DB, 분산 확장	임베디드 OLAP 엔진, 파일 기반
설치 형태	서버/클러스터로 동작	Python·App에 포함되는 DB (SQLite처럼)
데이터 규모	수십~수백억 데이터	싱글 머신 메모리 범위
스토리지	서버 스토리지, S3 등	Parquet/CSV/Local 파일
사용 목적	로그 플랫폼, DW, 실시간 분석	로컬 데이터 분석, 파이프라인, 임시 쿼리
확장성	수평 확장 가능	단일 노드 중심
커넥션 방식	TCP/HTTP 서버	라이브러리 호출(duckdb.connect())
쓰기 방식	대량 배치 삽입 최적화	파일 스캔 기반 즉시 분석에 강함
운영 비용	운영 필요	운영 비용 거의 없음
쿼리 성능	대규모 데이터 집계 우수	소규모~중규모 데이터 분석 최강

가장 중요한 차이

ClickHouse = 서버 기반 고성능 분석 DB
DuckDB = 애플리케이션 내부 분석 엔진 (SQLite의 OLAP 버전)

둘 다 OLAP이지만
ClickHouse는 운영형(operational), DuckDB는 임베디드 분석형 입니다.

📌 4. 어떤 상황에 어떤 DB를 써야 하는가?

🔥 ClickHouse 추천 상황

초당 수십만 ~ 수천만 로그 적재
엔터프라이즈 수준의 실시간 대시보드
Grafana, Kibana 대체
이벤트 분석(Amplitude/Mixpanel 대체)
분산 환경 필수

🐤 DuckDB 추천 상황

Python 기반 데이터 분석
CSV/Parquet 파일 분석
로그 파이프라인의 임시 ETL, 일시적 분석
서버 없이 로컬/단일 노드에서 빠른 분석

🐬 MySQL 추천 상황

CRUD 중심 서비스 DB
사용자/상품/결제 등 트랜잭션 중심
OLAP에는 부적합 (복잡한 집계가 느림)

📌 5. 로그 분석을 기준으로 한 선택 가이드

로그 규모	추천
수십 GB 이하	DuckDB
수백 GB~수 TB (싱글 서버 가능)	ClickHouse
수 TB 이상 + 분산 필요	ClickHouse 클러스터
트랜잭션 로그 저장/일반 서비스 로그	MySQL(OLTP)
임시 분석/개발환경에서 분석	DuckDB

📌 최종 요약

ClickHouse

고성능 컬럼 기반 OLAP DB
로그/이벤트/모니터링 분석에 최적
MySQL보다 훨씬 빠른 대규모 집계 성능

MySQL

트랜잭션(DBMS)
CRUD·조인 처리에 강함
OLAP·로그 분석은 적합하지 않음

DuckDB

로컬/임베디드 OLAP 엔진
파일 분석/ETL/개발환경에서 최강
ClickHouse처럼 서버·클러스터 운영은 불가능

시계열 데이터의 비정상성을 제거하기 위해 사용하는 잔차를 편차로 대체할 수 있는지 여

aimler 2025. 11. 14. 18:21

2025. 11. 14. 18:21

결론: 시계열에서 비정상성을 제거하려는 목적이라면 ‘잔차(residual)’ 대신 ‘편차(deviation)’를 사용하면 안됩니다.

이유는 편차는 비정상성을 제거하지 못하고, 잔차는 비정상성의 원인을 제거한 후 남는 신호이기 때문입니다.

1) “편차(deviation)”는 무엇인가?

편차 = 각 값에서 “전체 평균”을 뺀 값

문제는 이것입니다:

✔ 편차는 평균이 일정한 데이터(정상성)라는 전제를 필요로 한다

비정상 시계열은 보통 시간에 따라 평균이 변합니다(트렌드, 계절성).
그런데 편차는 단지 “전체 평균” 한 번 빼줄 뿐이기 때문에, 시간에 따라 바뀌는 패턴을 제거해 주지 못합니다.

즉,

편차는 트렌드도, 계절성도 제거하지 못합니다. 시계열이 비정상이라면 편차를 써도 비정상은 그대로 남습니다.

2) “잔차(residual)”는 무엇인가?

잔차 = 모델이 설명한 부분을 제거한 후 남은 값

✔ 잔차는 데이터에서 비정상성(트렌드·계절성)을 제거한 상태가 된다

즉,

잔차는 평균이 일정하고 분산이 비교적 안정된 정상 시계열을 얻기 위한 방법입니다.

3) 편차는 언제 사용하는가?

편차(평균 중심화)는 회귀나 PCA 같은 일반 머신러닝 전처리에서 쓰는 개념이지, 시계열 비정상성 제거 용도는 아닙니다.

단순히 스케일링을 위해 사용하는 것일 뿐
시간에 따른 패턴 제거 기능은 없음

4) 잔차를 쓰면 좋은 점

시계열 분해(STL, X11 등) → 잔차 = 비정상 요소 제거
ARIMA 학습 시 필수인 “정상성”을 만족시키기 쉬움
외생변수 영향 제거(회귀 후 잔차 사용)
계절성 제거 필수 분석(매출, 트래픽 등에서 매우 중요)

5) 핵심 결론

편차는 전체 평균만 제거하므로 비정상성 제거에 효과가 없다.
잔차는 트렌드·계절성·구조적 패턴을 제거하여 정상성에 근접한 데이터를 만든다.

그래서 시계열의 정상화를 목표로 한다면 반드시 **잔차(residual)**를 사용해야 합니다.

Fusion 나사산 별로 출력한 결과물 사진입니다.

aimler 2025. 11. 9. 22:16

2025. 11. 9. 22:16

3D 프린터로 출력할 제품을 설계하다 보면 나사산을 사용할 일이 자주 생깁니다.

그동안은 가장 일반적인 ISO 미터법 나사산 프로파일을 주로 사용해 왔지만,
상황에 따라 좀 더 폭이 넓은 나사산이 필요한 경우도 있었습니다.

그래서 이번 기회에 여러 종류의 나사산을 직접 출력해 비교해 보기로 했습니다.

Fusion의 나사산 목록입니다.

Bamublab A1 mini를 사용한 출력물 사진입니다.

출력물 Line별로 확대한 이미지입니다.

사내에서 Langchain 사용시 발생하는 SSL 오류 해결방법

aimler 2025. 10. 28. 14:16

2025. 10. 28. 14:16

사내에서 Langchain을 사용할 경우 아래와 같이 오류가 발생한다면 모듈 파일을 수정해서 오류를 우회할 수 있습니다.

✅ 코드

llm = ChatOpenAI(
    api_key="USER API Key",
    model="gpt-4o-mini" 
)

@tool
def get_weather(city: str) -> str:
    """Get weather for a given city.""" 
    return f"It's always sunny in {city}!" 

agent = create_agent(
    model=llm,
    tools=[get_weather],
    system_prompt="You are a helpful assistant",
)

# Run the agent
agent.invoke(
    {"messages": [{"role": "user", "content": "what is the weather in sf"}]}
)

✅ 오류 내용

---------------------------------------------------------------------------
ConnectError                              Traceback (most recent call last)
File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_transports\default.py:101, in map_httpcore_exceptions()
    100 try:
--> 101     yield
    102 except Exception as exc:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_transports\default.py:250, in HTTPTransport.handle_request(self, request)
    249 with map_httpcore_exceptions():
--> 250     resp = self._pool.handle_request(req)
    252 assert isinstance(resp.stream, typing.Iterable)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_sync\connection_pool.py:256, in ConnectionPool.handle_request(self, request)
    255     self._close_connections(closing)
--> 256     raise exc from None
    258 # Return the response. Note that in this case we still have to manage
    259 # the point at which the response is closed.

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_sync\connection_pool.py:236, in ConnectionPool.handle_request(self, request)
    234 try:
    235     # Send the request on the assigned connection.
--> 236     response = connection.handle_request(
    237         pool_request.request
    238     )
    239 except ConnectionNotAvailable:
    240     # In some cases a connection may initially be available to
    241     # handle a request, but then become unavailable.
    242     #
    243     # In this case we clear the connection and try again.

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_sync\connection.py:101, in HTTPConnection.handle_request(self, request)
    100     self._connect_failed = True
--> 101     raise exc
    103 return self._connection.handle_request(request)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_sync\connection.py:78, in HTTPConnection.handle_request(self, request)
     77 if self._connection is None:
---> 78     stream = self._connect(request)
     80     ssl_object = stream.get_extra_info("ssl_object")

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_sync\connection.py:156, in HTTPConnection._connect(self, request)
    155 with Trace("start_tls", logger, request, kwargs) as trace:
--> 156     stream = stream.start_tls(**kwargs)
    157     trace.return_value = stream

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_backends\sync.py:154, in SyncStream.start_tls(self, ssl_context, server_hostname, timeout)
    150 exc_map: ExceptionMapping = {
    151     socket.timeout: ConnectTimeout,
    152     OSError: ConnectError,
    153 }
--> 154 with map_exceptions(exc_map):
    155     try:

File c:\Users\User\.conda\envs\Orange\Lib\contextlib.py:158, in _GeneratorContextManager.__exit__(self, typ, value, traceback)
    157 try:
--> 158     self.gen.throw(value)
    159 except StopIteration as exc:
    160     # Suppress StopIteration *unless* it's the same exception that
    161     # was passed to throw().  This prevents a StopIteration
    162     # raised inside the "with" statement from being suppressed.

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpcore\_exceptions.py:14, in map_exceptions(map)
     13     if isinstance(exc, from_exc):
---> 14         raise to_exc(exc) from exc
     15 raise

ConnectError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)

The above exception was the direct cause of the following exception:

ConnectError                              Traceback (most recent call last)
File c:\Users\User\.conda\envs\Orange\Lib\site-packages\openai\_base_client.py:982, in SyncAPIClient.request(self, cast_to, options, stream, stream_cls)
    981 try:
--> 982     response = self._client.send(
    983         request,
    984         stream=stream or self._should_stream_response_body(request=request),
    985         **kwargs,
    986     )
    987 except httpx.TimeoutException as err:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_client.py:914, in Client.send(self, request, stream, auth, follow_redirects)
    912 auth = self._build_request_auth(request, auth)
--> 914 response = self._send_handling_auth(
    915     request,
    916     auth=auth,
    917     follow_redirects=follow_redirects,
    918     history=[],
    919 )
    920 try:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_client.py:942, in Client._send_handling_auth(self, request, auth, follow_redirects, history)
    941 while True:
--> 942     response = self._send_handling_redirects(
    943         request,
    944         follow_redirects=follow_redirects,
    945         history=history,
    946     )
    947     try:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_client.py:979, in Client._send_handling_redirects(self, request, follow_redirects, history)
    977     hook(request)
--> 979 response = self._send_single_request(request)
    980 try:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_client.py:1014, in Client._send_single_request(self, request)
   1013 with request_context(request=request):
-> 1014     response = transport.handle_request(request)
   1016 assert isinstance(response.stream, SyncByteStream)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_transports\default.py:249, in HTTPTransport.handle_request(self, request)
    237 req = httpcore.Request(
    238     method=request.method,
    239     url=httpcore.URL(
   (...)    247     extensions=request.extensions,
    248 )
--> 249 with map_httpcore_exceptions():
    250     resp = self._pool.handle_request(req)

File c:\Users\User\.conda\envs\Orange\Lib\contextlib.py:158, in _GeneratorContextManager.__exit__(self, typ, value, traceback)
    157 try:
--> 158     self.gen.throw(value)
    159 except StopIteration as exc:
    160     # Suppress StopIteration *unless* it's the same exception that
    161     # was passed to throw().  This prevents a StopIteration
    162     # raised inside the "with" statement from being suppressed.

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_transports\default.py:118, in map_httpcore_exceptions()
    117 message = str(exc)
--> 118 raise mapped_exc(message) from exc

ConnectError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1000)

The above exception was the direct cause of the following exception:

APIConnectionError                        Traceback (most recent call last)
Cell In[3], line 17
     10 agent = create_agent(
     11     model=llm,
     12     tools=[get_weather],
     13     system_prompt="You are a helpful assistant",
     14 )
     16 # Run the agent
---> 17 agent.invoke(
     18     {"messages": [{"role": "user", "content": "what is the weather in sf"}]}
     19 )

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langgraph\pregel\main.py:3094, in Pregel.invoke(self, input, config, context, stream_mode, print_mode, output_keys, interrupt_before, interrupt_after, durability, **kwargs)
   3091 chunks: list[dict[str, Any] | Any] = []
   3092 interrupts: list[Interrupt] = []
-> 3094 for chunk in self.stream(
   3095     input,
   3096     config,
   3097     context=context,
   3098     stream_mode=["updates", "values"]
   3099     if stream_mode == "values" 
   3100     else stream_mode,
   3101     print_mode=print_mode,
   3102     output_keys=output_keys,
   3103     interrupt_before=interrupt_before,
   3104     interrupt_after=interrupt_after,
   3105     durability=durability,
   3106     **kwargs,
   3107 ):
   3108     if stream_mode == "values":
   3109         if len(chunk) == 2:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langgraph\pregel\main.py:2679, in Pregel.stream(self, input, config, context, stream_mode, print_mode, output_keys, interrupt_before, interrupt_after, durability, subgraphs, debug, **kwargs)
   2677 for task in loop.match_cached_writes():
   2678     loop.output_writes(task.id, task.writes, cached=True)
-> 2679 for _ in runner.tick(
   2680     [t for t in loop.tasks.values() if not t.writes],
   2681     timeout=self.step_timeout,
   2682     get_waiter=get_waiter,
   2683     schedule_task=loop.accept_push,
   2684 ):
   2685     # emit output
   2686     yield from _output(
   2687         stream_mode, print_mode, subgraphs, stream.get, queue.Empty
   2688     )
   2689 loop.after_tick()

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langgraph\pregel\_runner.py:167, in PregelRunner.tick(self, tasks, reraise, timeout, retry_policy, get_waiter, schedule_task)
    165 t = tasks[0]
    166 try:
--> 167     run_with_retry(
    168         t,
    169         retry_policy,
    170         configurable={
    171             CONFIG_KEY_CALL: partial(
    172                 _call,
    173                 weakref.ref(t),
    174                 retry_policy=retry_policy,
    175                 futures=weakref.ref(futures),
    176                 schedule_task=schedule_task,
    177                 submit=self.submit,
    178             ),
    179         },
    180     )
    181     self.commit(t, None)
    182 except Exception as exc:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langgraph\pregel\_retry.py:42, in run_with_retry(task, retry_policy, configurable)
     40     task.writes.clear()
     41     # run the task
---> 42     return task.proc.invoke(task.input, config)
     43 except ParentCommand as exc:
     44     ns: str = config[CONF][CONFIG_KEY_CHECKPOINT_NS]

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langgraph\_internal\_runnable.py:656, in RunnableSeq.invoke(self, input, config, **kwargs)
    654     # run in context
    655     with set_config_context(config, run) as context:
--> 656         input = context.run(step.invoke, input, config, **kwargs)
    657 else:
    658     input = step.invoke(input, config)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langgraph\_internal\_runnable.py:400, in RunnableCallable.invoke(self, input, config, **kwargs)
    398         run_manager.on_chain_end(ret)
    399 else:
--> 400     ret = self.func(*args, **kwargs)
    401 if self.recurse and isinstance(ret, Runnable):
    402     return ret.invoke(input, config)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain\agents\factory.py:1034, in create_agent.<locals>.model_node(state, runtime)
   1021 request = ModelRequest(
   1022     model=model,
   1023     tools=default_tools,
   (...)   1029     runtime=runtime,
   1030 )
   1032 if wrap_model_call_handler is None:
   1033     # No handlers - execute directly
-> 1034     response = _execute_model_sync(request)
   1035 else:
   1036     # Call composed handler with base handler
   1037     response = wrap_model_call_handler(request, _execute_model_sync)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain\agents\factory.py:1007, in create_agent.<locals>._execute_model_sync(request)
   1004 if request.system_prompt:
   1005     messages = [SystemMessage(request.system_prompt), *messages]
-> 1007 output = model_.invoke(messages)
   1009 # Handle model output to get messages and structured_response
   1010 handled_output = _handle_model_output(output, effective_response_format)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_core\runnables\base.py:5489, in RunnableBindingBase.invoke(self, input, config, **kwargs)
   5482 @override
   5483 def invoke(
   5484     self,
   (...)   5487     **kwargs: Any | None,
   5488 ) -> Output:
-> 5489     return self.bound.invoke(
   5490         input,
   5491         self._merge_configs(config),
   5492         **{**self.kwargs, **kwargs},
   5493     )

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_core\language_models\chat_models.py:379, in BaseChatModel.invoke(self, input, config, stop, **kwargs)
    365 @override
    366 def invoke(
    367     self,
   (...)    372     **kwargs: Any,
    373 ) -> AIMessage:
    374     config = ensure_config(config)
    375     return cast(
    376         "AIMessage",
    377         cast(
    378             "ChatGeneration",
--> 379             self.generate_prompt(
    380                 [self._convert_input(input)],
    381                 stop=stop,
    382                 callbacks=config.get("callbacks"),
    383                 tags=config.get("tags"),
    384                 metadata=config.get("metadata"),
    385                 run_name=config.get("run_name"),
    386                 run_id=config.pop("run_id", None),
    387                 **kwargs,
    388             ).generations[0][0],
    389         ).message,
    390     )

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_core\language_models\chat_models.py:1088, in BaseChatModel.generate_prompt(self, prompts, stop, callbacks, **kwargs)
   1079 @override
   1080 def generate_prompt(
   1081     self,
   (...)   1085     **kwargs: Any,
   1086 ) -> LLMResult:
   1087     prompt_messages = [p.to_messages() for p in prompts]
-> 1088     return self.generate(prompt_messages, stop=stop, callbacks=callbacks, **kwargs)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_core\language_models\chat_models.py:903, in BaseChatModel.generate(self, messages, stop, callbacks, tags, metadata, run_name, run_id, **kwargs)
    900 for i, m in enumerate(input_messages):
    901     try:
    902         results.append(
--> 903             self._generate_with_cache(
    904                 m,
    905                 stop=stop,
    906                 run_manager=run_managers[i] if run_managers else None,
    907                 **kwargs,
    908             )
    909         )
    910     except BaseException as e:
    911         if run_managers:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_core\language_models\chat_models.py:1192, in BaseChatModel._generate_with_cache(self, messages, stop, run_manager, **kwargs)
   1190     result = generate_from_stream(iter(chunks))
   1191 elif inspect.signature(self._generate).parameters.get("run_manager"):
-> 1192     result = self._generate(
   1193         messages, stop=stop, run_manager=run_manager, **kwargs
   1194     )
   1195 else:
   1196     result = self._generate(messages, stop=stop, **kwargs)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_openai\chat_models\base.py:1300, in BaseChatOpenAI._generate(self, messages, stop, run_manager, **kwargs)
   1298     if raw_response is not None and hasattr(raw_response, "http_response"):
   1299         e.response = raw_response.http_response  # type: ignore[attr-defined]
-> 1300     raise e
   1301 if (
   1302     self.include_response_headers
   1303     and raw_response is not None
   1304     and hasattr(raw_response, "headers")
   1305 ):
   1306     generation_info = {"headers": dict(raw_response.headers)}

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\langchain_openai\chat_models\base.py:1295, in BaseChatOpenAI._generate(self, messages, stop, run_manager, **kwargs)
   1288         return _construct_lc_result_from_responses_api(
   1289             response,
   1290             schema=original_schema_obj,
   1291             metadata=generation_info,
   1292             output_version=self.output_version,
   1293         )
   1294     else:
-> 1295         raw_response = self.client.with_raw_response.create(**payload)
   1296         response = raw_response.parse()
   1297 except Exception as e:

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\openai\_legacy_response.py:364, in to_raw_response_wrapper.<locals>.wrapped(*args, **kwargs)
    360 extra_headers[RAW_RESPONSE_HEADER] = "true" 
    362 kwargs["extra_headers"] = extra_headers
--> 364 return cast(LegacyAPIResponse[R], func(*args, **kwargs))

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\openai\_utils\_utils.py:286, in required_args.<locals>.inner.<locals>.wrapper(*args, **kwargs)
    284             msg = f"Missing required argument: {quote(missing[0])}" 
    285     raise TypeError(msg)
--> 286 return func(*args, **kwargs)

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\openai\resources\chat\completions\completions.py:1156, in Completions.create(self, messages, model, audio, frequency_penalty, function_call, functions, logit_bias, logprobs, max_completion_tokens, max_tokens, metadata, modalities, n, parallel_tool_calls, prediction, presence_penalty, prompt_cache_key, reasoning_effort, response_format, safety_identifier, seed, service_tier, stop, store, stream, stream_options, temperature, tool_choice, tools, top_logprobs, top_p, user, verbosity, web_search_options, extra_headers, extra_query, extra_body, timeout)
   1110 @required_args(["messages", "model"], ["messages", "model", "stream"])
   1111 def create(
   1112     self,
   (...)   1153     timeout: float | httpx.Timeout | None | NotGiven = not_given,
   1154 ) -> ChatCompletion | Stream[ChatCompletionChunk]:
   1155     validate_response_format(response_format)
-> 1156     return self._post(
   1157         "/chat/completions",
   1158         body=maybe_transform(
   1159             {
   1160                 "messages": messages,
   1161                 "model": model,
   1162                 "audio": audio,
   1163                 "frequency_penalty": frequency_penalty,
   1164                 "function_call": function_call,
   1165                 "functions": functions,
   1166                 "logit_bias": logit_bias,
   1167                 "logprobs": logprobs,
   1168                 "max_completion_tokens": max_completion_tokens,
   1169                 "max_tokens": max_tokens,
   1170                 "metadata": metadata,
   1171                 "modalities": modalities,
   1172                 "n": n,
   1173                 "parallel_tool_calls": parallel_tool_calls,
   1174                 "prediction": prediction,
   1175                 "presence_penalty": presence_penalty,
   1176                 "prompt_cache_key": prompt_cache_key,
   1177                 "reasoning_effort": reasoning_effort,
   1178                 "response_format": response_format,
   1179                 "safety_identifier": safety_identifier,
   1180                 "seed": seed,
   1181                 "service_tier": service_tier,
   1182                 "stop": stop,
   1183                 "store": store,
   1184                 "stream": stream,
   1185                 "stream_options": stream_options,
   1186                 "temperature": temperature,
   1187                 "tool_choice": tool_choice,
   1188                 "tools": tools,
   1189                 "top_logprobs": top_logprobs,
   1190                 "top_p": top_p,
   1191                 "user": user,
   1192                 "verbosity": verbosity,
   1193                 "web_search_options": web_search_options,
   1194             },
   1195             completion_create_params.CompletionCreateParamsStreaming
   1196             if stream
   1197             else completion_create_params.CompletionCreateParamsNonStreaming,
   1198         ),
   1199         options=make_request_options(
   1200             extra_headers=extra_headers, extra_query=extra_query, extra_body=extra_body, timeout=timeout
   1201         ),
   1202         cast_to=ChatCompletion,
   1203         stream=stream or False,
   1204         stream_cls=Stream[ChatCompletionChunk],
   1205     )

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\openai\_base_client.py:1259, in SyncAPIClient.post(self, path, cast_to, body, options, files, stream, stream_cls)
   1245 def post(
   1246     self,
   1247     path: str,
   (...)   1254     stream_cls: type[_StreamT] | None = None,
   1255 ) -> ResponseT | _StreamT:
   1256     opts = FinalRequestOptions.construct(
   1257         method="post", url=path, json_data=body, files=to_httpx_files(files), **options
   1258     )
-> 1259     return cast(ResponseT, self.request(cast_to, opts, stream=stream, stream_cls=stream_cls))

File c:\Users\User\.conda\envs\Orange\Lib\site-packages\openai\_base_client.py:1014, in SyncAPIClient.request(self, cast_to, options, stream, stream_cls)
   1011         continue
   1013     log.debug("Raising connection error")
-> 1014     raise APIConnectionError(request=request) from err
   1016 log.debug(
   1017     'HTTP Response: %s %s "%i %s" %s',
   1018     request.method,
   (...)   1022     response.headers,
   1023 )
   1024 log.debug("request_id: %s", response.headers.get("x-request-id"))

APIConnectionError: Connection error.
During task with name 'model' and id '165fa95b-????-????-????-????209ef8c5'

☑️ 해결 방법

C:\Users\User\.conda\envs\Orange\Lib\site-packages\httpx\_transports\default.py

모듈이 설치된 폴더로 이동하여 default.py를 아래와 같이 수정합니다.

class HTTPTransport(BaseTransport):
    def __init__(
        self,
        verify: ssl.SSLContext | str | bool = True,
        cert: CertTypes | None = None,
        trust_env: bool = True,
        http1: bool = True,
        http2: bool = False,
        limits: Limits = DEFAULT_LIMITS,
        proxy: ProxyTypes | None = None,
        uds: str | None = None,
        local_address: str | None = None,
        retries: int = 0,
        socket_options: typing.Iterable[SOCKET_OPTION] | None = None,
    ) -> None:
        import httpcore
        verify=False    # TODO 강제 False설정
        proxy = Proxy(url=proxy) if isinstance(proxy, (str, URL)) else proxy
        ssl_context = create_ssl_context(verify=verify, cert=cert, trust_env=trust_env)

# ~~~~~~~~~~~~~~~~~~~~~~~~~~~ 생략 ~~~~~~~~~~~~~~~~~~~~~~~~~~~

class AsyncHTTPTransport(AsyncBaseTransport):
    def __init__(
        self,
        verify: ssl.SSLContext | str | bool = True,
        cert: CertTypes | None = None,
        trust_env: bool = True,
        http1: bool = True,
        http2: bool = False,
        limits: Limits = DEFAULT_LIMITS,
        proxy: ProxyTypes | None = None,
        uds: str | None = None,
        local_address: str | None = None,
        retries: int = 0,
        socket_options: typing.Iterable[SOCKET_OPTION] | None = None,
    ) -> None:
        import httpcore
        verify=False    # TODO 강제 False설정
        proxy = Proxy(url=proxy) if isinstance(proxy, (str, URL)) else proxy
        ssl_context = create_ssl_context(verify=verify, cert=cert, trust_env=trust_env)
        
# ~~~~~~~~~~~~~~~~~~~~~~~~~~~ 생략 ~~~~~~~~~~~~~~~~~~~~~~~~~~~

Python @dataclass 데코레이터

aimler 2025. 9. 30. 23:01

2025. 9. 30. 23:01

@dataclass 는 데이터 전용 클래스를 쉽게 만들 수 있도록 도와주는 데코레이터입니다.

보통 우리가 단순히 데이터를 담는 용도로 클래스를 정의할 때는 __init__, __repr__, __eq__ 같은 메서드를 일일이 작성해야 했습니다. 하지만 @dataclass를 사용하면 이런 메서드를 자동 생성해 줍니다.

> 기본 개념

from dataclasses import dataclass

@dataclass
class User:
    id: int
    name: str
    active: bool = True

이렇게 작성하면 파이썬이 자동으로 다음을 생성합니다:

__init__ → User(id, name, active) 자동 정의
__repr__ → User(id=1, name='Alice', active=True) 형태의 문자열 반환
__eq__ → 객체끼리 값 비교 가능 (== 연산자)

> 사용 예시

user1 = User(1, "Alice")
user2 = User(2, "Bob", False)

print(user1)   # User(id=1, name='Alice', active=True)
print(user2)   # User(id=2, name='Bob', active=False)

print(user1 == User(1, "Alice"))  # True (값 비교)

> 주요 옵션

@dataclass 데코레이터는 여러 인자를 가질 수 있습니다:

frozen=True
→ 불변 객체(immutable)로 만듦 (값 변경 불가, dataclass 버전의 namedtuple 느낌)
eq=True/False
→ __eq__ 자동 생성 여부
order=True
→ <, >, <=, >= 비교 연산 지원
init=True/False
→ __init__ 생성 여부

> 예시

@dataclass(frozen=True, order=True)
class Point:
    x: int
    y: int

p1 = Point(1, 2)
p2 = Point(2, 3)

print(p1 < p2)  # True (order=True 덕분에 지원)
# p1.x = 10  # 에러 발생 (frozen=True 덕분에 불변 객체)

> field() 활용

필드별로 세부 설정도 가능합니다.

from dataclasses import dataclass, field

@dataclass
class Product:
    name: str
    price: float
    tags: list[str] = field(default_factory=list)  # 리스트는 반드시 default_factory 사용

이렇게 하면 각 인스턴스가 서로 다른 리스트 객체를 가지게 됩니다.
(default=[]로 쓰면 모든 인스턴스가 같은 리스트 공유 → 버그 발생 위험)

------------------------------------------------- 일반 클래스와 비교 -------------------------------------------------

> 일반 클래스 구현

class User:
    def __init__(self, id: int, name: str, active: bool = True):
        self.id = id
        self.name = name
        self.active = active

    def __repr__(self):
        return f"User(id={self.id!r}, name={self.name!r}, active={self.active!r})"

    def __eq__(self, other):
        if isinstance(other, User):
            return (self.id, self.name, self.active) == (other.id, other.name, other.active)
        return False


# 사용 예시
u1 = User(1, "Alice")
u2 = User(1, "Alice")

print(u1)        # User(id=1, name='Alice', active=True)
print(u1 == u2)  # True

일반 클래스는 __init__, __repr__, __eq__ 메서드를 직접 작성해야 합니다.

Opensource 게시판/포럼 솔루션

aimler 2025. 9. 2. 20:57

2025. 9. 2. 20:57

1. Discourse
    • 언어/기술: Ruby on Rails + Ember.js
    • 특징: 현대적인 UI, 모바일 친화적, 소셜 네트워크 느낌의 토론 게시판.
    • 장점:
        ◦ 알림, @멘션, 실시간 업데이트 지원
        ◦ 플러그인/테마로 확장성 높음
        ◦ SSO, OAuth, LDAP 등 연동 가능
    • 추천 대상: 최신형 커뮤니티, 기술 포럼, 고객 지원 Q&A 운영하려는 팀.

• 홈페이지: https://www.discourse.org

• Git: https://github.com/discourse

2. NodeBB
    • 언어/기술: Node.js + MongoDB/Redis
    • 특징: 빠르고 반응성 좋은 포럼, 실시간 알림 및 WebSocket 기반.
    • 장점:
        ◦ Slack/Discord 같은 느낌의 인터랙션
        ◦ 플러그인 마켓 풍부
        ◦ Docker 설치 지원
    • 추천 대상: 채팅·SNS와 유사한 경험을 원하거나, Node.js 환경에 익숙한 개발팀.
    • 홈페이지: https://nodebb.org

• Git: https://github.com/NodeBB

3. Flarum
    • 언어/기술: PHP + MySQL
    • 특징: 미니멀하고 빠른 차세대 포럼. “심플한 Discourse” 느낌.
    • 장점:
        ◦ 확장 플러그인 생태계 존재
        ◦ 모바일 대응 우수
        ◦ 설치가 비교적 간단 (PHP 환경이면 OK)
    • 추천 대상: 가볍고 심플한 커뮤니티를 빠르게 구축하려는 소규모 팀/동호회.
    • 홈페이지: https://flarum.org

• Git: https://github.com/flarum

4. MyBB
    • 언어/기술: PHP + MySQL
    • 특징: 전통적인 게시판 스타일 (네이버 카페·phpBB 같은 느낌).
    • 장점:
        ◦ 오래된 안정적인 프로젝트, 한글화 자료 풍부
        ◦ 플러그인/테마 다양
        ◦ 전통적인 게시판 UI에 익숙한 사용자에게 친숙
    • 추천 대상: 학급/동호회 커뮤니티, 게임 길드 포럼 등 전통적 게시판 선호 시.
    • 홈페이지: https://mybb.com

• Git: https://github.com/mybb

5. phpBB
    • 언어/기술: PHP + MySQL/PostgreSQL
    • 특징: 가장 오래된 오픈소스 포럼 중 하나. 커뮤니티 규모가 큼.
    • 장점:
        ◦ 방대한 플러그인/테마
        ◦ 유저 권한 관리가 매우 세밀함
        ◦ 대규모 포럼 운영에 검증된 솔루션
    • 추천 대상: 대형 커뮤니티, 장기간 안정적인 운영이 필요한 경우.
    • 홈페이지: https://www.phpbb.com

• Git: https://github.com/phpbb

6. Vanilla Forums (오픈소스 버전)
    • 언어/기술: PHP
    • 특징: 현대적인 UI + 소셜 기능. 기업용 상용 버전도 존재.
    • 장점:
        ◦ 깔끔한 인터페이스
        ◦ 기본 기능 충실
        ◦ 커머스·서포트 포럼 운영에도 적합
    • 추천 대상: 기업용 커뮤니티, 고객지원 포럼.

• 홈페이지: https://open.vanillaforums.com

• Git: https://github.com/vanilla

솔루션	특징 요약	추천 대상	기술
Discourse	현대적, 실시간, 확장성 강력	기술 포럼, 고객지원	Ruby on Rails + Ember.js
NodeBB	Node.js 기반, 빠르고 채팅 느낌	개발팀, 실시간 커뮤니티	Node.js + MongoDB/Redis
Flarum	가볍고 미니멀, 모바일 최적화	소규모 동호회, 심플 커뮤니티	PHP + MySQL
MyBB	전통 게시판 스타일, 한글화 용이	학급, 게임, 전통 포럼	PHP + MySQL
phpBB	검증된 대형 포럼 엔진	대형 커뮤니티 운영	PHP + MySQL/PostgreSQL
Vanilla Forums	기업/브랜드 커뮤니티 적합	기업 고객지원 포럼	PHP

Redmine의 대안으로 사용할 수 있는 Opensource 플랫폼 소개

aimler 2025. 9. 2. 20:35

2025. 9. 2. 20:35

1. OpenProject
• 특징: Gantt 차트, 칸반·스크럼 보드, 시간 추적, 이슈 및 문서 관리 등 종합 프로젝트 관리 기능 제공. 모던한 UI와 높은 보안성을 갖춘 온프레미스/클라우드 배포 모두 가능
  • 장점:
  ◦ 사용자 친화적인 디자인과 상세한 온보딩/문서 지원
  ◦ 워크플로우 전반을 하나의 플랫폼에서 관리 가능
  • 활용 사례: 건설업, 헬스케어 등 민감한 도메인에서도 선호됨
  • 주의사항: 커뮤니티 에디션의 기능 제한과 다소 높은 학습 곡선 존재

• 홈페이지: https://www.openproject.org/

2. Taiga
  • 특징: 스크럼과 칸반 중심의 애자일 방식 프로젝트 관리에 특화된 시스템. 직관적인 UI와 가벼운 구조가 장점
  • 장점:
  ◦ 백로그, 스프린트, 이슈 트래킹 등 애자일 팀에 최적화된 기능
  ◦ 쉬운 설치 및 다양한 언어 지원.
  • 주의사항: 고급 프로젝트 관리 기능이나 복잡한 워크플로우에는 한계 있을 수 있음.
  •  홈페이지: https://taiga.io/

3. Kanboard
  • 특징: 초경량 칸반 보드 기반. 단순하고 효율적인 작업 시각화에 최적화된 도구
  • 장점:
  ◦ 드래그 앤 드롭 UI, 자동화, CLI 등 심플하지만 필요한 기능 제공.
  ◦ 도커 환경에서도 쉽게 운영 가능.
  • 주의사항: 기능이 칸반 중심으로 제한적이며 모바일 앱은 없음
  •  홈페이지: https://kanboard.org/

4. Trac
  • 특징: 이슈 추적, 버전 관리(Git/SVN) 통합, 위키와 간단한 로드맵 기능을 제공하는 웹 기반 관리 시스템
  • 장점:
◦ 프로젝트 일정, 티켓, 위키 간 하이퍼링크로 유기적 통합.
  ◦ 타임라인, RSS/이메일 알림, 상세 권한 관리 기능 탑재.
  • 활용 사례: Django, FFmpeg, WordPress 등 다양한 오픈소스 프로젝트에서 사용
  • 주의사항: UI가 다소 전통적이며, 현대적인 인터페이스를 선호하는 경우 아쉬울 수 있음.
  •  홈페이지: https://trac.edgewall.org/

5. ProjeQtOr
  • 특징: '품질 중심 프로젝트 조직(Quality based Project Organizer)'이라는 슬로건으로, 리스크 관리, 예산/비용, 보고서, 워크플로우 기능 등 다양한 기능 제공
  • 장점:
  ◦ 다국어 지원, 멀티 플랫폼.
  • 주의사항: 설정이 다소 복잡할 수 있으며, UI도 전통적일 수 있음.

• 홈페이지: https://www.projeqtor.org/en/product-en

6. WorkLenz

• 특징: 오픈소스 워크플로우 관리 도구로, HR 및 CRM 모듈 포함. GitHub에서 꾸준히 활발하게 개발 중

• 홈페이지: https://worklenz.com/

플랫폼	특징 요약	추천 대상
OpenProject	종합 기능 + 모던 UI	보안 및 기능성을 중시하는 조직
Taiga	애자일 중심, 직관적인 인터페이스	애자일팀, 스타트업
Kanboard	간단 칸반 방식	심플한 작업 시각화가 필요한 소규모 팀
Trac	이슈+버전+위키 통합	개발자 중심 프로젝트, 오픈소스 기반 프로젝트
ProjeQtOr	리스크/예산 관리 등 품질 중심 특화	예산/리스크 관리가 중요한 조직
WorkLenz	HR/CRM 모듈 통합 등 특별 기능 제공	다기능 커스터마이징이 필요한 팀

Grafana 에서 Business Charts의 캔들차트 표시하는 방법

aimler 2025. 8. 29. 17:27

2025. 8. 29. 17:27

Grafana에서 주식차트를 그리는 방법을 설명드립니다.

데이터 구조만 맞춰주시고 javascript 코드는 그대로 사용하시면 아래와 같은 그래프가 표시됩니다.

차트

데이터 구조

Javascript 코드입니다.

const rawData = [];
context.panel.data.series.forEach((series) => {
  const event_dates_Field = series.fields.find(f => f.name.toLowerCase().includes("event_date"));	// 날짜
  const openingPrices_Field = series.fields.find(f => f.name.toLowerCase().includes("openingprice"));	// 시가
  const tradePrices_Field = series.fields.find(f => f.name.toLowerCase().includes("tradeprice"));	// 종가
  const lowPrices_Field = series.fields.find(f => f.name.toLowerCase().includes("lowprice"));	// 저가
  const highPrices_Field = series.fields.find(f => f.name.toLowerCase().includes("highprice"));	// 고가
  if (!event_dates_Field || !openingPrices_Field || !tradePrices_Field || !lowPrices_Field || !highPrices_Field) return;

  const event_dates = event_dates_Field.values;
  const openingPrices = openingPrices_Field.values;
  const tradePrices = tradePrices_Field.values;
  const lowPrices = lowPrices_Field.values;
  const highPrices = highPrices_Field.values;

  for (let i = 0; i < event_dates.length; i++) {
    rawData.push([
      event_dates.get(i).toString(),
      openingPrices.get(i).toString(),
      tradePrices.get(i).toString(),
      lowPrices.get(i).toString(),
      highPrices.get(i).toString()
    ]);
  }
});
// console.log(rawData);
function calculateMA(dayCount, data) {
  var result = [];
  for (var i = 0, len = data.length; i < len; i++) {
    if (i < dayCount) {
      result.push('-');
      continue;
    }
    var sum = 0;
    for (var j = 0; j < dayCount; j++) {
      sum += +data[i - j][1];
    }
    result.push(sum / dayCount);
  }
  return result;
}
const dates = rawData.map(function (item) {
  return item[0];	// 날짜
});
const values = rawData.map(function (item) {
  return [+item[1], +item[2], +item[3], +item[4]];	// 시가(1), 종가(2), 저가(3), 고가(4)
});

return {
  legend: {
    data: ['日K', 'MA5', 'MA10', 'MA20', 'MA30'],
    inactiveColor: '#777'
  },
  tooltip: {
    trigger: 'axis',
    axisPointer: {
      animation: false,
      type: 'cross',
      lineStyle: {
        color: '#376df4',
        width: 2,
        opacity: 1
      }
    }
  },
  xAxis: {
    type: 'category',
    data: dates,
    axisLine: { lineStyle: { color: '#8392A5' } }
  },
  yAxis: {
    scale: true,
    axisLine: { lineStyle: { color: '#8392A5' } },
    splitLine: { show: false }
  },
  grid: {
    bottom: 80
  },
  dataZoom: [
    {
      textStyle: {
        color: '#8392A5'
      },
      handleIcon:
        'path://M10.7,11.9v-1.3H9.3v1.3c-4.9,0.3-8.8,4.4-8.8,9.4c0,5,3.9,9.1,8.8,9.4v1.3h1.3v-1.3c4.9-0.3,8.8-4.4,8.8-9.4C19.5,16.3,15.6,12.2,10.7,11.9z M13.3,24.4H6.7V23h6.6V24.4z M13.3,19.6H6.7v-1.4h6.6V19.6z',
      dataBackground: {
        areaStyle: {
          color: '#8392A5'
        },
        lineStyle: {
          opacity: 0.8,
          color: '#8392A5'
        }
      },
      brushSelect: true
    },
    {
      type: 'inside'
    }
  ],
  series: [
    {
      type: 'candlestick',
      name: 'Day',
      data: values,
      itemStyle: {
        color: '#FD1050',
        color0: '#0CF49B',
        borderColor: '#FD1050',
        borderColor0: '#0CF49B'
      }
    },
    {
      name: 'MA5',
      type: 'line',
      data: calculateMA(5, values),
      smooth: true,
      showSymbol: false,
      lineStyle: {
        width: 1
      }
    },
    {
      name: 'MA10',
      type: 'line',
      data: calculateMA(10, values),
      smooth: true,
      showSymbol: false,
      lineStyle: {
        width: 1
      }
    },
    {
      name: 'MA20',
      type: 'line',
      data: calculateMA(20, values),
      smooth: true,
      showSymbol: false,
      lineStyle: {
        width: 1
      }
    },
    {
      name: 'MA30',
      type: 'line',
      data: calculateMA(30, values),
      smooth: true,
      showSymbol: false,
      lineStyle: {
        width: 1
      }
    }
  ]
};

dbt 명칭을 왜 소문자로 표기할까?

aimler 2025. 8. 19. 10:25

2025. 8. 19. 10:25

사실 dbt는 정식 명칭이 “data build tool”인데, dbt Labs에서는 일부러 소문자 표기(db t)를 고수합니다.

이유

1. 브랜딩 철학

dbt Labs는 “데이터팀을 위한 도구가 거창한 이름이 아니라, 가볍고 실용적인 툴”이라는 이미지를 주고 싶었습니다.
그래서 일반적인 약자처럼 “DBT”라고 대문자로 쓰지 않고, 소문자 dbt라는 독특한 스타일을 선택했습니다.

2. 개발자 문화와 유사성

리눅스 명령어나 Python 패키지 이름처럼, 소문자 CLI(command-line interface) 툴 스타일을 따랐습니다.
실제로 설치 후 실행할 때도 dbt run, dbt test처럼 소문자 명령어를 입력합니다.

3. 공식 가이드라인

dbt Labs 공식 문서에서도 “항상 dbt라고 소문자로 작성할 것”을 권장합니다. 가이드

대문자 DBT는 다른 의미(예: 심리치료에서 쓰이는 Dialectical Behavior Therapy)와 혼동될 수 있기 때문에 차별화 목적도 있습니다.

ETL vs ELT 비교

aimler 2025. 8. 19. 10:17

2025. 8. 19. 10:17

ETL ( Extract → Transform → Load )
- 전통적 방식
- 데이터를 원본에서 추출(Extract) → 중간 처리 서버에서 변환(Transform) → 최종적으로 데이터 웨어하우스에 적재(Load)
- 데이터 웨어하우스의 연산 능력이 부족하던 시절에 주로 사용됨
- [Source] → (Extract) → [ETL 서버에서 Transform] → (Load) → [Data Warehouse]
ELT ( Extract → Load → Transform )
- 현대적 방식 (dbt가 여기에 해당)
- 데이터를 원본에서 추출(Extract) → 그대로 데이터 웨어하우스에 적재(Load) → 웨어하우스 내부에서 SQL 기반 변환(Transform) 수행
- Snowflake, BigQuery, Redshift, Databricks 등 강력한 클라우드 DWH가 등장하면서 표준이 됨
- [Source] → (Extract + Load, Ingestion) → [Data Warehouse] → (Transform, dbt) → [Analytics-ready Data]
요약

구분	ETL	ELT (dbt 활용)
Transform 위치	ETL 서버(외부 처리 엔진)	데이터 웨어하우스 내부
데이터 적재 순서	변환 후 Load	Load 후 변환
도구 예시	Informatica, Talend, Pentaho	dbt, SQL, BigQuery/Snowflake/Redshift 내장 기능
장점	- 웨어하우스 부담 ↓- 보안·정책 제약 환경에서 유리	- 웨어하우스의 강력한 성능 활용- 단순 구조 (원시데이터와 정제데이터 모두 보관)- SQL만으로 개발 가능
단점	- 변환 서버 운영 필요- 확장성 낮음	- 웨어하우스 비용 증가 가능- 웨어하우스 의존도 ↑
사용 사례	과거 온프레미스 DWH 환경	최신 클라우드 DWH + dbt 파이프라인

Ingestion vs Transformation 비교

aimler 2025. 8. 19. 10:12

2025. 8. 19. 10:12

구분	Ingestion	Transformation (dbt)
의미	원천(Source) 시스템에서 데이터를 수집하여 웨어하우스/데이터레이크에 옮겨 적재하는 과정	웨어하우스 내부에 적재된 원시(raw) 데이터를 정제·모델링·가공하는 과정
ETL/ELT 단계	E(Extract) + L(Load)	T(Transform)
주요 도구	Fivetran, Stitch, Airbyte, Spark, Python 스크립트 등	dbt Core / dbt Cloud
출력 결과	웨어하우스의 Landing / Raw Layer (원시 데이터)	웨어하우스의 Staging / Warehouse / Mart Layer (분석·비즈니스 친화적 데이터)
기술적 초점	- 데이터 이동 자동화- API, DB 커넥터, 스트리밍 등 지원- 스키마나 포맷 변환 최소화	- SQL 기반 모델링- 데이터 품질 검증(Test)- 의존성 관리(DAG)- 문서화 자동화
사용자	데이터 엔지니어 중심	데이터 분석가 + 애널리틱스 엔지니어
예시	“Facebook Ads 데이터를 Snowflake로 매일 적재”	“Snowflake에 쌓인 Ads 데이터를 정제해 마케팅 ROI 리포트용 테이블 생성”

주가 이동평균 구하는 Query (MySQL, Mariadb)

aimler 2025. 8. 7. 14:37

2025. 8. 7. 14:37

주가 데이터 와 이동평균을 Grafana의 차트에 표시해주기위환 MySQL 쿼리 입니다.

일 배치로 이동평균을 계산해 놓을수 도 있지만 좁은 기간의 데이터 조회가 빈번할 때는

쿼리에서 이동평균을 계산해도 괜찮을 것 같아 쿼리를 제작하였습니다.

이동평균을 주가 뿐만 아니라 DAU등에 접목해도 좋을 것 같습니다.

✅ 데이터 구조

event_date	symbol_code	tradePrice
2025-04-18	35420	187,500
2025-04-21	35420	187,500
2025-04-22	35420	193,700
2025-04-23	35420	192,900
2025-04-24	35420	191,500
2025-04-25	35420	193,500
2025-04-28	35420	195,500
2025-04-29	35420	196,500
2025-04-30	35420	200,500
2025-05-02	35420	197,400

✅ 쿼리

set @symbol_code = '035420';    -- 종목 코드
set @interval_day = 100;        -- 현재일 기준 조회 기간
with sub as (
    select event_date, tradePrice, day_5_moving_avg, day_10_moving_avg, day_20_moving_avg, day_60_moving_avg
    from (
        SELECT event_date, symbol_code, tradePrice
            , ROUND(AVG(tradePrice)OVER (ORDER BY event_date ROWS BETWEEN 4 PRECEDING AND CURRENT ROW), 2) AS day_5_moving_avg  -- 5일 이동 평균
            , ROUND(AVG(tradePrice)OVER (ORDER BY event_date ROWS BETWEEN 9 PRECEDING AND CURRENT ROW), 2) AS day_10_moving_avg  -- 10일 이동 평균
            , ROUND(AVG(tradePrice)OVER (ORDER BY event_date ROWS BETWEEN 19 PRECEDING AND CURRENT ROW), 2) AS day_20_moving_avg  -- 20일 이동 평균
            , ROUND(AVG(tradePrice)OVER (ORDER BY event_date ROWS BETWEEN 59 PRECEDING AND CURRENT ROW), 2) AS day_60_moving_avg  -- 60일 이동 평균
        FROM tbl_stock_list_kor
        WHERE event_date >= date_add(current_date, interval (abs(@interval_day) + 100) * -1 day)
            and event_date <= current_date
            and symbol_code = @symbol_code
    ) as ta
    where event_date >= date_add(current_date, interval abs(@interval_day) * -1 day) and event_date <= current_date
)
select cast(ta.event_date as char(10)) as event_date
    , (case tb.rno when 1 then '주가'
                when 2 then '5일선'
                when 3 then '10일선'
                when 4 then '20일선'
                when 5 then '60일선'
                end) as legend
, (case tb.rno when 1 then ta.tradePrice
                when 2 then ta.day_5_moving_avg
                when 3 then ta.day_10_moving_avg
                when 4 then ta.day_20_moving_avg
                when 5 then ta.day_60_moving_avg
                end) as price
from sub as ta
cross join (select 1 rno union select 2 union select 3 union select 4 union select 5) as tb
order by event_date asc, legend asc;

✅ 쿼리 실행 결과

event_date	legend	price
2025-04-29	10일선	190,660
2025-04-29	20일선	189,630
2025-04-29	5일선	193,980
2025-04-29	60일선	206,630
2025-04-29	주가	196,500
2025-04-30	10일선	192,270
2025-04-30	20일선	189,875
2025-04-30	5일선	195,500
2025-04-30	60일선	206,330
2025-04-30	주가	200,500

✅ Chart

DAU 데이터의 z-score 계산 Query

aimler 2025. 7. 30. 09:15

2025. 7. 30. 09:15

> DAU 데이터 구조

event_date	dau
2025-07-01	12,000
2025-07-02	13,000
2025-07-03	15,000
2025-07-04	13,500
2025-07-05	16,000
2025-07-06	15,000
2025-07-07	19,000

> DAU 및 Z-Score 조회 쿼리

SELECT
    event_date,
    dau,
    ROUND((dau - stats.avg_dau) / stats.std_dau, 4) AS dau_zscore
FROM
    tbl_dau as ta,
    (
        SELECT
            AVG(dau) AS avg_dau,
            STDDEV(dau) AS std_dau
        FROM tbl_dau
        where event_date >= '2025-07-01'
            and event_date < '2025-07-11'
    ) AS stats
where ta.event_date >= '2025-07-01'
    and ta.event_date < '2025-07-11'
ORDER BY event_date;

> 조회 결과

event_date	dau	dau_zscore
2025-07-01	12,000	-1.3044
2025-07-02	13,000	-0.8361
2025-07-03	15,000	0.1003
2025-07-04	13,500	-0.602
2025-07-05	16,000	0.5686
2025-07-06	15,000	0.1003
2025-07-07	19,000	1.9733

머신러닝 모델 유형별 대표적인 평가 지표

aimler 2025. 7. 25. 17:30

2025. 7. 25. 17:30

> 분류( Classification ) 모델 평가 지표

지표명	설명	특징/용도
Accuracy (정확도)	전체 중 맞게 예측한 비율	클래스 균형이 잘 맞을 때 적합
Precision (정밀도)	양성 예측 중 실제 양성 비율	FP(거짓양성) 줄일 때 중요
Recall (재현율)	실제 양성 중 맞게 예측한 비율	FN(거짓음성) 줄일 때 중요
F1 Score	정밀도와 재현율의 조화평균	정밀도와 재현율 균형 필요할 때
ROC-AUC	거짓양성비율 대비 참양성비율 곡선 아래 면적	임계값 무관, 클래스 불균형 문제에 강함
PR-AUC (P-R 곡선 아래 면적)	정밀도와 재현율 곡선 아래 면적	불균형 데이터에서 성능 평가에 더 적합
Confusion Matrix	TP, FP, TN, FN 행렬 형태로 예측 결과 요약	다양한 지표 계산의 기본 자료
Log Loss (Cross-Entropy)	확률 예측과 실제값 간 차이	확률 기반 분류 모델 성능 평가
MCC (Matthews Correlation Coefficient)	불균형 데이터에서 균형 잡힌 평가 지표	데이터 불균형 심할 때 권장

> 회귀 (Regression) 모델 평가 지표

지표명	설명	특징/용도
MSE (Mean Squared Error)	오차 제곱의 평균	큰 오차에 민감
RMSE (Root MSE)	MSE의 제곱근	단위가 원래 값과 같아 해석 용이
MAE (Mean Absolute Error)	절대 오차 평균	이상치에 덜 민감
MAPE (Mean Absolute Percentage Error)	절대 오차를 실제 값으로 나눈 비율의 평균 (백분율)	오차를 %로 직관적으로 표현, 0에 가까운 값 주의
R² (결정계수)	모델이 데이터 분산을 얼마나 설명하는지 비율	1에 가까울수록 좋은 설명력

> 클러스터링 (Clustering) 평가 지표

지표명	설명	특징/용도
Silhouette Score	군집 간 거리와 군집 내 거리 비율	1에 가까울수록 군집 품질 좋음
Davies-Bouldin Index	군집 간 거리 대비 군집 내 거리 비율	값이 작을수록 군집 품질 좋음
Calinski-Harabasz Index	군집 간 분산 대비 군집 내 분산 비율	값이 클수록 군집 품질 좋음

Grafana Business Chart 누적형 그래프 그리기

aimler 2025. 7. 1. 13:09

2025. 7. 1. 13:09

Grafana에서 Business Chart를 사용해서 누적형 그래프를 그리는 방법을 설명하겠습니다.

• 데이터 구조

legend	xvalue	yvalue
A	2074-01	138,938
B	2074-01	31,065
C	2074-01	9,509
D	2074-01	22,073
A	2074-02	121,677
B	2074-02	31,899
C	2074-02	12,903
D	2074-02	21,503

• 그래프

• Script 코드

const dataMap = {}; 							// 시즌별 데이터 저장용
const xLabelsSet = new Set(); 	// x축 레벨 값들
let minYValue = Infinity;      			// y축 최소값 계산용

context.panel.data.series.forEach((series) => {
  const legendField = series.fields.find(f => f.name.toLowerCase().includes("legend"));		// 범례
  const xvalueField = series.fields.find(f => f.name.toLowerCase().includes("xvalue"));			// x축에 표시할 값
  const yvalueField = series.fields.find(f => f.name.toLowerCase().includes("yvalue"));			// y축에 표시할 값
  if (!legendField || !xvalueField || !yvalueField) return;

  const legends = legendField.values;		// 범례 배열
  const xvalues = xvalueField.values;		// x축 값 배열
  const values = yvalueField.values;			// y축 값 배열

  for (let i = 0; i < legends.length; i++) {
    const legend = legends.get(i);
    const xvalue = xvalues.get(i);
    const yvalue = values.get(i);
    xLabelsSet.add(xvalue);

    if (!dataMap[legend]) {
      dataMap[legend] = {};
    }
    dataMap[legend][xvalue] = yvalue;

    // 최소값 갱신
    if (typeof yvalue === 'number' && yvalue < minYValue) {
      minYValue = yvalue;
    }
  }
});

// x축 정렬된 레벨 값들 (문자열 기준 정렬)
const xLabels = Array.from(xLabelsSet).sort((a, b) => a - b);

// 시리즈 생성
const series = Object.keys(dataMap).map(legend => {
  const xValueMap = dataMap[legend];
  const displayData = xLabels.map(xvalue => xValueMap[xvalue] ?? null);
  // 최고값 찾기
  let maxIndex = -1;
  let maxValue = -Infinity;
  displayData.forEach((v, i) => {
    if (typeof v === 'number' && v > maxValue) {
      maxValue = v;
      maxIndex = i;
    }
  });

  return {
    name: legend,
    type: "line",
    stack: "total",
    data: displayData,
    symbolSize: 4,    // 점의 크기
    areaStyle: {
      opacity: 0.3    // 투명도 조절 (0 ~ 1 사이 값)
    },
  };
});

return {
  grid: {
    bottom: "4.5%",
    containLabel: true,
    left: "3%",
    right: "4%"
  },
  tooltip: {
    trigger: "item",
    axisPointer: {
      type: 'cross',
    },
    formatter: function (params) {
      // 숫자 포맷: 천단위 구분
      const value = typeof params.data === 'number'
        ? params.data.toLocaleString('ko-KR')
        : params.data;
      return `
        ${params.marker}
        <strong style="color:${params.color}">${params.seriesName}</strong>: ${value}
      `;
    }
  },
  legend: {
    name: '시즌',
    data: Object.keys(dataMap)
  },
  xAxis: {  // x축 설정
    name: '',           // 축 이름 텍스트.
    nameLocation: "middle", // "start", "middle", "end" 가능. 이름의 위치 지정.
    nameGap: 25,            // 축 이름과 축 간의 거리(px)
    nameTextStyle: {        // 폰트 크기, 두께 등 스타일 설정
      fontSize: 14,
      fontWeight: 'bold'
    },
    boundaryGap: false,
    type: "category",
    data: xLabels, 
    axisLabel: {
      margin: 25,       // 레이블과 축 간 거리
      fontSize: 13      // ← 글씨 크기 설정 (예: 12px)
    }
  },
  yAxis: {  // y축 설정
    name: '',
    nameTextStyle: {
      fontSize: 14,
      fontWeight: 'bold'
    },
    type: "value",
    min: (minYValue * 0.85).toFixed(0)
  },
  series
};

Grafana Business Charts Tooltip 가이드

aimler 2025. 5. 30. 15:22

2025. 5. 30. 15:22

Grafana에서 Business Charts를 사용할 때 Tooltip에 표시되는 내용을 정렬하는 방법을 설명드리겠습니다.

• 적용 전 / 후의 모습입니다.

• tooltip 옵션의 코드를 아래와 같이 수정합니다.

tooltip: {
  trigger: "axis",
  formatter: function (params) {
    // 수치를 천 단위로 변환하는 함수
    const formatNumber = num => {
      if (num == null || isNaN(num)) return '-';
      return num.toLocaleString();  // 또는: String(num).replace(/\B(?=(\d{3})+(?!\d))/g, ",")
    };

    const sortedParams = params.slice().sort((a, b) => {
      const aVal = a.data != null ? a.data : -Infinity;
      const bVal = b.data != null ? b.data : -Infinity;
      return bVal - aVal;
    });

    let text = `${params[0].axisValue}<br/>`;
    sortedParams.forEach(param => {
      text += `
        <span style="display:inline-block;margin-right:5px;border-radius:10px;width:9px;height:9px;background-color:${param.color};"></span>
        ${param.seriesName}: ${formatNumber(param.data)}<br/>
      `;
    });
    return text;
  }
}

Grafana Business Charts 사용 가이드

aimler 2025. 5. 30. 13:18

2025. 5. 30. 13:18

Grafana에서 서드파티 차트중 Business Charts를 사용하는 방법을 알려드리겠습니다.

0. legend / xvalue / yvalue 컬럼으로 이루어진 데이터를 준비합니다.

1. Business Charts 를 선택 > Editor Mode를 Visual로 선택합니다.

2. 아래 JavaScript 코드를 Visual Editor 탭의 Function에 붙여넣어 줍니다.

코드에 대한 설명은 주석을 참고하시거나 ChatGPT에 코드를 붙여넣은 후 프로프트로 코드 수정을 질문하시면 꽤 정확한 답변을 얻으실 수 있습니다.

const dataMap = {}; 					  // 전체 데이터
const xLabelsSet = new Set(); 	// X축 라벨값 집합

// 데이터 집합을 생성합니다.
context.panel.data.series.forEach((series) => {
  const legendField = series.fields.find(f => f.name.toLowerCase().includes("legend"));		// 범례
  const xValueField = series.fields.find(f => f.name.toLowerCase().includes("xvalue"));		//  X 축
  const yValueField = series.fields.find(f => f.name.toLowerCase().includes("yvalue"));		// Y 축
  if (!legendField || !xValueField || !yValueField) return;

  const legends = legendField.values;
  const xValues = xValueField.values;
  const yValues = yValueField.values;

  for (let i = 0; i < legends.length; i++) {
    const legend = legends.get(i);
    const xValue = xValues.get(i);
    const yValue = yValues.get(i);
    xLabelsSet.add(xValue);
    if (!dataMap[legend]) {
      dataMap[legend] = {};
    }
    dataMap[legend][xValue] = yValue;
  }
});

// X축에 표시할 Unique 라벨 배열
const xLabels = Array.from(xLabelsSet).sort((a, b) => a - b);
// 시리즈 생성
const series = Object.keys(dataMap).map(legend => {
  const xValueMap = dataMap[legend];
  const yValueMap = xLabels.map(xValue => xValueMap[xValue] ?? null);
  return {
    name: legend,     // 범례에 속한 항목 이름
    type: "line",     // 차트 타입(bar, line)
    stack: "",
    data: yValueMap   // Y Value 데이터 배열
  };
});

return {
  grid: {
    top: "30%",
    bottom: "5%",  // 그래프 하단의 여백을 설정하는 효과가 있습니다.
    containLabel: true,
    left: "3%",
    right: "4%"
  },
  tooltip: {
    trigger: "axis"
  },
  legend: { // 범례 설정
    type: 'plain', // plain, scroll
    name: '모델',
    data: Object.keys(dataMap),
    orient: 'horizontal',      // 수평 정렬
    top: 'top',
    left: 'center',
    itemGap: 10,               // 범례 항목 간 간격
    padding: [10, 20],         // 범례 영역 안쪽 여백
    width: '80%',              // 너비 제한을 주면 줄바꿈 발생 가능
    textStyle: {
      fontSize: 14
    }
  },
  xAxis: {  // x축 설정
    name: '',           // 축 이름 텍스트.
    nameLocation: "middle", // "start", "middle", "end" 가능. 이름의 위치 지정.
    nameGap: 30,            // 축 이름과 축 간의 거리(px)
    nameTextStyle: {        // 폰트 크기, 두께 등 스타일 설정
      fontSize: 20,
      fontWeight: 'bold'
    },
    boundaryGap: true,
    type: "category",
    data: xLabels,
    axisLabel: {
      fontSize: 14,
      rotate: 60,  // 라벨을 45도 기울임
      interval: 0 // 모든 항목 출력 (스크롤 지원에 필수)
    }
  },
  yAxis: {  // y축 설정
    name: '판매량',
    nameTextStyle: {
      fontSize: 14,
      fontWeight: 'bold'
    },
    type: "value",
    interval: 100000  // 10 단위 간격 설정
  },
  series,
  dataZoom: [
    {
      type: 'slider',
      show: true,
      xAxisIndex: 0,
      start: 0,
      end: xLabels.length > 20 ? 50 : 100
    }
  ],
  graphic: [
    {
      type: 'text',
      left: 'left',
      bottom: '20',   // 'bottom'은 grid 바깥 기준이므로, 그래프 아래 적당한 픽셀 위치로 설정
      left: '70',   // 좌측 여백을 설정합니다.
    }
  ]
};

3. 그래프의 출력 결과는 아래와 같습니다.

bazel / Gradle / Maven / Ant

aimler 2025. 5. 7. 08:42

2025. 5. 7. 08:42

빌드 도구들에 대해서 간략하게 비교/설명하겠습니다.

오픈 소스 빌드 도구
DSL(Domain Specific Language) 기반 빌드 스크립트 사용: Groovy 또는 Kotlin
의존성 관리, 멀티 프로젝트 지원, 캐싱, 병렬 처리 등 고급 기능 제공
Android Studio의 공식 빌드 시스템

🔁 다른 빌드 도구와의 비교

특징	bazel	Gradle	Maven	Ant
출시 시기	2015	2012	2004	2000
스크립트 언어	Starlark (Python 유사)	Groovy / Kotlin DSL	XML	XML
특징	Google 개발. 대규모 프로젝트에 최적화	빠르고 유연함. Android 공식 빌드 도구	Ant보다 구조화됨. 의존성 관리 도입	최초의 자바 빌드 도구. 절차적(명령형) 방식
의존성 관리	별도 WORKSPACE 설정 필요	지원 (Maven repository 사용)	지원	부분적 (외부 도구 필요)
생산성	(정적 분석 기반 캐시), 뛰어난 병렬 빌드, 고급 원격 캐시 지원, 매우 빠른 속도	캐싱, 병렬 빌드로 빠름	느림 (모든 작업 재실행)	사용자가 다 수동으로 정의해야 함
구성 방식	선언형, 정형화된 규칙, 코드 재사용성 높음(규칙과 매크로)	선언적 + 명령형 코드 재사용성 높음(스크립트 로직)	선언적	명령형
플러그인 시스템	제한적 (JetBrains IDE 플러그인 필요)	매우 유연함	제한적	제한적
사용 예	Google 내부, TensorFlow, 대규모 모노레포	Android, Java, Kotlin, Spring Boot	Java, Spring Boot	구버전 Java 프로젝트, 빌드 자동화
요약	빠르고 강력하나 진입 장벽이 높음	현대적이고 유연하며 성능도 우수. JVM 기반 프로젝트에 거의 최적.	표준화된 구조, 배우기 쉬움. 단, 유연성이 떨어짐.	너무 구식, 거의 사용되지 않음. 학습 용도로는 괜찮지만 실전에서는 비추천.

💡 Gradle의 장점

속도: 증분 빌드, 데몬 프로세스, 병렬 빌드 등으로 빠름
확장성: 플러그인을 쉽게 추가 가능 (application, java, android 등)
유연한 빌드 스크립트: Groovy 또는 Kotlin을 활용하여 복잡한 로직도 작성 가능
IDE 통합성: IntelliJ, Android Studio 등과 완벽한 통합

📂 예시 (Gradle build.gradle 파일 - Groovy)

plugins {
    id 'java'
}

group = 'com.example'
version = '1.0'

repositories {
    mavenCentral()
}

dependencies {
    implementation 'org.springframework.boot:spring-boot-starter'
    testImplementation 'junit:junit:4.13.2'
}

🤔 언제 Gradle을 선택해야 할까?

Android 개발을 한다면 무조건 Gradle
복잡한 멀티 모듈 프로젝트가 있다면 Gradle이 더 유리
유연한 빌드 로직이 필요할 때 Gradle 추천
단순하고 정적인 빌드 구조를 원한다면 Maven도 괜찮음

웹 기반 Query 테스트 솔루션 소개

aimler 2025. 4. 20. 11:06

2025. 4. 20. 11:06

1. Adminer (가볍고 간편한 PHP 기반)

특징: 단일 adminer.php 파일로 구성된 초경량 SQL 관리 도구
지원 DB: MySQL, PostgreSQL, SQLite, MS SQL 등
설치: PHP + 웹서버(IIS 또는 Apache)만 있으면 바로 사용 가능
장점: 매우 빠르고 간단, 보안 업데이트 잘됨

👉 공식 사이트: https://www.adminer.org/

Adminer - Database management in a single PHP file

phpMyAdmin , it consist of a single file ready to deploy to the target server. --> Adminer is available for: MySQL, MariaDB, PostgreSQL, CockroachDB, SQLite, MS SQL, Oracle. Others can be added via plugin: Elasticsearch, SimpleDB, MongoDB, Firebird, Clickh

www.adminer.org

설치 예시:

PHP 설치 (윈도우용 XAMPP, WampServer 또는 IIS + PHP)
웹 루트에 adminer.php 파일 복사
브라우저에서 접속 → DB 로그인 → 쿼리 실행 가능

2. phpMyAdmin (전통적인 웹기반 MySQL 관리자)

특징: 가장 널리 쓰이는 MySQL 웹 인터페이스
지원 기능: 쿼리 실행, 테이블 관리, import/export, 권한 설정 등
설치: PHP + MySQL 환경 필요 (XAMPP, WampServer 등으로 가능)
장점: 풍부한 기능, 다국어 지원, 사용자 계정 관리

👉 공식 사이트: https://www.phpmyadmin.net/

phpMyAdmin

Your download should start soon, if not please click here. Please verify the downloaded file Please take additional steps to verify that the file you have downloaded is not corrupted, you can verify it using the following methods: phpMyAdmin needs your con

www.phpmyadmin.net

3. SQLPad (Node.js 기반의 쿼리 에디터)

특징: 웹 기반 SQL 에디터, 쿼리 저장, 시각화도 가능
설치: Node.js 필요
지원 DB: MySQL, PostgreSQL, SQLite, MSSQL, Presto 등
장점: 팀 단위 쿼리 저장, 쿼리 공유 등 협업에 유리

👉 GitHub: https://github.com/sqlpad/sqlpad

GitHub - sqlpad/sqlpad: Web-based SQL editor. Legacy project in maintenance mode.

Web-based SQL editor. Legacy project in maintenance mode. - sqlpad/sqlpad

github.com

🔄 비교 요약

이름	기술 스택	설치 난이도	주요 장점
Adminer	PHP	매우 쉬움	가볍고 빠름, 단일 파일
phpMyAdmin	PHP	쉬움	전통적 인터페이스, 기능 풍부
SQLPad	Node.js	보통	쿼리 저장/공유, 시각화 가능

LLM을 훈련하고 활용하기 위해 알아야할 핵심 라이브러리

aimler 2025. 4. 10. 15:13

2025. 4. 10. 15:13

⭐PyTorch / TensorFlow
◦ 용도: 모델 훈련, 미분 계산, 텐서 연산
◦ [PyTorch]
• 직관적이고 디버깅이 쉬워 LLM 연구와 실험에 널리 사용됨
• Hugging Face와의 연동도 뛰어남
◦ [TensorFlow]
• 구글 생태계(GCP, TFX 등)와 잘 통합되며, 대규모 배포에 적합
• 최근에는 PyTorch보다 덜 사용됨

Hugging Face ⭐Transformers
◦ 용도: 사전학습된 LLM 모델 불러오기, fine-tuning, inference
• 사전학습된 모델 (GPT, BERT, T5, LLaMA 등)을 쉽게 사용할 수 있게 해주는 라이브러리
• 학습/추론에 필요한 tokenizer, 모델 구조, config 등을 자동으로 관리
• 텍스트 생성, 분류, QA, 요약 등 다양한 작업에 최적화된 pipeline 제공

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("gpt2")

inputs = tokenizer("Hello, my name is", return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0]))

Datasets (Hugging Face Datasets)
◦ 용도: 대규모 데이터셋 로딩, 전처리, 분할
• 데이터셋을 빠르고 효율적으로 불러오고 사용할 수 있도록 지원
• 대용량 파일도 메모리에 무리 없이 스트리밍 처리 가능
◦ Hugging Face Hub에서 바로 불러올 수 있음

from datasets import load_dataset

dataset = load_dataset("wikitext", "wikitext-2-raw-v1")
print(dataset["train"][0])

Accelerate / DeepSpeed / bitsandbytes
◦ 용도: 대규모 모델 훈련 시 하드웨어 최적화, 메모리 절약
•    Accelerate: 다양한 하드웨어(CPU, GPU, TPU)에 맞게 모델 학습 코드 자동 조정
•    DeepSpeed: 마이크로소프트에서 만든 초대형 모델 훈련 최적화 툴
•    bitsandbytes: 8bit/4bit 양자화 학습 및 추론 지원 → 적은 메모리로 대형 모델 사용 가능
PEFT (Parameter-Efficient Fine-Tuning)
◦ 용도: LLM을 빠르고 저렴하게 파인튜닝 (LoRA, Prefix Tuning 등)
• 기존 LLM 전체가 아닌 일부 파라미터만 훈련해서 훨씬 적은 자원으로 fine-tuning 가능
• 대표 기법: LoRA (Low-Rank Adaptation)

from peft import LoraConfig, get_peft_model

⭐Tokenizers
◦ 용도: LLM에 입력될 텍스트를 토큰 단위로 인코딩
• Hugging Face의 tokenizers는 빠르고 확장성 높은 토크나이저
• Byte-Pair Encoding (BPE), WordPiece, SentencePiece 등 다양한 방식 지원
⭐LangChain / ⭐LlamaIndex
◦ 용도: LLM 응용 프로그램 구축 (질의 응답, RAG, 에이전트 등)
• LangChain: 다양한 LLM, 데이터 소스, 도구를 연결해 에이전트처럼 동작하게 함
• LlamaIndex: 사용자 문서를 LLM에 연결해 QA 시스템 구축에 유용 (RAG)
WandB / TensorBoard
◦ 용도: 모델 학습 과정 모니터링, 로그 기록, 하이퍼파라미터 튜닝
• 실험 추적 및 시각화를 위한 필수 툴
• 학습 정확도, 손실값, GPU 메모리 사용량 등 확인 가능
부가적으로 알아두면 좋은 라이브러리

라이브러리	기능
scikit-learn	전통적인 ML 도구, 평가 지표 등
OpenLLM	LLM 모델 배포에 특화된 프레임워크
fastapi	API 서버를 빠르게 만들어 추론 시스템화
pandas, numpy	데이터 전처리 및 분석
torchtext	텍스트 데이터셋 처리 도구

꼭 알아야 할 핵심 세트

범주	라이브러리
모델/훈련	PyTorch, transformers
데이터	datasets, tokenizers
최적화	accelerate, deepspeed, bitsandbytes, peft
응용	LangChain, LlamaIndex
실험 관리	wandb, tensorboard

LlamaIndex에 대한 설명

aimler 2025. 4. 7. 17:19

2025. 4. 7. 17:19

LlamaIndex는 **언어 모델(LLM)**과 **외부 데이터(문서, DB 등)**를 연결해주는 데이터 프레임워크입니다.

• LlamaIndex = LLM + 외부 데이터 연결을 쉽게 만들어주는 도구

LLM은 자체적으로 인터넷이나 PDF, 데이터베이스 같은 구조화되지 않은 데이터에 접근할 수 없습니다. LlamaIndex는 이런 데이터들을 정리하고 쪼개고 인덱싱해서, LLM이 쉽게 "질문-답변", "요약", "검색 기반 생성(RAG)" 등을 할 수 있게 도와주는 라이브러리입니다.

• LlamaIndex가 할 수 있는 작업

◦ 문서 로딩 : PDF, Word, HTML, Notion, Airtable 등 다양한 형식의 문서를 읽어옴

◦ Chunking : 문서를 적절한 크기로 나눔 (LLM이 다루기 쉽게)

◦ Embedding + Indexing : 문서를 벡터화하고 검색 가능한 인덱스를 만듦

◦ Query Engine : 사용자 질문을 받아서 적절한 문서 찾고 답변 생성

• 주요 예시

from llama_index import VectorStoreIndex, SimpleDirectoryReader

# 문서 로딩
documents = SimpleDirectoryReader("data/").load_data()

# 인덱스 생성 (벡터화 포함)
index = VectorStoreIndex.from_documents(documents)

# 질의 엔진 생성
query_engine = index.as_query_engine()

# 질의
response = query_engine.query("이 회사의 수익 모델은 무엇인가요?")
print(response)

• 핵심 구성 요소

    ◦ Document : 원본 텍스트 데이터
    ◦ Node : 문서에서 쪼갠 텍스트 블록 (보통 하나의 파라그래프 단위)
    ◦ Index : 벡터 기반 검색 인덱스 (FAISS, Chroma 등 지원)
    ◦ Query Engine : 질의 → 검색 → 응답 생성 파이프라인
    ◦ Retriever : 관련 문서를 찾는 부분
    ◦ Response Synthesizer : 관련 문서들을 종합해서 답변 생성

• 사용 목적

    ◦ 내 회사 문서를 기반으로 GPT 질의 응답
    ◦ PDF 논문 요약
    ◦ SQLite, Notion, Airtable 등 다양한 데이터 연결
    ◦ RAG (Retrieval-Augmented Generation)

회귀 분석 - Regression analysis

aimler 2025. 3. 28. 09:19

2025. 3. 28. 09:19

기본적으로, Regression analysis (회귀 분석)은 몇 개의 독립변수 (예 : 배경음악)를 처리하는 과정이 반드시 필요하며, 그 이유는 독립변수가 종속변수 (예 : 가게에 머무는 시간)에 어떤 영향을 끼치는 지 알아보고자 하기 때문입니다.
이는 독립변수가 변화함에 따라서, 종속변수 값이 어떻게 변화하는지를 묘사합니다.
회귀분석은 몸무게, 속도, 또는 나이와 같은 연속 수치 값으로 분석했을 때 최상의 결과를 도출해낼 수 있습니다.
일반 적인 회귀 분석의 활용
- 고객 만족도와 고객 충성도와의 관계를 도출할 수 있음.
- 이웃 주민과 그 규모가 주택 가격에 어떤 영향을 주는지를 확인할 수 있음
- 점포와 역 사이의 거리가 멀면 멀수록 매출이 오르는지 내리는지 혹은 별다른 관계가 없는지
  오른다면 대충 얼마 정도가 오르는지를 알아내어 수익 향상법을 찾아낼 수 있음
FPS 게임에서의 회귀분석 활용 사례
1. 플레이어 행동 예측
  - 회귀 분석을 사용하여 특정 플레이어 행동(예: 이동 패턴, 슈팅 정확도, 명중률 등)을 예측할 수 있습니다. 이를 통해 플레이어의 행동을 이해하고, 게임 디자인 또는 AI 개발에 활용할 수 있습니다.
2. 게임 밸런스 조정
  - 회귀 분석을 사용하여 게임의 밸런스를 평가하고 조정할 수 있습니다. 예를 들어, 특정 무기나 아이템의 사용 빈도와 승률 간의 관계를 조사하여 게임의 균형을 개선하는 데 도움이 될 수 있습니다.
3. 플레이어 리텐션 분석
  - 회귀 분석을 사용하여 특정 이벤트 또는 게임 요소와 플레이어 리텐션 간의 관계를 조사할 수 있습니다. 이를 통해 어떤 요소가 플레이어를 유지하거나 이탈시키는지 이해하고, 이를 개선하는 방안을 모색할 수 있습니다.
4. 매치메이킹 및 승률 예측
  - 회귀 분석을 사용하여 특정 매치 조합이나 팀 구성과 승률 간의 관계를 분석할 수 있습니다. 이를 통해 매치메이킹 시스템을 개선하거나 플레이어에게 더 공평한 경기를 제공할 수 있습니다.
5. 경제 시스템 분석
  - 게임 내 경제 시스템과 관련된 데이터를 회귀 분석하여 아이템 가격 조정이나 경제 균형을 조절하는 데 도움을 줄 수 있습니다.
주식 시장에 회귀분석 활용 사례
1. 블랙 스완 이벤트 탐지
  - 시장 폭락(crash)이나 급등(rally)과 같은 극단적인 가격 변동 감지
  - 경제 위기(예: 2008년 금융위기) 또는 특정 산업의 붕괴 예측
  - 특정 기업의 파산 가능성 조기 경고
2. 이상거래 탐지
  - 비정상적인 거래량 급증 또는 대량 매수/매도 탐지
  - 특정 계좌에서 반복적으로 발생하는 이상 거래 패턴 분석
  - 내부자 거래 및 시장 조작 가능성 탐지
3. 저평가 종목 발굴
  - 시장에서 과소평가된 희귀한 기회 탐색
  - 특정 조건에서만 나타나는 비정상적인 수익률 패턴 감지
  - 벤치마크 대비 이례적으로 낮은 변동성을 보이는 종목 식별
4. 고수익 투자전략 개발
  - 고빈도 트레이딩(HFT)에서 특정 희귀 이벤트를 활용한 전략
  - 옵션 시장에서 극단적인 변동성을 이용한 투자 기법
  - 특정 마켓 메이커의 유동성 공급 패턴 분석
5. 뉴스 및 소셜 미디어 분석
  - 특정 종목 또는 산업에 대한 희귀한 키워드 감지하여 가격 변동 예측
  - 감성 분석(Sentiment Analysis)을 통한 극단적인 시장 반응 탐지
  - 주요 CEO의 발언이나 기업 공시 중 비정상적인 정보 변화 탐지

ACME란?

aimler 2025. 3. 8. 21:37

2025. 3. 8. 21:37

🔹 ACME(Automated Certificate Management Environment)란?

ACME(Automated Certificate Management Environment)는 SSL/TLS 인증서를 자동으로 발급, 갱신, 폐기할 수 있도록 설계된 프로토콜입니다.

Let's Encrypt에서 처음 개발했지만, 이제는 다른 CA(Certificate Authority, 인증 기관)에서도 지원하고 있어. 대표적으로 Let's Encrypt, ZeroSSL, Buypass 등이 ACME를 사용해서 SSL 인증서를 자동화할 수 있도록 제공합니다.

🔹 ACME의 주요 기능

✅ 인증서 자동 발급
✅ 도메인 소유권 검증(DNS, HTTP 등)
✅ 자동 갱신 (SSL 인증서가 만료되기 전에 자동으로 갱신 가능)
✅ 인증서 폐기 및 취소 지원

🔹 ACME 작동 방식 (간단한 과정)

클라이언트가 인증서 요청
- ACME 클라이언트(예: Certbot)가 CA(인증 기관) 서버에 SSL 인증서를 요청함.
도메인 소유권 검증
- CA는 요청한 도메인이 실제로 사용자의 것인지 확인하기 위해 검증을 수행함.
- 검증 방식: HTTP 파일 인증, DNS TXT 레코드 인증 등이 있음.
SSL 인증서 발급
- 도메인 소유권이 확인되면 CA가 SSL 인증서를 발급해줌.
자동 갱신
- 일정 기간(예: 90일)이 지나면 ACME 클라이언트가 자동으로 인증서를 갱신함.

🔹 ACME를 지원하는 주요 클라이언트(도구)

클라이언트특징

클라이언트	특징
Certbot	가장 널리 사용됨, Let's Encrypt 공식 추천
acme.sh	가볍고 빠른 셸 스크립트 기반 ACME 클라이언트
LEGO	Go 언어 기반, 다양한 환경에서 사용 가능
Caddy	자동 SSL 관리 기능 내장 (ACME 지원)

🔹 ACME를 활용한 SSL 발급 예제 (Certbot 사용)

🔧 Let's Encrypt에서 무료 SSL 인증서 발급 (Nginx 기준)

sudo apt install certbot python3-certbot-nginx
sudo certbot --nginx -d yourdomain.com -d www.yourdomain.com

이 명령어를 실행하면 ACME 프로토콜을 사용하여 자동으로 도메인 소유권을 확인하고 SSL 인증서를 설치해 주어야 함.

🔹 결론

ACME는 SSL 인증서를 자동으로 발급 및 갱신하는 프로토콜.
Let's Encrypt, ZeroSSL, Buypass 같은 무료 SSL 제공 업체에서 사용됨.
Certbot, acme.sh(acme.sh-github) 같은 클라이언트를 사용하면 쉽게 설정 가능.

자동 SSL 인증서를 설정하려고 한다면, 사용 중인 웹 서버(Apache, Nginx)나 환경을 알려주면 더 자세히 도와줄 수 있습니다.

무료 SSL 인증서 발급 사이트 및 방법 요약

aimler 2025. 3. 8. 21:29

2025. 3. 8. 21:29

🔹 1. Let's Encrypt (가장 많이 사용됨)

✅ 특징:

무료로 90일 동안 유효한 SSL 인증서 제공
자동 갱신 가능 (Certbot 사용)
대부분의 웹 서버(Apache, Nginx 등)와 호환됨

🔧 발급 방법 (Certbot 사용):

1. Certbot 설치

sudo apt update && sudo apt install certbot python3-certbot-nginx

2. SSL 인증서 발급 (Nginx 기준)

sudo certbot --nginx -d yourdomain.com -d www.yourdomain.com

3. 자동 갱신 설정

sudo certbot renew --dry-run

4. 웹 서버 재시작

sudo systemctl restart nginx

🔹 2. ZeroSSL

✅ 특징:

90일 무료 SSL 인증서 제공 (3개월마다 갱신 필요)
발급 과정이 GUI 기반이라 초보자도 쉽게 사용 가능
ACME 프로토콜 지원 (Certbot과 유사하게 자동 갱신 가능)

🔧 발급 방법:

ZeroSSL 공식 사이트에 접속하여 회원가입
"New Certificate" 클릭 후 도메인 입력
인증 방법 선택 (DNS, HTTP 파일 업로드 등)
SSL 인증서 다운로드 및 서버에 적용
갱신이 필요할 때 같은 과정 반복 (자동 갱신을 원하면 ACME 사용)

🔹 3. Cloudflare SSL

✅ 특징:

무료 플랜에서도 SSL 지원 (유효기간 무제한)
Cloudflare CDN과 함께 사용 가능
서버에 직접 인증서를 설치하지 않아도 됨 (클라우드 기반)

🔧 발급 방법:

Cloudflare 가입 후 사이트 추가
네임서버를 Cloudflare로 변경 (도메인 업체에서 설정)
"SSL/TLS" 설정에서 "Flexible" 또는 "Full" 선택
Cloudflare를 통해 HTTPS 적용 완료

🔹 4. Buypass Go SSL

✅ 특징:

180일(6개월)짜리 무료 SSL 인증서 제공
ACME 클라이언트를 사용하여 자동 발급 가능
Let's Encrypt와 유사한 방식

🔧 발급 방법:

ACME 클라이언트(Certbot 등)를 사용하여 SSL 신청
다음 명령어 실행 (Nginx 기준)

sudo certbot --server "https://api.buypass.com/acme/directory" -d yourdomain.com

3. 발급된 인증서를 서버에 적용

🔹 비교 요약

서비스유효기간자동 갱신주요 특징

서비스	유효기간	자동 갱신	주요 특징
Let's Encrypt	90일	✅	가장 널리 사용됨, Certbot으로 자동 갱신 가능
ZeroSSL	90일	✅ (ACME 사용)	GUI 기반으로 발급 가능
Cloudflare SSL	무제한	✅	네임서버 변경 필요, 서버에 직접 설치 필요 없음
Buypass Go SSL	180일	✅	6개월짜리 인증서, Certbot 사용 가능

LoRA를 활용한 GPT-2 미세 조정 코드

aimler 2025. 3. 7. 17:58

2025. 3. 7. 17:58

아래 코드는 Hugging Face의 transformers, peft를 사용하여 GPT-2 모델을 LoRA로 미세 조정하는 예제입니다.

✅ 필요한 패키지 설치

먼저 필요한 라이브러리를 설치합니다.

pip install torch transformers datasets peft accelerate

📌 Python 코드: LoRA를 이용한 GPT-2 미세 조정

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model
from datasets import load_dataset

# 1️⃣ 모델 및 토크나이저 불러오기
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 2️⃣ LoRA 설정
lora_config = LoraConfig(
    r=8,  # LoRA 랭크 (낮을수록 연산량 감소)
    lora_alpha=16,  # LoRA 스케일링 계수
    target_modules=["c_attn", "c_proj"],  # 적용할 모델의 특정 레이어
    lora_dropout=0.1,  # 드롭아웃 비율
    bias="none",
)

# 3️⃣ LoRA 적용
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()  # 학습 가능한 파라미터 확인

# 4️⃣ 데이터셋 로드 및 전처리 (예제: Hugging Face "wikitext" 데이터)
dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets = tokenized_datasets.shuffle().select(range(1000))  # 데이터 샘플링

# 5️⃣ 학습 설정
training_args = TrainingArguments(
    output_dir="./lora-gpt2-model",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=5e-4,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
)

# 6️⃣ Trainer 객체 생성 및 학습 시작
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets,
)

trainer.train()

# 7️⃣ LoRA 모델 저장
model.save_pretrained("./lora-gpt2-model")
tokenizer.save_pretrained("./lora-gpt2-model")

print("🎉 LoRA 학습 완료 및 저장 완료!")

🔹 코드 설명

1️⃣ GPT-2 모델과 토크나이저 로드
2️⃣ LoRA 설정

r=8: LoRA 랭크(낮을수록 메모리 사용량 감소)
lora_alpha=16: 학습할 가중치 크기 조정
target_modules=["c_attn", "c_proj"]: LoRA 적용할 Transformer 레이어 선택
3️⃣ LoRA 적용 및 학습 가능한 파라미터 확인
4️⃣ Hugging Face 데이터셋 로드 및 전처리
5️⃣ 훈련 하이퍼파라미터 설정 (Trainer 사용)
6️⃣ 모델 학습 진행 (trainer.train())
7️⃣ 학습된 모델 저장

🔹 결과 및 활용

✅ 원본 GPT-2 모델을 수정하지 않고 LoRA를 활용해 미세 조정
✅ 메모리를 절약하면서 특정 도메인(예: 위키텍스트)에 맞춘 GPT-2 생성 모델 학습 가능
✅ 학습된 LoRA 모델을 저장하고 다시 불러와 사용 가능

🎯 이렇게 하면 LoRA를 사용하여 특정 데이터셋에 최적화된 GPT-2 모델을 만들 수 있습니다! 🚀

LoRA(Low-Rank Adaptation)란?

aimler 2025. 3. 7. 17:56

2025. 3. 7. 17:56

🔹 LoRA(Low-Rank Adaptation)란?

LoRA(Low-Rank Adaptation)는 대형 딥러닝 모델을 효율적으로 미세 조정(fine-tuning)하는 방법입니다.
기존 모델의 전체 가중치를 업데이트하는 대신, 저차원 행렬(rank가 낮은 행렬)을 추가하여 학습량을 줄이고 성능을 유지하는 방식입니다.

1️⃣ LoRA가 필요한 이유

✅ 1. 대형 모델의 학습 비용이 너무 큼

GPT, Stable Diffusion 같은 대형 모델은 **수십억 개의 가중치(파라미터)**를 가짐.
전체 모델을 미세 조정하려면 엄청난 계산량과 GPU 메모리가 필요함.

✅ 2. 기존 모델을 유지하면서 새로운 기능 추가

원래 모델의 성능을 유지하면서, 특정 작업이나 스타일에 맞게 조정할 필요가 있음.
LoRA는 원본 모델을 수정하지 않고 추가적인 가중치만 적용하여 이런 요구를 충족함.

2️⃣ LoRA의 원리

LoRA는 기존 모델의 특정 가중치 행렬(예: Transformer의 W_q, W_v)을 직접 업데이트하지 않고,
대신 저차원 행렬(A, B)을 추가하여 모델을 조정하는 방식입니다.

🔸 기존 방법: 일반적인 Fine-Tuning

모든 가중치 θ\theta를 업데이트해야 함.

θ=θ−α⋅∇L(θ)\theta = \theta - \alpha \cdot \nabla L(\theta)

💡 문제점: 전체 가중치를 업데이트하므로 연산량과 메모리 사용량이 큼.

🔹 LoRA 방식: 저차원 행렬 추가

기존 가중치 WW 대신, 작은 행렬 A,BA, B를 추가하여 학습.

W′=W+ABW' = W + AB

A: 작은 차원의 행렬 (예: 4096×4)
B: 더 작은 차원의 행렬 (예: 4×4096)

💡 장점:
✅ 메모리 절약 – 전체 모델을 수정하지 않으므로 GPU 메모리 사용량이 적음.
✅ 빠른 학습 – 필요한 가중치만 업데이트하므로 계산량이 줄어듦.
✅ 원본 모델 유지 – 모델 전체를 바꾸지 않고 필요한 기능만 추가 가능.

3️⃣ LoRA의 활용 분야

LoRA는 다양한 분야에서 대형 모델을 특정 목적에 맞게 조정하는 데 사용됩니다.

🔹 1. 이미지 생성 (Stable Diffusion)

특정 캐릭터, 화풍, 스타일을 반영한 모델을 학습하는 데 사용됨.
예: 애니메이션 스타일 LoRA, 실사풍 LoRA 등.
원본 Stable Diffusion 모델을 유지하면서 추가 학습 가능.

🔹 2. 텍스트 생성 (GPT, LLaMA 등)

특정 도메인(예: 법률, 의학)에 맞는 답변을 더 잘하도록 조정 가능.
ChatGPT의 성능을 유지하면서, 특정 기업용 챗봇으로 최적화 가능.

🔹 3. 음성 합성 (TTS)

특정 인물의 목소리를 학습하여 더 자연스럽게 음성을 생성할 수 있음.
예: 성우의 목소리를 반영한 AI 보이스 생성.

4️⃣ LoRA vs 기존 Fine-Tuning 방법

비교 항목기존 Fine-TuningLoRA

메모리 사용량	큼	적음
연산량	높음	낮음
훈련 속도	느림	빠름
원본 모델 유지	❌ 불가능 (덮어씌움)	✅ 가능 (가중치 추가)
저장 용량	모델 전체 저장 필요	추가 가중치만 저장

💡 LoRA는 기존 Fine-Tuning보다 훨씬 가볍고 빠르며, 원본 모델을 보존할 수 있는 강점이 있음.

5️⃣ LoRA 적용 방법 (Stable Diffusion 예시)

만약 Stable Diffusion에서 LoRA 모델을 적용하고 싶다면 다음과 같은 과정을 거칩니다.

1️⃣ 기본 모델 다운로드

stable-diffusion-v1-5 같은 원본 모델을 가져옴.

2️⃣ LoRA 모델 학습

원하는 데이터(예: 특정 캐릭터 이미지)를 준비.
기존 모델을 수정하지 않고 LoRA 방식으로 학습 진행.

3️⃣ LoRA 모델 적용

LoRA 파일(예: .safetensors)을 불러와 원본 모델에 적용.
diffusers 라이브러리에서 load_lora_weights 같은 기능으로 불러오기 가능.

6️⃣ 결론: LoRA가 왜 중요한가?

✅ 저렴한 비용으로 대형 모델을 커스터마이징 가능
✅ 원본 모델을 수정하지 않고 새로운 기능 추가 가능
✅ 적은 데이터와 자원으로도 빠르게 미세 조정 가능
✅ 이미지 생성, 텍스트 생성, 음성 합성 등 다양한 분야에서 활용 가능

LoRA는 대형 AI 모델을 더 효율적이고 실용적으로 활용할 수 있게 해주는 강력한 기술입니다! 🚀

Python의 enum 사용법

aimler 2025. 3. 7. 15:40

2025. 3. 7. 15:40

1. 기본적인 Enum 사용법

Enum을 사용하면 관련된 상수들을 그룹화할 수 있습니다.

from enum import Enum

class Color(Enum):
    RED = 1
    GREEN = 2
    BLUE = 3

print(Color.RED)       # Color.RED
print(Color.RED.value) # 1
print(Color.RED.name)  # 'RED'

2. 자동 값 할당 (auto)

값을 직접 지정하지 않고 자동으로 할당할 수 있습니다.

from enum import Enum, auto

class Status(Enum):
    # auto()는 자동으로 1부터 시작하는 정수 값을 할당합니다.
    PENDING = auto()
    IN_PROGRESS = auto()
    COMPLETED = auto()

print(Status.PENDING.value)  # 1
print(Status.IN_PROGRESS.value)  # 2
print(Status.COMPLETED.value)  # 3

3. 열거형 순회

Enum은 이터러블(iterable)이라서 루프를 돌면서 접근할 수 있습니다.

for color in Color:
    print(color.name, color.value)

# 출력
RED 1
GREEN 2
BLUE 3

4. 문자열 매핑 (Enum을 딕셔너리처럼 활용)

열거형을 사용하면 문자열을 특정 값으로 쉽게 변환할 수 있습니다.

class Role(Enum):
    ADMIN = "admin"
    USER = "user"
    GUEST = "guest"

role = Role["ADMIN"]  # 문자열 키로 접근
print(role.value)  # "admin"

5. 열거형 비교

Enum 값은 동일성(is)과 동등성(==) 비교가 가능합니다.

if role == Role.ADMIN:
    print("관리자입니다.")  # 출력됨

6. 딕셔너리 키로 사용

Enum 값은 해시 가능하므로 딕셔너리의 키로 사용할 수 있습니다.

permissions = {
    Role.ADMIN: "모든 권한",
    Role.USER: "일반 권한",
    Role.GUEST: "읽기 전용"
}

print(permissions[Role.ADMIN])  # "모든 권한"

7. Mixin을 활용한 커스텀 기능 추가

메서드를 포함하여 더 복잡한 Enum을 만들 수도 있습니다.

class ExtendedEnum(Enum):
    @classmethod
    def list(cls):
        return [item.name for item in cls]

class Animal(ExtendedEnum):
    DOG = 1
    CAT = 2
    BIRD = 3

print(Animal.list())  # ['DOG', 'CAT', 'BIRD']

8. IntEnum을 활용한 숫자 Enum

IntEnum을 사용하면 숫자 기반 Enum을 다른 정수와 함께 사용할 수 있습니다.

from enum import IntEnum

class Priority(IntEnum):
    LOW = 1
    MEDIUM = 2
    HIGH = 3

print(Priority.LOW < Priority.HIGH)  # True
print(Priority.LOW + 1)  # 2

9. 플래그(Flag) Enum을 활용한 비트 연산

비트 플래그를 활용할 때 Flag 또는 IntFlag를 사용할 수 있습니다.

비트 연산을 활용하면 권한 시스템을 만들 때 유용합니다.

from enum import Flag, auto

class Permission(Flag):
    READ = auto()
    WRITE = auto()
    EXECUTE = auto()

perm = Permission.READ | Permission.WRITE
print(perm)  # Permission.READ|WRITE

# 특정 권한 포함 여부 확인
print(Permission.READ in perm)  # True
print(Permission.EXECUTE in perm)  # False

Grafana, MySQL 변수에 따른 선택적 검색 조건 사용 예시

aimler 2025. 3. 7. 10:18

2025. 3. 7. 10:18

Grafana의 대시보드에 2개의 변수를 생성하였습니다.

[종목명/코드]에 입력된 값을 [검색 구분]의 선택값에 따라 서로 다른 컬럼을 검색하는 쿼리 입니다.

where 절에 case when으로 조건을 지정할 수 있습니다.

select stock_code, stock_name, stock_type, last_collect_event_date
from tbl_coporation_info_kor
where (case when '$search_type' = '종목코드' then stock_code = '$search_code'
        else stock_name like '%$search_code%' end)
limit 100;

위 쿼리는 동작은 되지만 실행계획을 보면 stock_code, stock_name에 해당하는 index가 존재하지만 table scan이 발생합니다.

🔹 인덱스를 사용하도록 개선된 코드

select stock_code, stock_name, stock_type, last_collect_event_date
from tbl_coporation_info_kor
where ('$search_type' = '종목코드' and stock_code = '$search_code')
    or ('$search_type' = '종목명' and stock_name like '%$search_code%')
limit 100;

실행계획을 확인해 보면 인덱스를 이용하고 있습니다.

MySQL 쿼리창의 변수의 Collation 확인 및 수정 방법

aimler 2025. 3. 6. 16:35

2025. 3. 6. 16:35

🔹 COLLATION() 함수 사용

set @stock_code := '996161';
SELECT COLLATION(@stock_code);

✅ 결과 예시:

🔹 CHARSET() 함수 사용

set @stock_code := '996161';
SELECT CHARSET(@stock_code);

✅ 결과 예시:

🔹 변수의 Collaton 과 컬럼의 Collation이 다를 경우의 처리 방법

일반적인 변수 선언

set @stock_code := '1177851';
SELECT COLLATION(@stock_code);

Collation을 지정하여 선언

set @stock_code := '1177851' collate utf8mb4_0900_ai_ci;
SELECT COLLATION(@stock_code);

Convert를 사용하여 변환

set @stock_code := convert('1177851' using utf8mb4);
SELECT COLLATION(@stock_code);

PREV 이전 1 2 NEXT 다음

📌 1. ClickHouse란 무엇인가?

📌 2. ClickHouse vs MySQL 비교

요약하면

📌 3. ClickHouse vs DuckDB 차이점

가장 중요한 차이

📌 4. 어떤 상황에 어떤 DB를 써야 하는가?

🔥 ClickHouse 추천 상황

🐤 DuckDB 추천 상황

🐬 MySQL 추천 상황

📌 5. 로그 분석을 기준으로 한 선택 가이드

📌 최종 요약

ClickHouse

MySQL

DuckDB

1) “편차(deviation)”는 무엇인가?

✔ 편차는 **평균이 일정한 데이터(정상성)**라는 전제를 필요로 한다

2) “잔차(residual)”는 무엇인가?

✔ 잔차는 데이터에서 비정상성(트렌드·계절성)을 제거한 상태가 된다

3) 편차는 언제 사용하는가?

4) 잔차를 쓰면 좋은 점

5) 핵심 결론

이유

Grafana에서 Business Charts를 사용할 때 Tooltip에 표시되는 내용을 정렬하는 방법을 설명드리겠습니다.

Grafana에서 서드파티 차트중 Business Charts를 사용하는 방법을 알려드리겠습니다.

빌드 도구들에 대해서 간략하게 비교/설명하겠습니다.

💡 Gradle의 장점

1. Adminer (가볍고 간편한 PHP 기반)

설치 예시:

2. phpMyAdmin (전통적인 웹기반 MySQL 관리자)

3. SQLPad (Node.js 기반의 쿼리 에디터)

🔹 ACME(Automated Certificate Management Environment)란?

🔹 ACME의 주요 기능

🔹 ACME 작동 방식 (간단한 과정)

🔹 ACME를 지원하는 주요 클라이언트(도구)

🔹 ACME를 활용한 SSL 발급 예제 (Certbot 사용)

🔹 결론

🔹 1. Let's Encrypt (가장 많이 사용됨)

✅ 특징:

🔧 발급 방법 (Certbot 사용):

🔹 2. ZeroSSL

✅ 특징:

🔧 발급 방법:

🔹 3. Cloudflare SSL

✅ 특징:

🔧 발급 방법:

🔹 4. Buypass Go SSL

✅ 특징:

🔧 발급 방법:

🔹 비교 요약

✅ 필요한 패키지 설치

🔹 코드 설명

🔹 결과 및 활용

🔹 LoRA(Low-Rank Adaptation)란?

1️⃣ LoRA가 필요한 이유

✅ 1. 대형 모델의 학습 비용이 너무 큼

✅ 2. 기존 모델을 유지하면서 새로운 기능 추가

2️⃣ LoRA의 원리

🔸 기존 방법: 일반적인 Fine-Tuning

🔹 LoRA 방식: 저차원 행렬 추가

3️⃣ LoRA의 활용 분야

🔹 1. 이미지 생성 (Stable Diffusion)

🔹 2. 텍스트 생성 (GPT, LLaMA 등)

🔹 3. 음성 합성 (TTS)

4️⃣ LoRA vs 기존 Fine-Tuning 방법

5️⃣ LoRA 적용 방법 (Stable Diffusion 예시)

6️⃣ 결론: LoRA가 왜 중요한가?

1. 기본적인 Enum 사용법

2. 자동 값 할당 (auto)

3. 열거형 순회

4. 문자열 매핑 (Enum을 딕셔너리처럼 활용)

5. 열거형 비교

6. 딕셔너리 키로 사용

7. Mixin을 활용한 커스텀 기능 추가

8. IntEnum을 활용한 숫자 Enum

9. 플래그(Flag) Enum을 활용한 비트 연산

티스토리툴바

✔ 편차는 평균이 일정한 데이터(정상성)라는 전제를 필요로 한다