https://github.com/ggml-org/llama.cpp/issues/15130
llama-server를 실행할때 default reasoning_effort 값을 바꾸거나
--chat-template-kwargs '{"reasoning_effort": "high"}' 이걸 http request body에 넣는 해결책이 있는데 우아하지 않음
표준 인터페이스를 안따른다는 말인데.......
https://github.com/ggml-org/llama.cpp/issues/15130
llama-server를 실행할때 default reasoning_effort 값을 바꾸거나
--chat-template-kwargs '{"reasoning_effort": "high"}' 이걸 http request body에 넣는 해결책이 있는데 우아하지 않음
표준 인터페이스를 안따른다는 말인데.......