【讨论】端口与路径路由治理:背景、方案、待决事项与 P0 待办 #53
wochenlong
started this conversation in
General
Replies: 2 comments
-
|
@MikumikuDAIFans 你好,感谢整理 想请你和其他关心这块的同学一起看看:
端口只是项目里并行的一件事,其它线(训练、整合包、Anima 等)也会继续推进;这里主要是避免再反复踩端口/TB/监控错连的坑。谢谢 🙏 |
Beta Was this translation helpful? Give feedback.
0 replies
-
待确定事项表态1到6我全部认同,第7项仅作为再P0全部完成之前的临时策略(发布门禁) 执行计划分段简而言之:注册表先行,唯一外部入口稳定,再逐步内化子服务端口 P0-6 和 P0-7时注册表和端口内化的基石,在P0-7完成之前我们依然使用的是外部端口通信. P0-8 和 P0-9完整之后,确保唯一外部端口稳定,然后才开始推进端口内化 P0-10到P0-13都是逐步内化端口的任务,我个人认为延后至P1更好,在我们确保注册表和AutoDL 显式端口占用被失败机制这两项成功之后再去逐个击破注册表里的的端口 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
问题
lora-scripts-next 同时运行多个本地服务(主 WebUI、TensorBoard、训练监控、Dataset Tag Editor 等),在端口被占用、环境变量残留或前端硬编码子服务端口时,会出现:
6006的 API,页面报「无法连接 GUI API」但训练数据仍在同步;28000/6006/6008/28001等多个端口;该问题在多个版本迭代中反复出现,需要团队对齐目标架构与 P0 落地顺序,避免各自修补丁再次回归。
背景
lora-scripts分叉,保留 TensorBoard、Gradio 打标等子服务,并新增 训练监控(默认6008)。28000;子服务端口可通过gui.py参数与环境变量配置,占用时会 fallback。现有方案
A. 仓库内已落地(main,热修 / 部分 P0)
gui.py为已启用服务预留各自默认端口,减少 TensorBoard 抢占6008等/train-monitor,后端GET /train-monitor重定向到实际监控端口train_monitor/server.py探测 GUI API;失败记gui_warning,不阻断其它训练数据展示.cursor/rules/embedded-service-ports.mdc禁止前端硬编码127.0.0.1:6008等docs/design/ports/(不进 README 用户传送门)当前用户可见路径(与目标规范尚未完全一致):
/train-monitor、/tensorboard.html、/proxy/tensorboard/等。B. 团队设计文档(目标架构,待分期实现)
/monitor/、/tensorboard/、/tagger/)、服务注册表、健康检查方向摘要:用户只记一个
public_base_url(默认http://127.0.0.1:28000),子服务通过路径访问;运行时.runtime/services.json为唯一事实来源。需要确定的事项
请维护者 / 贡献者在回复中表态(可用 👍 / 评论编号):
/train-monitor、/proxy/tensorboard/等旧路径?services.json,不强制 P0 内切换到 281xx 内部端口池?/monitor/作为/train-monitor的别名(302),还是 P0 仍只用/train-monitor?--port/--gateway-port且端口被占用时,是否必须失败(禁止静默 fallback)?/tensorboard/反代:是否同意 P1,P0 仅保证/tensorboard.html与 proxy 可用?rg扫描用户入口中的127.0.0.1:6006|6008|28001?建议确认的优先度(共识草案)
/tensorboard//tagger/反代、WS/SSE 测试、文档与 rg 门禁P0 待办事项(建议执行顺序:改动小 → 收益大在前)
状态列供跟帖更新:
[ ]未开始,[x]已完成,[~]进行中。gui.pyprotected_default_ports;建议补回归单测/train-monitor,patch 脚本;发布前rg扫:6008gui_warning;可再接注册表/train-monitor,非:6008.runtime/services.json.runtime/gitignoreapi地址/monitor/与/train-monitor并存/tensorboard/、/tagger/全路径反代P0 验收(最小集)
/train-monitor(或/monitor/)不得打开 TB。/api,不得访问6006/api。相关链接
欢迎在下方随意跟帖:若对「需要确定的事项」有想法、对 P0 表有不同排序或想一起做其中某几项,直接写出来即可;不必按固定格式回复。讨论沉淀后,维护者会把已达成的一致意见整理进
docs/design/ports/README.md(例如「P0 执行顺序」),草案文档也会随结论更新。Beta Was this translation helpful? Give feedback.
All reactions