当前位置: 首页 > news >正文

暑假学习笔记

  1. Hadoop 生态:实时 + 离线一体化
    Flink on YARN 初体验
    使用 Flink 1.17.1 提交 yarn-session 模式,队列 queue.stream 独享 4G 堆、2 vcore;编写 Kafka → Hive 的流式入湖作业,消费 user_behavior Topic,Checkpoint 30 s,Exactly-Once 写入 Hive 表 ods_log_rt,实现分钟级实时可见。
    对比批作业(T+1)与流作业(5 min 延迟)同口径 PV,误差 < 0.8 %,通过 Ambari Metrics 确认 YARN 资源无冲突。
    Hive 血缘与质量
    部署 Apache Atlas 2.3,通过 Hook 方式自动采集 SQL 血缘;在 Web 端可追踪 ads_hot_news 的完整链路:Kafka → Flink → Hive ODS → Hive DWS → Hive ADS,方便后续影响分析。
    引入 Great Expectations 做数据质量探针,对 ods_log_rt 检查「NULL userId ≤ 1 %」「duplicate eventId = 0」,质量报告自动推送钉钉群。
  2. Python 模型:实时特征 + 在线推理
    特征即服务(FEaaS)
    使用 Redis Stream 收集用户实时行为,Flink 侧输出计算 5 min 滑动窗口特征(点击次数、平均停留时长),写回 Redis hash:user:{id}:rt,供模型服务调用。
    对比离线特征(T+1)与实时特征,AUC 提升 2.7 %,达到 0.934。
    TorchServe 上线
    将上周 NB 模型升级为 BERT 小型分类模型(bert-base-chinese + 全连接层),导出 TorchScript;使用 TorchServe 0.8 启动,配置 batch_size=8、max_batch_delay=50 ms,GPU 利用率稳定在 65 %。
    通过 Nginx + Gunicorn 做二级负载,统一对外域名 http://api.demo/v2/predict,灰度 20 % 流量,回退策略 ready。
  3. Java Web:压测、熔断、CI/CD
    全链路压测
    使用 Gatling 3.9 编写评论场景脚本,10 min 内阶梯升至 2 k 并发,95 th RT 220 ms,TPS 峰值 1 850;发现 Redis 连接数瓶颈,调大 maxTotal=200 后 RT 降至 160 ms。
    Resilience4j 熔断
    为 /comment/list 接口添加熔断策略:失败率 ≥ 50 % 且请求数 ≥ 100 时开启,持续 30 s 后进入半开;配合 Fallback 返回本地缓存,保证核心可用性。
    GitHub Actions 流水线
    配置 .github/workflows/ci.yml:Push → Maven 编译 → JUnit 单测 → SonarQube 扫描(门禁:覆盖率 ≥ 60 %,Bug ≤ 1)→ Docker Build & Push → SSH 到阿里云服务器执行 docker-compose up -d;平均构建时长 4 min 30 s,实现真正的「一键上线」。
http://www.wxhsa.cn/company.asp?id=3146

相关文章:

  • qoj #8557. Goldberg Machine 题解
  • centos7云主机磁盘清理过程纪要
  • 『随笔』我的唱歌练习史
  • 2025浙江省信息通信业职业技能竞赛-数据安全管理员竞赛-决赛wp
  • Java基础核心问题解析
  • 2025年浙江省信息通信业职业技能竞赛-数据安全管理员竞赛-初赛WriteUp
  • 九三阅兵实时记录+次日补
  • 铸网-2025”山东省工业互联网网络安全职业技能竞赛wp(职工组)
  • 视洞R33定制版改造自制IPC网络摄像头(可rtsp可web)
  • 二十一、流水线的冒险与处理
  • java线程的一些思考
  • 2025智能数据分类分级产品选型指南:构建数据治理的智能基座
  • 这是我的第一个博客
  • eqw
  • 2.第一个c语言项目
  • GitHub Copilot 2025年8月最新更新!
  • NOIP 模拟赛十五
  • 面试必备进程调度:fg,bg,jobs,ctrl+z,
  • 完整教程:计算机毕设 java 多媒体教室管理系统 基于 Java+SSM 的多媒体教室运维平台 Java+MySQL 的教室预约与设备管理系统
  • 笔记一
  • 二十、指令流水线的基本实现
  • 物料模板匹配成功后,自动跟随的逻辑
  • TCL t508n 关闭电话语音王提醒/改用4G
  • 完整教程:Markdown 编辑器 语法
  • 天地图的带洞多边形操作
  • k8s集群中一台etcd的pod异常
  • 深入解析:基于51单片机电子称称重压力检测阈值报警系统设计
  • 手撕大模型|KVCache 原理及代码解析
  • Kuby免疫学读书笔记01——造血干细胞
  • 微信群机器人开发