当前位置: 首页 > news >正文

小红书全量笔记数据集(含标题、正文、标签、互动量、图片等),可用于NLP、推荐算法、大模型训练、爆款文章生成、精准营销与市场分析

引言与背景

​ 随着小红书逐渐成为年轻人获取生活方式灵感、购物决策与社交分享的重要平台,其用户生产的内容(UGC)在文本质量、配图美感、互动热度等方面,都具有极高的分析与建模价值。
无论是​人工智能研究人员​、​数据科学家​,还是​新媒体运营团队​、​品牌营销方​,都可以从小红书内容数据中提炼出有价值的信息

  • ​ NLP 领域​:海量高质量的中文短文+长文混合文本,覆盖多种话题、写作风格与标签体系。
  • 推荐系统与个性化分发​:带有用户画像与互动行为的数据,有助于训练精准的推荐算法。
  • 内容创作与爆款生成​:分析高互动笔记的文案与配图模式,为 AI 生成器提供优质参考。
  • 市场与舆情分析​:基于时间、地域、互动量等维度进行趋势追踪与竞品监控。

本数据集是为以上需求而整理的结构化版本,可帮助大家减少收集数据的时间,助力项目快速落地。

字段说明

字段名 说明 示例
title 笔记标题 “是雨水还是桑延的眼泪”
content 笔记正文(含 emoji 与格式) “多讨厌的雨天,总让人想起那画面…”
content_xml 网页源码内容 ...
tags 标签列表 “#电视剧 #追剧”
like_count 点赞数 356
collection_count 收藏数 128
reply_count 评论数 45
share_count 分享数 12
pic_urls 图片 URL 列表 [多张高清图链接]
user_name 用户昵称 “桃红红爱煲剧”
user_profile_img_url 用户头像链接 [头像 URL]
followers_count 用户粉丝数 10
ip_region IP 属地 “广东”
ctime 笔记发布时间(时间戳) 1739946410
url 笔记原文链接 小红书 - 你的生活兴趣社区...
获取方式 样例 小红书样例...

获取更多数据可以访问 https://dianshudata.com/

应用场景详解

1. NLP 与文本分析(具体应用示例)

情感分析

基于笔记的正文和标签,利用有监督学习或预训练模型(如BERT、RoBERTa)来识别用户情感倾向。

  • 任务示例:构建三分类模型(积极、中性、消极),帮助品牌判断用户对产品或事件的态度。
  • 数据应用:利用标签中的情感关键词和正文中包含的emoji、语气词增强情感特征表达。

话题分类

通过对标签和正文文本进行特征抽取(TF-IDF、词向量、预训练模型编码),训练多类别文本分类模型,实现自动识别笔记所属的主题类别(如美妆、旅行、美食、影视等)。

  • 任务示例:为内容推荐系统提供准确的内容标签,提高推荐精准度。
  • 方法建议:使用深度学习文本分类网络(如TextCNN、Transformer)结合标签辅助训练。

关键词提取

分析爆款笔记中频繁出现的关键词、短语及特殊符号(如emoji),提炼出高频热词和内容亮点。

  • 任务示例:基于TF-IDF、TextRank或基于注意力机制的模型,提取关键标签词汇,辅助运营人员设计爆款话题。
  • 特色挖掘:结合点赞量、收藏量权重,筛选互动高的关键词,捕捉用户关注热点。

2. 推荐算法与个性化分发(具体应用示例)

用户兴趣画像构建

通过整合用户发布笔记的标签、正文主题、互动行为(点赞、收藏、评论)、以及地域分布等信息,构建多维度的用户兴趣特征。

  • 数据利用​:利用标签关键词统计用户关注的领域,结合互动频率权重,形成兴趣偏好向量。
  • 地域分布​:根据IP属地分析区域兴趣差异,帮助实现地域个性化推荐。
  • 实现方式​:可使用矩阵分解(MF)、图神经网络(GNN)或基于Transformer的用户行为编码模型,融合多源特征提升用户画像精准度。

热门内容预测

利用笔记发布初期的互动数据(如首小时点赞数、收藏数、评论数)作为特征,结合文本和用户画像信息,预测该笔记未来是否会成为爆款。

  • 模型选择​:可以采用分类模型(如XGBoost、LightGBM、深度神经网络)对笔记的爆款潜力进行二分类预测。
  • 特征设计​:文本情感分数、关键词热度、用户活跃度、历史爆款标签等,均可作为重要输入。
  • 应用价值​:帮助平台优先推荐潜力内容,提升整体用户体验和留存率。

多模态推荐系统

结合笔记的文本内容与配图信息,利用多模态学习方法提升推荐效果。

  • 文本特征​:通过预训练语言模型提取语义向量。
  • 图像特征​:利用卷积神经网络(如ResNet、EfficientNet)或视觉Transformer提取图片特征。
  • 融合策略​:采用多模态融合模型(如跨模态注意力机制)将文本与图像特征整合,增强内容理解能力。
  • 实际效果​:有效捕捉图文搭配带来的内容丰富度,提高推荐的相关性和用户点击率。

推荐算法训练模型的适用范围说明

需要明确的是,基于这份小红书全量笔记数据训练得到的推荐算法模型,​主要针对小红书平台的内容和用户行为特征进行优化​。因为模型的输入特征和用户互动模式都紧密绑定于小红书的生态,直接将该模型应用于其他社交媒体平台,往往会因数据分布、用户行为差异显著,而导致推荐效果有些许不同,不过,推荐算法的基础架构和训练思路是高度通用的。只要有其他平台的相应数据,完全可以利用此处的模型设计理念,通过微调或重新训练,快速适配新的平台环境,获得良好的推荐性能。

因此,这份数据集和对应的训练方案,是打造高效推荐系统的基础,尤其适合专注于小红书生态的应用场景,同时也为未来多平台推荐系统的研发提供了坚实基础。

3.内容创作与爆款文章生成

通过系统分析点赞、收藏和评论数较高的优质笔记,深入挖掘文案的语言风格、结构布局和配图模式。具体包括:

  • 文案风格提炼
    抽取爆款笔记中的语言特色,如用词习惯、情感表达、段落节奏和emoji使用规律,捕捉小红书用户偏爱的写作风格。
  • 结构与逻辑分析
    研究爆款内容的开头吸引点、正文展开方式和结尾号召动作,为内容创作提供科学框架。
  • 视觉配图模式
    总结高互动笔记的配图风格,包括图片数量、色调搭配、排版布局等,提升视觉吸引力。
  • AI文案生成支持
    结合以上分析,构建训练集,为文本生成模型(如GPT、T5等)提供高质量参考样本,使AI生成内容更贴近爆款文案风格,提升生成内容的真实感和吸引力。
  • 内容迭代与优化
    利用反馈数据持续优化模型,支持内容运营团队快速迭代爆款文案,提高内容生产效率和用户互动率。

4.营销与商业分析的强大工具

  • 品牌口碑监测
    利用小红书笔记中的文本内容和互动数据,实时追踪品牌相关的提及量和用户参与度,结合情感分析技术,洞察用户对品牌的正面、负面或中性情绪变化。帮助品牌快速捕捉市场反馈,及时调整营销策略,降低负面舆情风险,提升品牌形象管理效率。
  • 爆款内容提炼
    通过系统分析点赞、收藏和评论数较高的爆款笔记,总结高效文案写作技巧、热点选题方向以及用户偏好的内容风格。借助关键词提取和风格模仿技术,辅助内容团队精准打造符合小红书用户口味的优质内容,提升内容传播效果和用户粘性。
  • 竞品与达人分析
    通过分析竞争品牌的笔记表现及相关KOL(关键意见领袖)的粉丝数量、活跃度和互动情况,识别潜在的合作达人。帮助品牌制定科学的KOL合作方案,实现精准投放与效果最大化,提升品牌曝光度和销售转化率。
  • 热点追踪
    基于标签和内容趋势的动态监测,及时锁定小红书上快速升温的话题和流行趋势。通过对热点内容的深度分析,帮助品牌抢占话题制高点,实现内容营销的先发优势,扩大品牌影响力并获取更多流量红利。

数据样例

可私聊获取更详细的样例
"data": {"like_count": 0,"analysis": {"hashcode": {"5": "5569861128897327000"},},"collection_count": 0,"uuid": "ef612100ee8a11efa6d1246e96180298","title": "亚洲杯互换领取","mid": "67b579b50000000009016184","content": "速来宝宝#5114 #亚洲杯","pic_urls": ["https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu005ndltvtg8egld6cmng8?imageView2/2/w/480/format/webp","https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu0g5ndltvtg8egl5idbik0?imageView2/2/w/480/format/webp","https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu105ndltvtg8eglb969o18?imageView2/2/w/480/format/webp"],"share_count": 0,"user": {"profile_img_url": "https://sns-avatar-qc.xhscdn.com/avatar/1040g2jo31ai72vcq7e005ndltvtg8eglu766rso?imageView2/2/w/80/format/jpg","verified": 0,"name": "******","friends_count": 10,"url": "https://www.xiaohongshu.com/user/profile/5db5effb0000000001003a15","gender": "m","description": "健康平安就好","ip_region": ["广东"],"followers_count": 10,"statuses_count": 0,"uid": "5db5effb0000000001003a15"},"ctime": 1739946421,"url": "https://www.xiaohongshu.com/discovery/item/67b579b50000000009016184","wtype": 1,"gather": {"site_domain": "xiaohongshu.com","site_name": "小红书","info_flag": ["01","0101"],"gtime": 1739946596},"reply_count": 0,}

​​

http://www.wxhsa.cn/company.asp?id=306

相关文章:

  • PVE跨集群迁移虚机
  • CF2022E 题解 | 数学、并查集
  • 领悟2025.9.10
  • Codeforces Round 1049 (Div. 2)
  • 告别资料混乱!PJMan 让项目文件管理,简单到不用找
  • 公众号文章如何添加附件?微信公众号支持附件下载Word、Excel、PDF、PPT等
  • 揭秘LedgerCTF的AES白盒挑战:逆向工程与密码学分析
  • Java11-快速启动指南-全-
  • 三万小时PB级院线级电影数据集,包含完整视频、音频和字幕多模态资源,专为视频大模型训练和多模态研究设计,适用于文生视频生成、影视剪辑、语义检索及智能内容管理
  • openssl编程之sm3哈希代码示例
  • CRMEB标准版PHP订单列表功能解析与实战应用
  • timescaledb在ubuntu上的高可用部署步骤记录
  • Mybatis
  • vue3不允许缓存组件keep-alive直接包裹router-view
  • 你的部署流程已然落伍-热重启的失传艺术
  • 安全不是一个功能-而是一个地基
  • Hall 定理相关
  • docker save load 案例
  • Python中的枚举类
  • 数据结构与算法-25.红黑树
  • 第一周个人作业
  • Python 虚拟环境使用和打包成exe程序
  • Docker存储
  • linux调优工具的简单介绍
  • 多线程同步问题-从语法到硬件
  • SAC In JAX【个人记录向】
  • 1.2 亿篇论文数据集,多学科学术语料库,涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学,用于 NLP、知识图谱与大模型训练
  • Putty 工具集 plink和pscp使用
  • MyEMS:开源驱动下的企业能源管理革新者 —— 从技术架构到 “双碳” 落地的实践之路
  • JWT攻击详解与CTF实战