大模型训练数据与新闻语料数据服务

合规、高质、实时——乐思为AI公司、NLP研究团队与数据分析机构提供中文新闻语料、结构化舆情数据及实时数据API,加速AI模型研发

日均新增新闻数据量可达10亿+条
覆盖500+新闻媒体数据源
支持API/批量下载/私有化部署

AI数据团队面临的三大核心挑战

🔧

数据清洗成本巨大

原始爬取数据质量参差不齐,需要投入大量人力进行清洗、去重、标注才能用于训练

🕐

实时数据获取困难

模型推理和AIGC系统需要接入实时新闻流,自建方案稳定性差且维护成本高

乐思三大AI数据产品

📚 历史新闻语料库

大规模预训练数据
  • 5年+中文新闻数据
  • 标题/正文/发布时间/来源媒体/情感标签完整字段
  • 按行业/地域/主题分类
  • JSON/CSV/自定义结构

适用场景: 大语言模型预训练、情感分析模型训练、知识图谱构建

实时新闻数据API

分钟级推送 99.9% SLA
  • 分钟级数据推送
  • RESTful API + WebSocket双模式
  • 关键词/情感/来源多维过滤
  • 自动扩容与负载均衡

适用场景: AIGC内容审核、实时舆情分析应用、信息检索增强RAG

🏷️ 标注数据集服务

监督学习训练数据
  • 情感极性标注(正/负/中性)
  • 实体识别标注(人名/机构/地点/事件)
  • 主题分类标注(14大行业)
  • 高质量标注与质检覆盖

适用场景: 监督学习模型微调、小样本学习、模型评测基准集

数据格式与质量说明

乐思数据采用标准化JSON格式,支持自定义字段组合

{
  "id": "news_20250310_001",
  "title": "央行宣布下调存款准备金率0.5个百分点",
  "content": "中国人民银行决定下调金融机构存款准备金率0.5个百分点,将释放流动性约1.5万亿元...",
  "source": "新华社",
  "publish_time": "2025-03-10T09:30:00+08:00",
  "category": "金融",
  "sentiment": "neutral",
  "entities": ["央行", "存款准备金率", "中国人民银行"],
  "keywords": ["货币政策", "流动性", "宏观调控"],
  "url": "https://news.xinhuanet.com/..."
}

99.8%+

去重率

100%

中文编码准确率

5%

每日QA抽检覆盖率

技术规格与接入说明

API规格表
参数 说明
基础URL https://api.knowlesys.cn/v2
认证方式 Bearer Token / API Key
数据格式 JSON
响应时间 <200ms
限流策略 1000 req/min
可用性SLA 99.9%
Python接入示例
import requests

API_KEY = "your_api_key"
url = "https://api.knowlesys.cn/v2/news/stream"

params = {
    "keywords": "人工智能,大模型",
    "sentiment": "negative",
    "limit": 100,
    "start_date": "2025-03-01"
}

headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.get(url, params=params,
                   headers=headers)
data = resp.json()

for item in data['items']:
    print(f"{item['title']}")
    print(f"来源: {item['source']}")
    print(f"情感: {item['sentiment']}\n")

哪些团队在使用乐思数据服务?

🤖

大语言模型公司

使用新闻语料库进行大模型预训练,提升模型的新闻理解与生成能力

📊

NLP研究团队

利用标注数据集进行情感分析、实体识别等NLP任务的模型研究与评测

💹

金融量化机构

通过实时新闻API获取市场舆情数据,辅助量化投资决策

💼

舆情SaaS开发商

集成乐思数据API丰富自有产品的数据源,加强市场竞争力

🎧

智能客服公司

利用新闻数据与标注样本优化客户情绪识别与应答准确率

🛡️

内容安全公司

通过结构化舆情数据识别有害内容模式,完善内容审核算法

常见问题

API支持哪些数据过滤和查询方式?
乐思API支持关键词过滤、情感过滤、来源过滤、时间范围过滤等多维度查询,支持RESTful API与WebSocket双模式,可满足实时数据流与批量查询需求。
数据API的可用性和性能如何?
乐思数据API提供99.9% SLA可用性保障,分钟级数据推送,支持自动扩容和负载均衡,可稳定支持大规模并发请求。
标注数据集包括哪些标注类型?
乐思标注数据集提供情感极性标注(正/负/中性三分类)、实体识别标注(人名/机构/地点/事件)、主题分类标注(14大行业分类)等多种标注类型。
历史新闻语料库的数据规模有多大?
乐思历史新闻语料库包含5年以上的中文新闻数据,涵盖500+新闻媒体源,每条记录都包含标题、正文、发布时间、来源媒体、情感标签等完整字段。

申请数据试用

获取优质新闻数据,体验乐思AI数据服务

立即申请