大模型训练数据与新闻语料数据服务

Q: 乐思数据服务如何保证合规性？

乐思与500+新闻媒体建立合法数据合作关系，所有数据均经过版权授权，提供数据溯源证明，完全符合AI模型训练的合规要求，用户可放心用于商业模型训练。

Q: API支持哪些数据过滤和查询方式？

乐思API支持关键词过滤、情感过滤、来源过滤、时间范围过滤等多维度查询，支持RESTful API与WebSocket双模式，可满足实时数据流与批量查询需求。

Q: 数据API的可用性和性能如何？

乐思数据API提供99.9% SLA可用性保障，秒级数据推送，延迟<30秒，支持自动扩容和负载均衡，可稳定支持大规模并发请求。

Q: 标注数据集包括哪些标注类型？

乐思标注数据集提供情感极性标注（正/负/中性三分类）、实体识别标注（人名/机构/地点/事件）、主题分类标注（14大行业分类）等多种标注类型。

Q: 历史新闻语料库的数据规模有多大？

乐思历史新闻语料库包含10年以上的中文新闻全量数据，涵盖500+新闻媒体源，日均新增数据10亿+条，每条记录都包含标题、正文、发布时间、来源媒体、情感标签等完整字段。

合规、高质、实时——乐思为AI公司、NLP研究团队与数据分析机构提供合规授权的中文新闻语料、结构化舆情数据及实时数据API，加速AI模型研发

日均新增新闻数据10亿+条

数据溯源合规可授权

覆盖500+新闻媒体数据源

支持API/批量下载/私有化部署

AI数据团队面临的三大核心挑战

⚖️

自建爬虫合规风险高

未经授权的新闻爬取面临版权侵权风险，尤其在AI模型训练合规要求趋严的背景下

🔧

数据清洗成本巨大

原始爬取数据质量参差不齐，需要投入大量人力进行清洗、去重、标注才能用于训练

🕐

实时数据获取困难

模型推理和AIGC系统需要接入实时新闻流，自建方案稳定性差且维护成本高

乐思三大AI数据产品

📚 历史新闻语料库

大规模预训练数据

10年+中文新闻全量数据
标题/正文/发布时间/来源媒体/情感标签完整字段
按行业/地域/主题分类
JSON/CSV/自定义结构

适用场景： 大语言模型预训练、情感分析模型训练、知识图谱构建

⚡ 实时新闻数据API

秒级推送 99.9% SLA

秒级数据推送，延迟<30秒
RESTful API + WebSocket双模式
关键词/情感/来源多维过滤
自动扩容与负载均衡

适用场景： AIGC内容审核、实时舆情分析应用、信息检索增强RAG

🏷️ 标注数据集服务

监督学习训练数据

情感极性标注（正/负/中性）
实体识别标注（人名/机构/地点/事件）
主题分类标注（14大行业）
高质量标注与质检覆盖

适用场景： 监督学习模型微调、小样本学习、模型评测基准集

数据格式与质量说明

乐思数据采用标准化JSON格式，支持自定义字段组合

{
  "id": "news_20250310_001",
  "title": "央行宣布下调存款准备金率0.5个百分点",
  "content": "中国人民银行决定下调金融机构存款准备金率0.5个百分点，将释放流动性约1.5万亿元...",
  "source": "新华社",
  "publish_time": "2025-03-10T09:30:00+08:00",
  "category": "金融",
  "sentiment": "neutral",
  "entities": ["央行", "存款准备金率", "中国人民银行"],
  "keywords": ["货币政策", "流动性", "宏观调控"],
  "url": "https://news.xinhuanet.com/..."
}

99.8%+

去重率

100%

中文编码准确率

5%

每日QA抽检覆盖率

技术规格与接入说明

API规格表

参数	说明
基础URL	https://api.knowlesys.cn/v2
认证方式	Bearer Token / API Key
数据格式	JSON
响应时间	<200ms
限流策略	1000 req/min
可用性SLA	99.9%

Python接入示例

import requests

API_KEY = "your_api_key"
url = "https://api.knowlesys.cn/v2/news/stream"

params = {
    "keywords": "人工智能,大模型",
    "sentiment": "negative",
    "limit": 100,
    "start_date": "2025-03-01"
}

headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.get(url, params=params,
                   headers=headers)
data = resp.json()

for item in data['items']:
    print(f"{item['title']}")
    print(f"来源: {item['source']}")
    print(f"情感: {item['sentiment']}\n")

哪些团队在使用乐思数据服务？

🤖

大语言模型公司

使用新闻语料库进行大模型预训练，提升模型的新闻理解与生成能力

📊

NLP研究团队

利用标注数据集进行情感分析、实体识别等NLP任务的模型研究与评测

💹

金融量化机构

通过实时新闻API获取市场舆情数据，辅助量化投资决策

💼

舆情SaaS开发商

集成乐思数据API丰富自有产品的数据源，加强市场竞争力

🎧

智能客服公司

利用新闻数据与标注样本优化客户情绪识别与应答准确率

🛡️

内容安全公司

通过结构化舆情数据识别有害内容模式，完善内容审核算法

常见问题

乐思数据服务如何保证合规性？ ▼