合规、高质、实时——乐思为AI公司、NLP研究团队与数据分析机构提供合规授权的中文新闻语料、结构化舆情数据及实时数据API,加速AI模型研发
未经授权的新闻爬取面临版权侵权风险,尤其在AI模型训练合规要求趋严的背景下
原始爬取数据质量参差不齐,需要投入大量人力进行清洗、去重、标注才能用于训练
模型推理和AIGC系统需要接入实时新闻流,自建方案稳定性差且维护成本高
适用场景: 大语言模型预训练、情感分析模型训练、知识图谱构建
适用场景: AIGC内容审核、实时舆情分析应用、信息检索增强RAG
适用场景: 监督学习模型微调、小样本学习、模型评测基准集
乐思数据采用标准化JSON格式,支持自定义字段组合
{
"id": "news_20250310_001",
"title": "央行宣布下调存款准备金率0.5个百分点",
"content": "中国人民银行决定下调金融机构存款准备金率0.5个百分点,将释放流动性约1.5万亿元...",
"source": "新华社",
"publish_time": "2025-03-10T09:30:00+08:00",
"category": "金融",
"sentiment": "neutral",
"entities": ["央行", "存款准备金率", "中国人民银行"],
"keywords": ["货币政策", "流动性", "宏观调控"],
"url": "https://news.xinhuanet.com/..."
}
去重率
中文编码准确率
每日QA抽检覆盖率
| 参数 | 说明 |
|---|---|
| 基础URL | https://api.knowlesys.cn/v2 |
| 认证方式 | Bearer Token / API Key |
| 数据格式 | JSON |
| 响应时间 | <200ms |
| 限流策略 | 1000 req/min |
| 可用性SLA | 99.9% |
import requests
API_KEY = "your_api_key"
url = "https://api.knowlesys.cn/v2/news/stream"
params = {
"keywords": "人工智能,大模型",
"sentiment": "negative",
"limit": 100,
"start_date": "2025-03-01"
}
headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.get(url, params=params,
headers=headers)
data = resp.json()
for item in data['items']:
print(f"{item['title']}")
print(f"来源: {item['source']}")
print(f"情感: {item['sentiment']}\n")
使用新闻语料库进行大模型预训练,提升模型的新闻理解与生成能力
利用标注数据集进行情感分析、实体识别等NLP任务的模型研究与评测
通过实时新闻API获取市场舆情数据,辅助量化投资决策
集成乐思数据API丰富自有产品的数据源,加强市场竞争力
利用新闻数据与标注样本优化客户情绪识别与应答准确率
通过结构化舆情数据识别有害内容模式,完善内容审核算法