Databricks 大会同传词汇手册
产品速查核心概念人名读法数字陷阱大会套话缩略语
三条铁律(先记这个再背词):
① 产品名一律不翻译,英文直出:Lakebase 就说 Lakebase,不说"湖底库"。听众是技术高管,英文产品名才是通用语。
② billion = 十亿(不是亿,不是百万)。$134 billion = 1,340 亿美元。这是中英同传第一大翻车点,本手册第五节有速换表。
③ 没听清的新产品名/新术语:照英文读音直接复述,不要硬造中文——大会必发新品,现场出现没见过的词是正常的。
姊妹篇:← 1/2 嘉宾与演讲预测
① 产品名一律不翻译,英文直出:Lakebase 就说 Lakebase,不说"湖底库"。听众是技术高管,英文产品名才是通用语。
② billion = 十亿(不是亿,不是百万)。$134 billion = 1,340 亿美元。这是中英同传第一大翻车点,本手册第五节有速换表。
③ 没听清的新产品名/新术语:照英文读音直接复述,不要硬造中文——大会必发新品,现场出现没见过的词是正常的。
姊妹篇:← 1/2 嘉宾与演讲预测
一、Databricks 产品速查表(按出场频率排序)
| 产品(英文直出) | 是什么(一句话) | 高频搭配/语境 |
|---|---|---|
| Data Intelligence Platform | 整个平台的官方总称("数据智能平台",此词组可翻) | "the Databricks Data Intelligence Platform"——开场必出 |
| Lakehouse(湖仓/湖仓一体) | Databricks 发明的架构概念:数据湖+数据仓库合一 | "lakehouse architecture";中文圈已通行"湖仓一体",可翻 |
| Unity Catalog(缩写 UC) | 统一治理目录:数据+AI 资产的权限、血缘、审计中枢 | "governed by Unity Catalog"——治理话题必出,全场最高频产品词之一 |
| Agent Bricks | 企业级 AI 智能体平台(建、调、评、管一条龙),今年主推 | "production agents with Agent Bricks";子能力:Document Intelligence(文档智能)、Custom Agents |
| Lakebase | Postgres 系操作型数据库(OLTP),给应用和智能体管理状态用,刚 GA | "Lakebase is now generally available";源自收购 Neon |
| Genie(AI/BI Genie) | 自然语言问数:业务人员用对话查数据出图表 | "just ask Genie";text-to-SQL 场景 |
| Genie Code | 平台内的智能体化编程助手(原名 Databricks Assistant,今年改名) | "Genie Code Agent mode"——注意别和上面的 Genie 混 |
| Databricks One | 给业务人员(非技术人)的统一入口界面 | "business users live in Databricks One" |
| Databricks Apps | 在平台上直接构建/托管数据与 AI 应用 | "build and deploy apps natively" |
| Lakeflow | 数据工程全家桶:Connect(连接器)/ Pipelines(管道)/ Designer(无代码 ETL)/ Jobs(调度) | "Lakeflow Connect now has a free tier" |
| Delta Lake | 开源表格式(数据湖上的 ACID 事务层),平台基石 | 与 Iceberg 并提:"Delta and Iceberg, fully supported" |
| Apache Iceberg | 另一大开源表格式(社区中立),Databricks 收购 Tabular 后全面拥抱 | "Iceberg managed tables";读音:ICE-berg(艾斯伯格) |
| Mosaic AI | AI 工具层总称:Model Serving(模型服务)/ Vector Search(向量检索)/ Gateway(AI 网关)/ Agent Evaluation(智能体评估) | "Mosaic AI Gateway routes every model call" |
| MLflow | 开源 ML 全生命周期管理(实验跟踪/评估/部署),现已到 3.x | "MLflow three"读作 em-el-flow |
| Databricks SQL(DBSQL) | 数据仓库/BI 查询引擎 | "serverless DBSQL" |
| Photon | 自研高性能查询引擎(C++ 向量化) | "powered by Photon" |
| Delta Sharing | 开放数据共享协议(跨公司/跨平台share数据) | "share data without copying it" |
| Marketplace / Clean Rooms | 数据市场 / 数据清洁室(多方安全联合计算) | 金融、广告行业场景常提 |
| Apache Spark | 开源大数据计算引擎,Databricks 创始团队所创,现 4.x | "we created Spark"——创始人怀旧环节必出 |
| DBRX | Databricks 自研开源大模型(2024 发布,现在少提) | 偶尔出现在"我们也训过模型"语境 |
| Free Edition | 免费版(2025 推出,教育普惠叙事) | "$100M investment in training"同段出现 |
二、核心概念词汇表
A. 智能体与 AI(今年最重,先背这组)
| 英文 | 推荐译法 | 一句话理解 |
|---|---|---|
| agentic AI / AI agent | 智能体化 AI / AI 智能体 | 能自主多步执行任务的 AI(不只是聊天)。"agentic"也可处理为"智能体式的" |
| the agentic enterprise | 智能体化企业 | Databricks CIO 的招牌词:全公司流程由智能体驱动 |
| agents in production | 生产环境中的智能体 / 智能体投产 | 对应"试点"(pilot/PoC);"from pilots to production"=从试点走向投产 |
| multi-agent (system) | 多智能体(系统) | 多个智能体协作分工 |
| tool calling / function calling | 工具调用 / 函数调用 | 模型调外部工具干活的机制 |
| MCP (Model Context Protocol) | 模型上下文协议(可只读 MCP) | 连接模型与工具/数据的开放标准,Anthropic 推出 |
| orchestration | 编排 | 把模型、工具、数据流程串起来调度 |
| guardrails | 护栏 / 安全护栏 | 限制 AI 行为越界的机制 |
| human-in-the-loop | 人在回路 / 人工把关 | 关键步骤留人审核 |
| evals / evaluation | 评估 / 评测 | 系统化测 AI 质量;"LLM-as-a-judge"=用大模型当裁判 |
| LLM (large language model) | 大语言模型 / 大模型 | — |
| foundation model / frontier model | 基础模型 / 前沿模型 | frontier=最先进那一档(GPT-5、Claude 等) |
| fine-tuning | 微调 | 用自有数据继续训练模型 |
| distillation | 蒸馏 | 大模型教小模型,省成本 |
| RAG (retrieval-augmented generation) | 检索增强生成(可只读 RAG,音"拉格") | 先查资料再回答,防瞎编 |
| embedding / vector search | 向量化 / 向量检索 | 把文字变数字向量来做语义搜索 |
| hallucination | 幻觉 | AI 一本正经胡说八道 |
| grounding | 事实锚定 / 落地到(企业)数据 | "grounded in your data"=基于你的真实数据作答 |
| context window | 上下文窗口 | 模型一次能"装下"多少内容 |
| token | token(不译) | 计费与长度单位;"tokens per dollar"=每美元token数=性价比 |
| inference / training | 推理 / 训练 | 用模型 vs 造模型;inference cost=推理成本,高频 |
| reasoning model | 推理模型 | 先"想"后答的新一代模型;test-time compute=推理时算力 |
| latency / throughput | 延迟 / 吞吐 | 快不快 / 一次能处理多少 |
| model serving | 模型服务(化) | 把模型架起来供调用 |
| AI gateway | AI 网关 | 统一管理所有模型调用的关口(限流、记账、审计) |
| vibe coding | vibe coding(可保留英文,或"凭感觉编程/口述编程") | 2025 爆火词:全程让 AI 写代码,人只描述意图;今年官方培训课就有 |
| copilot vs agent | 副驾 vs 智能体 | 副驾=人主导AI辅助;智能体=AI自主执行 |
| compound AI systems | 复合 AI 系统 | Databricks 2024 主推概念:多模型+工具+数据组合成系统 |
| synthetic data | 合成数据 | AI 生成的训练/测试数据 |
| scaling laws | 规模法则 / 缩放定律 | 算力越大模型越强的经验规律(Brockman 可能提) |
B. 数据架构
| 英文 | 推荐译法 | 一句话理解 |
|---|---|---|
| data warehouse / data lake | 数据仓库 / 数据湖 | 结构化报表用 / 原始数据全堆进去 |
| open table format | 开放表格式 | Delta、Iceberg 都属此类;反锁定叙事核心词 |
| medallion architecture (bronze/silver/gold) | 奖牌架构(铜/银/金层) | 数据分层加工:原始→清洗→可用 |
| ACID transactions | ACID 事务(读字母) | 数据改动要么全成功要么全回滚 |
| ETL / ELT | 读字母即可 | 数据抽取-转换-加载流程 |
| streaming / batch | 流式 / 批处理 | 实时一条条处理 vs 攒一批处理 |
| CDC (change data capture) | 变更数据捕获(可读字母) | 实时同步数据库的增删改 |
| data lineage | 数据血缘 | 这张表从哪来、被谁用——审计必备 |
| metadata / catalog | 元数据 / 目录 | 描述数据的数据;目录=数据资产的总账本 |
| semantic layer / metrics layer | 语义层 / 指标层 | 统一定义"营收""活跃用户"等口径,AI 问数的前提 |
| data silos | 数据孤岛 | 各部门数据互不相通——CIO 痛点叙事必出 |
| single source of truth | 唯一可信源 / 单一事实来源 | 全公司认同一份数 |
| data mesh | 数据网格 | 数据按业务域分治的组织理念 |
| federation / federated query | 联邦(查询) | 数据不搬家,跨库直接查 |
| interoperability | 互操作性 | 不同系统无缝协作;高频抽象词 |
| vendor lock-in | 厂商锁定 | 被一家供应商绑死走不了——"开放"叙事的反派 |
| OLTP / OLAP | 读字母 | 交易型数据库(Lakebase)/ 分析型数据库 |
| serverless | 无服务器(架构) | 用多少付多少,不用管机器 |
| zero-copy / no data duplication | 零拷贝 / 不复制数据 | 共享数据不用搬运复制 |
C. 治理、安全与合规(CIO 场浓度最高)
| 英文 | 推荐译法 | 一句话理解 |
|---|---|---|
| (data/AI) governance | (数据/AI)治理 | 谁能用什么数据干什么——全场最高频抽象词 |
| compliance / regulatory | 合规 / 监管(的) | — |
| EU AI Act | 欧盟《人工智能法案》 | 高风险义务原定 2026-08-02 生效(近期有简化调整动议),CIO 场必提 |
| high-risk AI system | 高风险 AI 系统 | 该法案的核心分类 |
| data sovereignty / residency | 数据主权 / 数据驻留 | 数据必须存在本国/本区域 |
| PII (personally identifiable information) | 个人可识别信息 / 个人敏感信息 | 读字母 P-I-I |
| access control / fine-grained | 访问控制 / 细粒度(权限) | row/column-level security=行级/列级权限 |
| RBAC / ABAC | 基于角色/属性的访问控制(可读字母) | — |
| audit trail / auditability | 审计痕迹 / 可审计性 | 每一步谁干的都有记录 |
| agent identity / agent registry | 智能体身份 / 智能体注册表 | 2026 新热词:每个智能体要有"工牌"和台账 |
| prompt injection | 提示词注入(攻击) | 用恶意输入劫持 AI——AI 安全工作坊必讲 |
| red teaming | 红队测试 | 专人模拟攻击找漏洞 |
| data exfiltration | 数据外泄/渗出 | 数据被偷偷带出去 |
| encryption (at rest / in transit) | 加密(静态/传输中) | — |
| observability / monitoring | 可观测性 / 监控 | 系统内部状态看得见 |
| responsible AI | 负责任的 AI | — |
| model risk management (MRM) | 模型风险管理 | 金融业专属高频词(四巨头炉边必出) |
| shadow AI | 影子 AI | 员工私用未报备的 AI 工具——CIO 头疼话题 |
| SOC 2 / GDPR / HIPAA / FedRAMP | 读字母/原文 | 常见合规认证与法规,不必展开翻 |
D. CIO 商业语汇
| 英文 | 推荐译法 | 一句话理解 |
|---|---|---|
| ROI / TCO | 投资回报率 / 总拥有成本 | 读字母即可 |
| time to value | 价值实现时间 / 见效速度 | 多快能看到回报 |
| ARR / revenue run-rate | 年度经常性收入 / 年化收入 | Databricks 最新:$5.4B run-rate |
| unit economics | 单位经济性 | 每单/每次调用赚不赚钱 |
| build vs buy | 自建还是采购 | CIO 永恒之问 |
| PoC (proof of concept) / pilot | 概念验证 / 试点 | "pilot purgatory"=试点炼狱(永远在试点出不了头) |
| at scale / scale it | 规模化(地) | 从能用到全公司用 |
| operating model | 运营模式 / 运作模式 | 组织怎么分工运转 |
| center of excellence (CoE) | 卓越中心 | 集中式专家团队 |
| change management | 变革管理 | 让一线真的用起来的功夫 |
| upskilling / reskilling | 技能提升 / 转岗再培训 | — |
| tech debt | 技术债 | 历史遗留烂摊子 |
| platform consolidation | 平台整合 | 砍掉一堆工具归到一个平台——Databricks 销售主叙事 |
| FinOps / chargeback | 云财务管理 / (成本)内部分摊 | 谁用谁付钱 |
| P&L | 损益(表) | 读"P and L" |
| board-level (conversation) | 董事会层面(的议题) | "AI is now a board-level conversation"高频句 |
| moat | 护城河 | "your data is your moat"=数据就是你的护城河(Databricks 名言) |
| democratize (data/AI) | 普及 / 民主化 | 让人人都能用上 |
| headwinds / tailwinds | 逆风 / 顺风(不利/有利因素) | 高管谈宏观必用 |
| north star (metric) | 北极星(指标) | 最核心的那一个目标 |
| table stakes | 基本门槛 / 入场券 | "governance is table stakes"=治理已是基本要求 |
三、人名与公司名读法表
关键人物
| 人名 | 读法提示 | 身份 / 中文处理 |
|---|---|---|
| Ali Ghodsi | AH-lee GOHD-see("戈兹西") | Databricks CEO;中文可"阿里·戈兹西"或保留英文 |
| Matei Zaharia | ma-TAY za-HAR-ee-a | 联创&CTO,Spark 之父;罗马尼亚裔 |
| Reynold Xin | Xin 读"辛" | 联创&首席架构师;华人,中文名辛湜,中文场合可直接用中文名 |
| Arsalan Tavakoli-Shiraji | ar-sa-LAHN ta-va-KOH-lee | 联创,现场工程负责人;名字长,首次全称后可只说 Arsalan |
| Naveen Zutshi | na-VEEN ZUT-shee | Databricks 自家 CIO——CIO 场主持人,重点人物 |
| Andy Kofoid | KOH-foyd | Databricks 全球现场运营总裁 |
| Greg Brockman | BROCK-man | OpenAI 总裁;中文媒体常用"布罗克曼" |
| Satya Nadella | SAH-tya na-DEL-la | 微软 CEO;通行译名"萨提亚·纳德拉" |
| Mukesh Ambani | moo-KAYSH am-BAH-nee | 信实工业董事长;通行译名"穆克什·安巴尼" |
| Magesh Bagavathi | ma-GAYSH ba-ga-VAH-thee | 百事全球首席数据与AI官 |
| Dario Amodei | DAH-ree-oh ah-moh-DAY | Anthropic CEO;通行译名"达里奥·阿莫迪"(若现身) |
| Jamie Dimon | DY-mun("戴蒙",不是"迪蒙") | 摩根大通 CEO(2025 来过,今年备着) |
| Jensen Huang | — | NVIDIA CEO;中文直接说"黄仁勋"(外卡嘉宾) |
公司与机构
| 英文 | 中文处理建议 |
|---|---|
| Databricks | 保留英文(无通行中文名) |
| JPMorganChase | 摩根大通(注意官方已合写为一个词) |
| Morgan Stanley | 摩根士丹利(俗称"大摩",正式场合用全称) |
| Mastercard / RBC Capital Markets | 万事达卡 / 加拿大皇家银行资本市场部 |
| PepsiCo | 百事公司 |
| Reliance Industries / Jio | 信实工业 / Jio(保留) |
| AstraZeneca / Novo Nordisk | 阿斯利康 / 诺和诺德 |
| Mercedes-Benz / Rivian | 梅赛德斯-奔驰 / Rivian(保留,电动车公司) |
| Virgin Atlantic / lululemon / Zillow / Fox / Warner Music / Nasdaq | 维珍航空 / lululemon(保留)/ Zillow(保留,美国房产平台)/ 福克斯 / 华纳音乐 / 纳斯达克 |
| Anthropic / OpenAI / NVIDIA | 保留英文(Anthropic 旗下模型叫 Claude)/ 保留 / 英伟达 |
| Accenture / Deloitte / KPMG | 埃森哲 / 德勤 / 毕马威 |
| Snowflake | 保留英文——Databricks 头号竞对,嘉宾可能含蓄影射("other vendors / walled gardens") |
| Cognition / CrewAI / Glean / LangChain / LlamaIndex / Lovable / Replit | 全部保留英文(AI 议程特邀公司:Devin 开发方 / 多智能体框架 / 企业搜索 / 两大智能体框架 / AI建站 / 在线编程) |
| SAP / Palantir / Informatica | 保留英文(三家均有深度合作线) |
四、今年必出现的"剧情背景"数字(先背熟)
| 英文原话可能形态 | 正确中译 | 背景 |
|---|---|---|
| "a $134 billion valuation" | 1,340 亿美元估值 | 2025/12 完成 $5B 融资后的估值;最新传闻新一轮 $165–175B(1,650–1,750 亿) |
| "$5.4 billion revenue run-rate" | 54 亿美元年化收入 | 2026/02 官宣;同段常配"cash-flow positive"(现金流为正) |
| "over $1.4 billion in AI revenue" | AI 产品收入超 14 亿美元 | 约占总收入 26% |
| "$100 million partnership with OpenAI" | 与 OpenAI 的 1 亿美元合作 | GPT-5 原生接入 Databricks |
| "a $1 billion acquisition (Neon)" | 10 亿美元收购(Neon) | Lakebase 的来历;其余收购线:Tabular(Iceberg)、MosaicML、Tecton、Mooncake、BladeBridge、Quotient AI |
| "30,000 attendees, 150+ countries, 800+ sessions" | 3 万名到场者 / 150 多个国家 / 800 多场分论坛 | 开场必报 |
| "more than 10,000 / 15,000 customers" | 超过 1 万 / 1.5 万家客户 | 量级听清再报 |
数量级速换表(防翻车)
| 英文 | 中文 | 口诀 |
|---|---|---|
| million | 百万 | $10M = 一千万美元 |
| billion | 十亿 | $1B = 十亿;$134B = 一千三百四十亿 |
| trillion | 万亿/兆 | GPU 投资语境会出现 |
| petabyte / exabyte | PB / EB(直接读字母) | "exabytes of data"=EB 级数据,可译"海量"兜底 |
| basis points (bps) | 基点(万分之一) | 金融炉边可能出现 |
| p95 / p99 latency | 95/99 分位延迟 | "p99 under 100 milliseconds"=99 分位低于 100 毫秒 |
五、大会高频套话与口头禅(同传压缩处理建议)
| 英文套话 | 处理建议 |
|---|---|
| "Please welcome to the stage..." / "Give it up for..." | "有请——"(三个字解决) |
| "Without further ado..." | "话不多说" |
| "We're thrilled / super excited to announce..." | "我们非常激动地宣布——"(thrilled/excited 不必每次都翻满) |
| "generally available (GA) / in public preview / in private preview" | "正式发布(GA)/ 公开预览 / 定向预览"——发布会三连,必背 |
| "out of the box" | "开箱即用" |
| "under the hood" | "底层/引擎盖下"(=内部实现) |
| "end to end" | "端到端" |
| "single pane of glass" | "一站式视图/统一界面"(别直译玻璃) |
| "move the needle" | "产生实质影响" |
| "double down on..." | "加倍投入" |
| "low-hanging fruit" | "容易摘的果子/速赢项" |
| "crawl, walk, run" | "先爬、再走、后跑"(循序渐进) |
| "garbage in, garbage out" | "垃圾进,垃圾出"(数据质量差则 AI 必差) |
| "the elephant in the room" | "大家都不愿点破的问题" |
| "key takeaway" | "核心要点" |
| "let's dive in / let's double-click on that" | "我们展开讲讲"(double-click=深入) |
| "speaking only for myself..." / "I can't comment on that" | "仅代表个人观点" / "这个我不便评论"(金融高管口头禅) |
| "every company will become a data and AI company" | "每家公司都将成为数据与 AI 公司"(Databricks 信条) |
| "data is your moat" / "your data is your differentiation" | "数据是你的护城河/差异化所在" |
| "agents that (actually) work" | "真正能干活的智能体"——今年大会口号本号 |
| "keep the lights on" | "维持日常运转"(CIO 自嘲传统职责) |
| "drink our own champagne / eat our own dog food" | "我们自己用自家产品"(dogfooding) |
六、缩略语速查表
| 缩写 | 全称 | 含义 |
|---|---|---|
| DAIS | Data + AI Summit | 本大会简称("day-iss") |
| UC | Unity Catalog | 统一治理目录 |
| DBSQL | Databricks SQL | 数仓引擎 |
| DBU | Databricks Unit | 平台计费单位(算力消耗单位) |
| DLT | Delta Live Tables | 旧名,已并入 Lakeflow(老客户嘉宾仍可能说) |
| GA / Preview | generally available | 正式发布 / 预览版 |
| GenAI | generative AI | 生成式 AI |
| LLM / SLM | large/small language model | 大/小语言模型 |
| RAG | retrieval-augmented generation | 检索增强生成 |
| MCP | Model Context Protocol | 模型上下文协议 |
| PoC | proof of concept | 概念验证 |
| CoE | center of excellence | 卓越中心 |
| CDAO / CDO | Chief Data (& AI/Analytics) Officer | 首席数据(与AI)官——今年高管头衔主流是 CDAO |
| CISO | Chief Information Security Officer | 首席信息安全官 |
| MRM | model risk management | 模型风险管理(金融) |
| KYC / AML | know your customer / anti-money laundering | 了解你的客户 / 反洗钱(金融炉边) |
| SLA | service level agreement | 服务等级协议 |
| SSO / IAM | single sign-on / identity & access management | 单点登录 / 身份与访问管理 |
| ISV / SI / GTM | independent software vendor / system integrator / go-to-market | 独立软件商 / 系统集成商 / 市场打法 |
| YoY / QoQ | year-over-year / quarter-over-quarter | 同比 / 环比 |
七、赛前自学清单(按性价比排序)
- 2025 年 Day 1 keynote 回放(YouTube 搜 "Data AI Summit 2025 Keynote")——今年讲者阵容 80% 重合,影子跟读前 20 分钟,熟悉 Ali 的语速与产品串讲节奏。
- Jamie Dimon × Ali 对谈回放(2025)——练对话式同传的抢话节奏,金融高管语体预热。
- Naveen Zutshi 播客两集:Greylock 访谈、Outreach 访谈——CIO 场主持人的口音、用词、思维框架。
- 官方 newsroom + 大会议程页(dataaisummit)——会前 48 小时再刷一遍,新增嘉宾/新品名抢先入库。
- Ali 最新访谈(2026/06/04 彭博电视,谈 IPO:"a terrible year to go public")——他当下最关心的叙事。
👉 返回:嘉宾与演讲预测(1/2 预测篇)