数据派THU

0获赞0关注0粉丝

喜欢

“全国数标委”正式成立！

2024年10月28日，全国数据标准化技术委员会（以下简称“全国数标委”）成立大会暨第一次全体委员会议在京召开。全国数标委正式成立。国家数据标准化建设工作正式迈入新进程。2024年10月28日，全国数据标准化技术委员会成立大会暨第一次全体委员会议在京召开。国家数据局党组书记、局长刘烈宏出席成立大会并

机器学习中空间和时间自相关的分析：从理论基础到实践应用

来源：DeepHub IMBA本文3800字，建议阅读7分钟本文探讨了空间和时间自相关在野火风险预测中的应用。空间和时间自相关是数据分析中的两个基本概念,它们揭示了现象在空间和时间维度上的相互依赖关系。这些概念在各个领域都有广泛应用,从环境科学到城市规划,从流行病学到经济学。本文将探讨这些概念的理论

活动预告丨Python科研应用分享会——Python数据科学应用

第三期 Python科研应用分享会 10月29日周二晚19:00重磅来袭！本次活动为第三期【Python科研应用分享会】，我们非常荣幸地邀请到自动化系优秀博士生陈鹏宇同学为我们分享Python编程入门知识，并设有提问环节，为同学们答疑解惑。讲座简介本系列讲座由五道口

【博士论文】高效且有效的基础大型多模态模型学习

来源：专知本文约1000字，建议阅读5分钟大型多模态模型（LMMs）的研究已经成为深度学习领域的重点，展示了其在当代研究中的重要性。LMMs能够处理来自不同模态的数据，通过利用互补信息来执行多种任务，从而提高预测能力。LMMs的学习过程分为两个关键阶段：计算密集的预训练阶段，旨在从大规模的噪声数据中

信息论、机器学习的核心概念：熵、KL散度、JS散度和Renyi散度的深度解析及应用

来源：DeepHub IMBA‍‍‍本文约4000字，建议阅读10+分钟本文将深入探讨KL散度及其他相关的重要散度概念。在信息论、机器学习和统计学领域中，KL散度（Kullback-Leibler散度）作为一个基础概念，在量化概率分布差异方面发挥着关键作用。它常用于衡量当一个概率分布用于近似另一个概

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

来源：专知本文约1000字，建议阅读5分钟本论文推动了稀疏和低秩矩阵优化理论和应用的发展，聚焦于统计学和机器学习中出现的相关问题。在运筹学、机器学习和统计学的众多基础问题中，自然形成了基数或秩约束的优化问题。稀疏解因其可解释性和存储优势而受到青睐。此外，在机器学习背景下，稀疏解不仅能提高模型的泛化能

独家 | 花8小时学习Parquet的发现

作者：Vu Trinh翻译：陈之炎校对：zrx本文约4300字，建议阅读8分钟本文为你简要介绍Parquet的数据结构。标签：数据工程数据分析软件工程大数据存储最终，我静下心来学习Parquet。由作者创建本图片引言想象如果我有一个待办事项列表，里面包含了我想写的话题，Apache Parqu

Nat. Commun. | 利用统计学驱动的图网络准确预测蛋白质功能

来源：DrugAI本文约4000字，建议阅读5分钟在本论文中，作者提出了一种方法，利用统计驱动的图网络仅从序列中预测蛋白质功能。今天为大家介绍的是来自Benoit Kornmann团队的一篇论文。理解蛋白质功能对于掌握许多关键生物活动背后的复杂机制至关重要，并在医学、生物技术和药物开发等领域具有深远

贝叶斯回归入门：轻松掌握概率思维的强大工具

来源：数据分析学习与实践本文约3500字，建议阅读9分钟本文深入探讨Transformer模型中三种关键的注意力机制：自注意力、交叉注意力和因果自注意力。在实践中运行 MCMC 采样算法资本资产定价模型（CAPM）是一种金融模型，有助于根据与整体市场相比的风险水平预测投资的预期收益。CAPM 回归是

【博士论文】随机逼近在黎曼流形和度量空间上的应用

来源：专知本文约1000字，建议阅读5分钟本论文通过当代视角重新探索了随机逼近方法，重点研究其在非欧几里得空间中的动态特性和长期行为。随机逼近方法是一类迭代算法，在涉及噪声和不完整观测的应用中起着至关重要的作用。该方法起源于Robbins和Monro（1951年）以及Kiefer和Wolfowitz

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

来源：专知本文约1000字，建议阅读5分钟我们提出了双原型演化 (Dual Prototype Evolving, DPE)，这是一种新的VLMs测试时自适应方法，可以有效地从多模态中累积任务特定知识。测试时自适应 (Test-time adaptation) 使模型能够在无标签测试样本下

数据准备指南：10种基础特征工程方法的实战教程

‍来源：Deephub Imba本文约5000字，建议阅读9分钟本文深入探讨Transformer模型中三种关键的注意力机制：自注意力、交叉注意力和因果自注意力。在数据分析和机器学习领域，从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策，还能预测未来趋势。为了实现这一目标，特征

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

来源：时序人‍‍本文约2300字，建议阅读9分钟研究者为了验证 Fredformer 模型的有效性，设计了一系列的实验。Transformer 模型已在时间序列预测中展现了卓越的性能。然而，在一些复杂场景中，它倾向于学习数据中的低频特征，而忽略了高频特征，表现出一种频率偏差。这种偏差阻碍了模型准确捕

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

来源：专知本文约1000字，建议阅读5分钟在本文中，我们提出了MoTE，一个新颖的框架，能够在一个统一的模型中平衡泛化和专门化。从大规模基础模型中转移视觉语言知识以用于视频识别已经被证明是有效的。为了弥合领域差距，额外的参数模块被添加以捕捉时间信息。然而，随着专用参数数量的增加，零样本泛化能力逐渐减

干货 | 清华Python编程入门分享会第一期

本次分享会是由清华大学五道口金融学院和大数据协会联合举办的系列讲座，以初级python入门为主，是为非计算机非数据科学专业，但有助于学习编程的同学量身定制的精品讲座。目标是为未来数据分析人才配备先进的编程理念和操作技巧，强化学科研究能力，促进跨学科交流与合作。活动分为三期，第一期由自动化系优秀博士生

独家 | 如何为GenAI应用程序选择架构

作者：Lak Lakshamanan翻译：陈之炎校对：ZRX本文约6200字，建议阅读10+分钟本文将描述一个框架，助力实现多因素之间的平衡。标签：LLM，智能体，设计模式选取最简单、最快、最便宜的架构，以平衡LLMs的创造力和风险。假设希望LLM生成一封感谢信，首先需要查看LLM教程，按照教程中建

VisionTS：基于时间序列的图形构建高性能时间序列预测模型，利用图像信息进行时间序列预测

来源：DeepHub IMBA本文约4000字，建议阅读10+分钟VisionTS作为一种创新的时间序列基础模型，在预测任务中展现出了卓越的性能。构建预训练时间序列模型时面临的主要挑战是什么？获取高质量、多样化的时间序列数据。目前构建基础预测模型主要有两种方法：迁移学习LLM：通过针对时间序列任务定

【NTU博士论文】面向可信赖的推荐系统：构建可解释且无偏的推荐系统

来源：专知本文约1000字，建议阅读5分钟本研究重点探讨了可信赖推荐系统中的两个重要方面：可解释性和公平性，并旨在开发一个透明且无偏的推荐系统，以提高推荐系统的透明度和公平性。面向可信赖推荐系统：构建可解释且无偏的推荐系统https://dr.ntu.edu.sg/handle/10356/1757

独家｜如何在数十亿用户中高效检索账号名是否已经存在？

作者：Aditi Mishra翻译：wwl校对：zrx本文约3000字，建议阅读7分钟在这篇文章中，我们将探讨三种方法：传统的数据库查询、使用Redis的缓存策略以及使用布隆过滤器的优化方法。简介你是否遇到过注册APP时，发现你偏好的账户名已经被注册了？虽然这看起来可能只是一个小小的麻烦，但对于处理

快讯 | 2024中国高校计算机大赛——大数据挑战赛晋级复赛队伍揭晓

7月25日，经过初赛阶段的激烈角逐，2024中国高校计算机大赛——大数据挑战赛进入复赛的参赛队伍名单已经出炉。本次大赛旨在通过算法比拼激发数据处理与分析的新思路，探索气象大数据的奥秘，促进大数据技术的创新与应用。大赛吸引了来自全国各地的高校学生和企业在职人员的积极参与，共有386所高校的1777支队

独家 | 线性代数：每个数据科学家的必知概念（下）

作者：Benedict Neo翻译：陈之炎校对：ZRX本文约2900字，建议阅读8分钟本文将探讨上述线性代数概念、视觉解释和代码示例。本文（上篇）目录向量单位向量向量操作向量相加标量相乘点积向量空间零空间（核）张成空间基线性独立本文（下篇）目录矩阵矩阵作为函数线性变换逆矩阵奇异矩阵单位矩阵对角矩阵&

彻底改变语言模型：全新架构TTT超越Transformer，ML模型代替RNN隐藏状态

来源：机器之心‍‍本文约3200字，建议阅读5分钟本文介绍了一种全新的大语言模型（LLM）架构有望代替至今在 AI 领域如日中天的 Transformer。从 125M 到 1.3B 的大模型，性能都有提升。难以置信，这件事终于发生了。一种全新的大语言模型（LLM）架构有望代替至今在 AI 领域如日

多模态可控扩散模型综述

来源：专知本文约1500字，建议阅读5分钟本综述提供了一个全面的分类框架，总结了扩散模型图像合成中各种形式的控制技术和策略，并探讨了可控生成在不同应用场景中的实践。研究背景近年来，人工智能领域经历了跨越式发展，其中生成模型在计算机视觉、自然语言处理和强化学习等多个领域取得了长足进步。生成

独家 | 线性代数：每个数据科学家的必知概念（上）

作者：Benedict Neo翻译：陈之炎校对：ZRX本文约2500字，建议阅读8分钟本文将探讨上述线性代数概念、视觉解释和代码示例。你对线性代数有足够的了解吗？线性代数是所有数据科学和机器学习任务的基石，它是将理论模型转化为实际解决方案的语言，它体现了能够利用算法从数据中学

【阿姆斯特丹博士论文】深度学习在医疗数据中的应用

来源：专知本文为论文介绍，建议阅读5分钟这篇论文重新审视了深度学习的基本组成部分，并评估了它们在医学图像分析中的应用。这篇论文重新审视了深度学习的基本组成部分，并评估了它们在医学图像分析中的应用。论文指出了深度学习在这一领域的三个主要挑战：专家知识的整合、未标记数据的利用以及预测不确定性的估计。论文

谷歌重磅：告别RAG，长上下文的大语言模型无需检索增强

来源：夕小瑶科技说机器学习算法与自然语言处理本文约2600字，建议阅读10分钟长上下文语言模型通过LOFT基准测试，展现出无需检索增强（RAG）的强大能力。当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展，它们不仅能够处理更长的上下文，还展现出惊人的推理和检索能

年薪五十万起，大模型公司偏爱哪种毕业生 | AI光年

来源：深网ID：qqshenwang‍‍‍‍‍‍‍‍‍本文约4500字，建议阅读5分钟本文介绍了年薪50万大模型公司偏爱的毕业生。‍‍‍‍图片来源：视觉中国特约作者丨郑佳妮编辑丨叶锦言出品丨深网·腾讯新闻小满工作室编者按：自从OpenAI打开了生成式AI的潘多拉魔盒，大模型依然是20

【SIGIR2024教程】基于大语言模型的信息检索代理

来源：专知本文为论文介绍，建议阅读5分钟在本教程中，我们将深入探讨LLM驱动代理在各种信息检索领域中的前沿技术。信息检索的核心目标已不仅仅是将用户与其搜索的相关信息连接起来，还包括丰富连接的多样性、个性化和互动性，确保信息检索过程在全球数字时代中尽可能无缝、有效和支持性。目前的信息检索系统通常面临一

效率高，无需标签，谷歌团队用AI挖掘临床数据，改善基因发现和疾病预测，登Nature子刊

来源：ScienceAI本文约2500字，建议阅读5分钟近日，Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。现代医疗保健系统会产生大量高维临床数据 (HDCD)，例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和

大脑如何处理语言？普林斯顿团队对Transformer模型进行分析

来源：专知本文约1700字，建议阅读5分钟研究证明，由各个功能专门化的「注意力头」执行的紧急计算，会以不同的方式预测特定皮层区域的大脑活动。这些注意力头沿着与低维皮层空间中的不同层和上下文长度相对应的梯度下降。在处理语言时，大脑会部署专门的计算来从复杂的语言结构中构建含义。基于 Transforme