在可解释机器学习研究领域取得新进展
近日,华中农业大学理学院陈洪教授机器学习团队以“Multi-taskAdditiveModelsforRobustEstimationandAutomaticStructureDiscovery”为题,在34thConferenceonNeuralInformationProcessingSystems(NeurIPS)发表研究论文。
当前,面向高维数据的可解释模型大多构建在单任务学习框架下,且以学习条件均值为目标。此类模型往往不能直接用于多任务数据,且在非高斯噪声的数据处理中会出现性能的退化。特别地,传统的组稀疏可解释模型严重依赖变量结构的先验信息。针对此类问题,本文在多任务双层优化框架下,通过融合众数回归、可加模型与结构惩罚项,提出了一类新的多任务可加模型。该模型不仅能实现面向复杂噪声数据的稳健估计,而且能够自动地挖掘数据中潜在的变量组结构。优化上,针对模型非凸非光滑的特点,研究者基于半二次优化和前向后向切分算法提出了一类光滑优化策略,并给出了优化算法的收敛分析。应用上,模拟实验和日冕物质抛射实验从模型的估计误差、结构发现能力等多角度验证了构建模型的出色性能。
多任务可加模型与传统组稀疏模型的差异如图所示:
▲(a)多任务数据生成过程(b)传统组稀疏模型(c)多任务可加模型
该研究是陈洪教授前期CCFA人工智能顶会工作(H.Chen,X.WangandH.Huang,NIPS,;X.Wang,H.ChenandH.Huang,NIPS,;G.Liu,H.ChenandH.Huang,ICML,)和人工智能顶刊工作(H.Chen,Y.Wang,etal.,TNNLS)的进一步延续和深入。华中农业大学信息学院博士生王英杰为第一作者,理学院陈洪教授为论文通讯作者,南方科技大学郑锋副研究员、国家空间科学中心陈艳红研究员等参与了论文研究工作。
在生菜结球性研究中取得新进展
近日,华中农业大学园艺植物生物学教育部重点实验室匡汉晖教授课题组在PNAS杂志上发表题为“UpregulationofaKN1homologbytransposoninsertionpromotesleafyheaddevelopmentinlettuce”的研究论文。该论文首次报道了生菜中控制结球性状基因LsKN1的克隆,并在分子水平上阐述了LsKN1调控生菜结球的作用机制。
莴苣属于菊科,起源于地中海地区,由野生莴苣Lactucaserriola驯化而来,是非常重要的蔬菜之一。莴苣的主要栽培类型包括叶用的结球生菜和茎用的莴笋。尽管不同栽培类型的莴苣之间形态差异较大,但其分化时间较短、不同类型之间杂种可育,是研究植物形态发生及进化的优良材料。
植株结球是部分叶用蔬菜特有的表型,主要见于十字花科的甘蓝、白菜、孢子甘蓝,以及菊科中的生菜及菊苣。这些蔬菜叶片由外向内弯曲、层层包裹,最终形成一个由叶片构成的球状结构,称之为叶球。结球性具有许多优点,如脆嫩的质地、长货架期、便于机械化收割等。叶球是多基因控制的数量性状,且容易受环境影响,进而造成其遗传研究困难,至今未成功克隆叶球形成的遗传调控基因。
本研究对结球生菜与不结球生菜杂交的F2群体进行遗传分析,通过图位克隆的方法获得了一个控制生菜结球的主效QTL。该基因编码一个与玉米KN1同源的基因,LsKN1。转基因互补实验和敲除实验验证了该基因对结球的调控作用。在结球生菜中,该基因的第一个外显子中插入了一个CACTA转座子。研究发现,CACTA转座子的插入并未敲除LsKN1基因的功能。相反,转座子插入后LsKN1基因的表达量显著上调。启动子活性实验证明,该CACTA转座子本身具有启动子活性。
拟南芥中KN1基因的同源基因为STM(ShootMeristemless),该基因主要在分生组织处表达,其功能为维持分生组织干细胞的特性,抑制干细胞的过早分化。对莴苣和向日葵基因组分析发现,KN1基因在菊科中发生了一次复制。莴苣中的LsKN1基因的表达模式和功能发生了明显分化,在叶中有较高的表达。该基因受CACTA转座子上调表达后,结球生菜叶片近远轴细胞相似,背腹性分化减弱。ChIP-seq,EMSA和Y1H实验均表明,LsKN1蛋白结合LsAS1基因的启动子并抑制其表达。LsAS1的抑制表达使叶片背腹性减弱,进而形成叶球。在结球生菜中超量表达LsAS1导致叶片向外翻转,从而验证了抑制LsAS1基因的表达是生菜结球性状形成的关键。
▲CACTA转座子插入到LsKN1基因的第一个外显子中引起生菜结球的表型
华中农业大学园艺林学学院博士后余长春及博士毕业生严承欢为论文的共同第一作者,匡汉晖教授为论文的通讯作者。
揭示稻米中油脂合成的新途径
▲稻米中油脂合成的遗传结构以及初步的油脂合成代谢途径
近日,华中农业大学作物遗传改良国家重点实验室、生命科学技术学院水稻分子育种团队在MolecularPlant在线发表了题为“GeneticArchitectureandKeyGenesControllingtheDiversityofOilCompositioninRiceGrain”的研究论文,研究鉴定了水稻胚乳中11个油脂相关性状的99个QTL,克隆了4个对油脂组成自然变异有重要贡献的新基因,提出了水稻籽粒油脂生物合成的新途径,解析了稻米油脂合成遗传基础的最新研究成果。
稻米中的脂类不仅是大米重要的营养成分,也是米饭的重要蒸煮食味品质和储藏品质性状。稻米米糠油具有良好的饱和脂肪酸和不饱和脂肪酸比例,是谷维素的唯一来源,也是最健康的食用油之一。因此,优质水稻品种油脂的含量对稻米食味影响非常重要,但其遗传机理还不清楚。
该研究利用GC-MS鉴定了份多样性的栽培稻种子中脂肪酸的组分和含量,发现各种脂肪酸组分存在广泛的变异并且在栽培稻亚群之间存在明显的差异。通过全基因组关联分析,研究团队共鉴定了46个显著性位点,其中16个位点在3个RIL群体中被重复检测到。团队克隆了OsPAL6、OsLIN6、OsMYR2和OsFAE6等显著影响油脂含量及组份的新基因,解析了其自然变异的遗传基础,为优质水稻育种提供了重要理论依据。
华中农业大学博士研究生周浩、夏朵为本论文共同第一作者,何予卿教授为论文通讯作者。作物遗传改良国家重点实验室品质分析平台为该研究的开展提供了支持,植物科学技术学院郭亮教授为基因功能分析提供了帮助。
在纳米塑料与蓝藻*素联合致*机理研究中取得新进展
近日,JournalofHazardousMaterials在线发表了华中农业大学水产学院水*理与环境健康团队李广宇教授课题组的研究成果,论文题为“TheJointEffectofParentalExposuretoMicrocystin-LRandPolystyreneNanoplasticsontheGrowthofZebrafishOffspring”。该论文首次揭示纳米塑料与蓝藻*素(MCLR)具有联合*性效应,可通过母体传递抑制鱼类子代生长发育。
由于紫外线辐射、机械磨蚀、生物降解,环境中的塑料废物被降解成纳米塑料(NPs),最终进入水生生态系统,对鱼类正常的新陈代谢及繁殖构成了极大危胁。NPs因其独特的理化性质,不仅单独暴露会引发鱼类*性效应,还可与环境中其它污染物产生“木马效应”,对鱼类产生联合*性效应。该研究团队利用聚苯乙烯纳米塑料(PSNPs)对几十种淡水水体常见污染物进行筛选后发现,PSNPs可显著放大蓝藻*素(MCLR)的*性效应,并可作为载体增强MCLR的母体传递效应造成MCLR在子代胚胎的大量蓄积,最终通过干扰甲状腺激素和生长激素的分泌引发鱼类子代发育迟缓。该研究为自然水体中纳米塑料与蓝藻*素的联合暴露*性提供了新证据,丰富纳米塑料与其他淡水污染物对接触生物的混合*性及其相互作用的潜在机制,为纳米塑料的生态*性和环境风险的防控提供了基础数据。
华中农业大学水产学院博士研究生左俊丽为论文第一作者,李广宇教授为论文的通讯作者。
在高维数据模式分类研究领域取得新进展
近日,华中农大信息学院王玉龙教授和理学院陈洪教授机器学习团队在IEEETransactionsonCybernetics在线发表了题为“GeneralizedandDiscriminativeCollaborativeRepresentationforMulticlassClassification”的研究论文。研究人员利用高维数据的内在本质低维结构信息提出了具有高可解释性、强判别性、高效率的高维数据模式分类方法。
高维数据广泛存在于科学研究和社会生活的各个领域中,如高维生物基因表达数据、高维医学图像数据、互联网中的高分辨率图像(视频)数据。然而,高维数据往往会引起“维数灾难”,降低算法性能,并带来巨大的存储和计算负担。如何利用高维数据的内在结构信息克服上述困难,进而建立高效的高维数据学习方法及理论已成为机器学习领域的热点课题,具有重要的理论和应用价值。
本研究通过挖掘和利用高维数据的内在本质多低维子空间结构,设计了基于广义协同表示(GeneralizedCollaborativeRepresentation)的高维数据模式分类一般框架,从更高层次分析不同表示分类方法的共同属性和差异,并给出了相应的理论分析,阐明了其分类原理和内在机制。为了进一步提升表示系数的辨识度和算法的分类性能,基于该框架设计了一种判别表示高维数据分类方法(DiscriminativeRepresentationbasedClassification,DRC)。该方法同时具备可解释性高、判别性强和效率高等优点。其分类与识别流程如下图。
高维数据模式分类与识别流程
此外,研究人员揭示了高维数据空间分布情况与DRC算法分类性能的关系,并建立了相应的理论保证。该项成果有助于深入理解高维数据的内在结构与模式识别的关系,为高维数据学习和其他机器学习任务的研究提供指导。
本研究是继年在IEEETransactionsonPatternAnalysisandMachineIntelligence和年在IEEETransactionsonCybernetics发表原子表示高维数据学习相关成果后,该团队在高维数据人工智能方法研究领域取得的新进展。信息学院王玉龙教授为论文第一作者,理学院陈洪教授为论文通讯作者。
论文链接: