当地时间7月12日,Google和DeepMind的科研人员在《自然》杂志上发表一项研究,提出了MultiMed QA评估基准,用于评测大语言模型在临床知识方面的表现。结果研究人员发现,大语言模型构建的AI医生在很多方面与人类医生相当。
谷歌的研究人员表示,这项技术不会威胁到全科医生的工作,但未来可能可以用于医疗求助热线。
研究人员提出一个评估基准来评测大语言模型在临床知识方面的表现,在引入指令提示调整后,由此产生的模型Med-PaLM表现令人鼓舞:92.6%的长篇答案符合科学共识,与临床医生生成的答案(92.9%)相当;5.9%的答案被评为可能导致有害结果,与临床医生生成的答案(5.7%)的结果相似。(澎湃新闻)