[go: up one dir, main page]

CN116601670A - 用于对跨医学图像中的变化进行域泛化的系统和方法 - Google Patents

用于对跨医学图像中的变化进行域泛化的系统和方法 Download PDF

Info

Publication number
CN116601670A
CN116601670A CN202180078932.6A CN202180078932A CN116601670A CN 116601670 A CN116601670 A CN 116601670A CN 202180078932 A CN202180078932 A CN 202180078932A CN 116601670 A CN116601670 A CN 116601670A
Authority
CN
China
Prior art keywords
image data
images
training
frames
captured image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180078932.6A
Other languages
English (en)
Inventor
E·陈
J·加莱奥蒂
H·乔赛特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Carnegie Mellon University
Original Assignee
Carnegie Mellon University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Carnegie Mellon University filed Critical Carnegie Mellon University
Publication of CN116601670A publication Critical patent/CN116601670A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的运动的方法,所述方法包括:捕获图像数据,所述图像数据包括在成像设备和组织之间的运动;通过以下中的至少一个修改所捕获的图像数据以产生修改后的图像数据:改变在任意两个帧之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据中;以及基于该修改后的图像数据来训练基于机器学习的AI模型。还描述了其他系统和方法。

Description

用于对跨医学图像中的变化进行域泛化的系统和方法
相关申请的交叉引用
本申请要求于2020年11月13日提交的第63/113,397号美国临时专利申请的优先权,该申请的公开内容通过引用整体并入本文。
技术领域
本公开总体上涉及超声波图像处理并且在非限制性实施例或方面中,涉及用于对跨医学图像中的变化进行域泛化的系统和方法。
背景技术
超声波已经成为越来越受欢迎的医学成像技术。例如,超声波可以是相对低风险的(例如,相对少的潜在副作用等等)、便携的、无辐射的、相对便宜的(例如,与其他类型的医学成像相比)等等。
许多机器学习技术(诸如深度学习)已经被用于分析不同场景中的超声波图像。深度学习技术和最近的进步已经允许在实时超声波成像场景中提高模型性能达到或超过人类技能的水平。然而,此类性能提高一般仅适用于单个域,诸如解剖结构、扫描仪类型、成像设置、探头位置和外部伪影。在医学成像领域,特别是超声波领域,现实生活场景可能会对传统训练的深度学习模型提出挑战。
某些类型的解剖结构、成像设置或损伤场景呈现了新的数据,所述新的数据是训练过的深度学习模型在之前未看到过的。例如,在紧急场景下,医疗专业人员可能使用更快且更不稳定的扫描方法来捕获实时超声波图像。为了在所有可能的场景下训练模型,将需要大量的医学成像数据。然而,医学成像数据集通常在数量上是有限的并且跨越受限的分布。在对来自不同解剖区、扫描仪设置或现实生活中常见的成像场景的数据执行测试时,根据预先存在的医学成像数据所训练的深度学习模型通常表现不佳。这些模型不能泛化到训练分布之外的数据和未见过的图像。这可能会限制此类深度学习模型的真实世界用例。另外,跨越所有可能的场景来收集所需数据以正确地训练深度学习模型将是非常耗时且昂贵的。在不同的扫描速率和成像条件下获得正确标记的超声波数据以用于模型训练是不切实际的。
一些时间数据增强方法包括窗口扭曲,其中通过在每个数据序列内丢弃恒定数量的数据点来解决图像数据中的时间偏移,从而扩展在所述数据中的时间范围。然而,窗口扭曲和其他方法没有解决在超声波成像中的快速和/或不可预测的变化。
为了解决这些问题中的一些,可以在超声波图像数据集上使用不同的数据增强策略。然而,当前不存在以下的数据增强策略:其在实时医学成像中跨过基于时间的成像模态、空间解剖变化、扫描程序、成像设置或其他可察觉的差异而积极地进行泛化。当前的数据增强技术一般限于简单的静态变换,诸如旋转、翻转、倾斜和模糊。然而,这些简单的变换不能够使数据增强策略适应深度学习模型的当前状态。由于训练数据分布可能与测试时的分布有很大不同,因此超声波图像提供了一组特定的挑战。当前的简单变换数据增强策略不能准确地捕获这些分布。
发明内容
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的运动的方法,该方法包括:使用成像设备捕获图像数据以生成所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;用计算设备通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:改变在所捕获的图像数据的任意两个帧之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据,该一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;以及用计算设备基于修改后的图像数据来训练基于机器学习的AI模型。
在非限制性实施例或方面中,图像数据被实时捕获或是先前被捕获的。在非限制性实施例或方面中,修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该方法还包括:确定针对所捕获的图像数据的每个帧的概率值;以及通过将每个帧的概率值与预定的概率阈值进行比较来确定所捕获的图像数据的帧的子序列。在非限制性实施例或方面中,修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该方法还包括:从所捕获的图像数据中选择一系列帧;生成随机整数,所述随机整数具有大于或等于该一系列帧的第一帧号并且小于或等于比该一系列帧的最后一帧大一的值;以及基于随机整数确定针对帧的子序列的所选择的帧。在非限制性实施例或方面中,修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,该方法还包括:随机地生成预定长度的时间偏移;将所捕获的图像数据拆分成等于预定长度的多个子序列;为多个子序列中的每个子序列生成随机整数;以及基于对应于所述子序列的随机整数而空间地偏移多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。在非限制性实施例或方面中,所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且该基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、或其任意组合。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)以处理在视频获取期间发生的各种类型的运动的系统,该系统包括至少一个计算设备,该至少一个计算设备被编程或被配置为:使用成像设备捕获图像数据以生成所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:改变在所捕获的图像数据的任意两个图像之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据,该一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;并且基于修改后的图像数据来训练基于机器学习的AI模型。
在非限制性实施例或方面中,图像数据被实时捕获或是先前被捕获的。在非限制性实施例或方面中,修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该至少一个计算设备进一步被配置为:确定针对所捕获的图像数据的每个帧的概率值;并且通过将每个帧的概率值与预定的概率阈值进行比较来确定图像数据的帧的子序列。在非限制性实施例或方面中,修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该至少一个计算设备进一步被配置为:从所捕获的图像数据中选择一系列帧;生成随机整数,所述随机整数具有大于或等于该一系列帧的第一帧号并且小于或等于比该一系列帧的最后一帧大一的值;以及基于随机整数确定针对帧的子序列的所选择的帧。在非限制性实施例或方面中,修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,该至少一个计算设备进一步被配置为:随机地生成预定长度的时间偏移幅度;将所捕获的图像数据拆分成等于预定长度的多个子序列;为多个子序列中的每个子序列生成随机整数;以及基于对应于子序列的随机整数而空间地偏移多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。在非限制性实施例或方面中,所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且该基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、或其任意组合。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)以处理在视频获取期间发生的各种类型的运动的计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得该至少一个计算设备:使用成像设备捕获图像数据以生成所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:改变在所捕获的图像数据的任意两个图像之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据,该一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;并且基于修改后的图像数据来训练基于机器学习的AI模型。
在非限制性实施例或方面中,图像数据被实时捕获或是先前被捕获的。在非限制性实施例或方面中,修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该程序指令进一步使得至少一个计算设备:确定针对所捕获的图像数据的每个帧的概率值;并且通过将每个帧的概率值与预定的概率阈值进行比较来确定图像数据的帧的子序列。在非限制性实施例或方面中,修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该程序指令进一步使得至少一个计算设备:从所捕获的图像数据中选择一系列帧;生成随机整数,所述随机整数具有大于或等于该一系列帧的第一帧号并且小于或等于比该一系列帧的最后一帧大一的值;以及基于随机整数确定针对帧的子序列的选择的帧。在非限制性实施例或方面中,修改所捕获的图像数据包括将一个或多个新的帧的子序列添加到所捕获的图像数据,该程序指令进一步使得该至少一个计算设备:为预定长度的帧的每个子序列随机地生成时间偏移幅度;将所捕获的图像数据拆分成等于预定长度的多个子序列;为多个子序列中的每个子序列生成随机整数;以及基于对应于子序列的随机整数而空间地偏移多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。在非限制性实施例或方面中,所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且该基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、或其任意组合。在非限制性实施例或方面中,修改所捕获的图像数据包括生成所捕获的图像数据的副本以及修改所捕获的图像数据的副本以形成修改后的图像数据。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的方法,该方法包括:使用成像设备捕获一系列训练医学图像,该一系列训练医学图像包括在序列中的多个帧;用计算设备在每个帧周围和在该多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;用计算设备,基于该组控制点和不确定性映射,用卷积神经网络为该至少一个帧子组中的每个帧生成一组变形的控制点;基于该组变形的控制点,用计算设备将几何失真应用于所述至少一个帧子组中的每个帧以生成新的训练图像;以及用计算设备基于新的训练图像来训练基于机器学习的AI模型。
在非限制性实施例或方面中,该组变形的控制点是基于仿射变换生成的。在非限制性实施例或方面中,通过自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成该组变形的控制点。在非限制性实施例或方面中,自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值是基于认知和/或偶然不确定性映射的。在非限制性实施例或方面中,认知和/或偶然不确定性映射是从正被训练的基于机器学习的AI模型输出的。在非限制性实施例或方面中,正被训练的基于机器学习的AI模型包括贝叶斯人工神经网络。在非限制性实施例或方面中,基于被配置为将自动评估的输出作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成该组变形的控制点。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的方法,该方法包括:使用成像设备捕获一系列训练医学图像;将该训练医学图像增强为新的训练图像,其中不同的失真针对在该一系列训练医学图像和/或视频的独立帧内的不同部分;对新的训练图像的中的每一个新的训练图像应用失真;以及在AI学习期间,基于对以下至少一个的自动评估,交互式地计算所述失真:与在训练中的那个时刻被AI视觉理解更具挑战性的部分相比,训练图像的哪些部分被AI视觉理解更不具挑战性;和/或在训练中的那个时刻AI受到训练图像的不同部分中的每一个挑战的程度。
在非限制性实施例或方面中,失真是几何失真并且是使用移动最小二乘图像变形来应用的。在非限制性实施例或方面中,基于将不同图像区域的挑战性的评估作为输入进行处理的独立代理对抗性增强人工神经网络的输出来计算该失真。在非限制性实施例或方面中,增强系统将训练医学图像增强为新的训练图像,并且增强系统与一个或多个数据增强过程集成,使得增强系统在训练期间点增强图像数据的特定区域。
根据非限制性实施例或方面,提供了一种系统,其包括被编程或被配置为执行该方法的至少一个计算设备。根据非限制性实施例或方面,提供了一种计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得至少一个计算设备执行该方法。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的系统,该系统包括至少一个计算设备,该计算设备被编程或被配置为:使用成像设备捕获一系列训练医学图像,该一系列训练医学图像包括在序列中的多个帧;在每个帧周围和在该多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;基于该组控制点和不确定性映射,用卷积神经网络为该至少一个帧子组中的每个帧生成一组变形的控制点;基于该组变形的控制点,将几何失真应用于所述至少一个帧子组中的每个帧以生成新的训练图像;并且基于新的训练图像训练基于机器学习的AI模型。
在非限制性实施例或方面中,该组变形的控制点是基于仿射变换生成的。在非限制性实施例或方面中,通过自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成该组变形的控制点。在非限制性实施例或方面中,其中自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值是基于认知和/或偶然不确定性映射的。在非限制性实施例或方面中,认知和/或偶然不确定性映射是从正被训练的基于机器学习的AI模型输出的。在非限制性实施例或方面中,正被训练的基于机器学习的AI模型包括贝叶斯人工神经网络。在非限制性实施例或方面中,基于被配置为将自动评估作为输入进行处理的的独立代理对抗性增强人工神经网络的输出来生成该组变形的控制点。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得该至少一个计算设备:使用成像设备捕获一系列训练医学图像,该一系列训练医学图像包括在序列中的多个帧;在每个帧周围和在该多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;基于该组控制点和不确定性映射,用卷积神经网络为该至少一个帧子组中的每个帧生成一组变形的控制点;基于该组变形的控制点,将几何失真应用于至少一个帧子组中的每个帧以生成新的训练图像;并且基于新的训练图像训练基于机器学习的AI模型。在非限制性实施例或方面中,该组变形的控制点是基于仿射变换生成的。
在非限制性实施例或方面中,通过自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成该组变形的控制点。在非限制性实施例或方面中,自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值是基于认知和/或偶然不确定性映射的。在非限制性实施例或方面中,认知和/或偶然不确定性映射是从正被训练的基于机器学习的AI模型输出的。在非限制性实施例或方面中,正被训练的基于机器学习的AI模型包括贝叶斯人工神经网络。在非限制性实施例或方面中,基于被配置为将自动评估的输出作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成该组变形的控制点。
根据非限制性实施例或方面,提供了一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的系统,该系统包括:机器人,其被配置为自主地获取对象的训练图像数据;至少一个计算设备,其与机器人通信,该至少一个计算设备被配置为:当由机器人获取训练图像数据时,实时评估训练图像数据的图像质量;基于训练图像数据的图像质量创建训练图像数据的至少一个映射;以及基于训练图像数据的至少一个映射来协调由机器人对新的训练图像数据的获取。
在非限制性实施例或方面中,评估图像质量包括确定平均值估计和所述平均值估计的不确定性估计。在非限制性实施例或方面中,确定平均值估计和不确定性估计是基于高斯过程或协方差模型的。在非限制性实施例或方面中,其中协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善或其任意组合。在非限制性实施例或方面中,至少一个计算装置进一步被配置为基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定平均值估计和不确定性估计。在非限制性实施例或方面中,其中由机器人或第二设备自主地物理地操纵组织以改变在获取训练图像数据的同时所捕获的图像的外观。在非限制性实施例或方面中,至少一个计算设备进一步被配置为基于新的训练图像数据来训练基于机器学习的AI模型,并且机器人或第二设备被配置为在基于机器学习的AI模型的运行时使用期间操纵组织。在非限制性实施例或方面中,所述组织被物理地操纵以表现为在新的训练图像数据中捕获的组织。在非限制性实施例或方面中,该至少一个计算设备进一步被配置为递增地改变训练图像数据的一个或多个方面以提高图像质量。在非限制性实施例或方面中,至少一个计算设备包括第一AI系统和第二AI系统,第一AI系统包括学生AI系统,并且第二AI系统包括教师AI系统,该教师AI系统被配置为基于预期的行动过程来协调学生AI系统。在非限制性实施例或方面中,其中该训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示在该训练图像数据中变化的单个方面,并且该新的训练图像数据的获取或该训练图像数据的增强是基于该潜在向量表示的。在非限制性实施例或方面中,至少一个计算设备进一步被配置为基于解耦的数据表示来创建或推断独立的潜在向量。在非限制性实施例或方面中,该训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像或其任意组合,并且该至少一个计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树或其任意组合。在非限制性实施例或方面中,至少一个计算设备包括第一AI系统和第二AI系统,第一AI系统被配置为当由机器人获取训练图像数据时实时评估训练图像数据的图像质量,并且基于训练图像数据的图像质量创建训练图像数据的至少一个映射,并且第二AI系统被配置为基于训练图像数据的至少一个映射来协调对新的训练图像数据的获取。
根据非限制性实施例或方面,提供了一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的方法,该方法包括:用计算设备自主地获取机器人的对象的训练图像数据;当由机器人获取训练图像数据时,用计算设备实时评估训练图像数据的图像质量;基于训练图像数据的图像质量,用计算设备创建训练图像数据的至少一个映射;以及基于训练图像数据的至少一个映射,用计算设备协调由机器人对新的训练图像数据的获取。
在非限制性实施例或方面中,评估图像质量包括确定平均值估计和所述平均值估计的不确定性估计。在非限制性实施例或方面中,其中确定平均值估计和不确定性估计是基于高斯过程或协方差模型的。在非限制性实施例或方面中,协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善或其任意组合。在非限制性实施例或方面中,该方法还包括基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定平均值估计和不确定性估计。在非限制性实施例或方面中,由机器人或第二设备自主地物理地操纵组织以改变在获取训练图像数据的同时所捕获的图像的外观。在非限制性实施例或方面中,该方法还包括基于新的训练图像数据来训练基于机器学习的AI模型,并且机器人或第二设备被配置为在基于机器学习的AI模型的运行时使用期间操纵组织。在非限制性实施例或方面中,所述组织被物理地操纵以表现为在新的训练图像数据中捕获的组织。在非限制性实施例或方面中,该方法还包括递增地改变训练图像数据的一个或多个方面以提高图像质量。在非限制性实施例或方面中,其中该训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示在该训练图像数据中变化的单个方面,并且该新的训练图像数据的获取或该训练图像数据的增强是基于该潜在向量表示的。在非限制性实施例或方面中,至少一个计算设备进一步被配置为基于解耦的数据表示来创建或推断独立的潜在向量。在非限制性实施例或方面中,该训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像或其任意组合,并且该计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树或其任意组合。
根据非限制性实施例或方面,提供了一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得至少一个计算设备:用机器人自主地获取对象的训练图像数据;当由机器人获取训练图像数据时,实时评估训练图像数据的图像质量;基于训练图像数据的图像质量来创建训练图像数据的至少一个映射;以及基于训练图像数据的至少一个映射来协调由机器人对新的训练图像数据的获取。
在非限制性实施例或方面中,评估图像质量包括确定平均值估计和所述平均值估计的不确定性估计。在非限制性实施例或方面中,确定平均值估计和不确定性估计是基于高斯过程或协方差模型的。在非限制性实施例或方面中,协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善或其任意组合。在非限制性实施例或方面中,所述程序指令进一步使得至少一个计算装置基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定平均值估计和不确定性估计。在非限制性实施例或方面中,由机器人或第二设备自主地物理地操纵组织以改变在获取训练图像数据的同时所捕获的图像的外观。在非限制性实施例或方面中,程序指令进一步使得至少一个计算设备基于新的训练图像数据来训练基于机器学习的AI模型,并且机器人或第二设备被配置为在基于机器学习的AI模型的运行时使用期间操纵组织。在非限制性实施例或方面中,所述组织被物理地操纵以表现为在新的训练图像数据中捕获的组织。在非限制性实施例或方面中,程序指令进一步使得至少一个计算设备递增地改变训练图像数据的一个或多个方面以提高图像质量。在非限制性实施例或方面中,其中该训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示该训练图像数据中变化的单个方面,并且该新的训练图像数据的获取或该训练图像数据的增强是基于该潜在向量表示的。在非限制性实施例或方面中,程序指令进一步使得至少一个计算设备基于解耦的数据表示来创建或推断独立的潜在向量。在非限制性实施例或方面中,该训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像或其任意组合,并且该至少一个计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树或其任意组合。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的方法,该方法包括:使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;确定至少一个潜在向量表示;将该至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;用变分自动编码器模型将至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;以及基于对抗图像数据来训练基于机器学习的AI模型。在非限制性实施例或方面中,潜在向量表示的每个向量维度表示目标域的单个变化程度。在非限制性实施例或方面中,其中每个潜在向量表示独立于每个其他潜在向量表示。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的系统,该系统包括至少一个计算设备,该计算设备被编程或被配置为:使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;确定至少一个潜在向量表示;将该至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;用变分自动编码器模型将该至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;并且基于对抗图像数据来训练基于机器学习的AI模型。在非限制性实施例或方面中,潜在向量表示的每个向量维度表示目标域的单个变化程度。在非限制性实施例或方面中,每个潜在向量表示独立于每个其他潜在向量表示。
根据非限制性实施例或方面,提供了一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的计算机程序产品,该计算机程序产品包括非暂态计算机可读介质,该非暂态计算机可读介质包括至少一个程序指令,该至少一个程序指令当由至少一个计算设备执行时使得该至少一个计算设备:使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;确定至少一个潜在向量表示;将该至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;用变分自动编码器模型将该至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;并且基于对抗图像数据来训练基于机器学习的AI模型。在非限制性实施例或方面中,其中潜在向量表示的每个向量维度表示目标域的单个变化程度。在非限制性实施例或方面中,其中每个潜在向量表示独立于每个其他潜在向量表示。
在以下编号的条款中阐述了进一步的实施例或方面:
条款1:一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的运动的方法,该方法包括:使用成像设备捕获图像数据以生成所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;用计算设备通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:改变在所捕获的图像数据的任意两个帧之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据,该一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;以及用计算设备基于修改后的图像数据来训练基于机器学习的AI模型。
条款2:根据条款1所述的方法,其中该图像数据是实时捕获的或是先前捕获的。
条款3:根据条款1或2所述的方法,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该方法还包括:确定针对所捕获的图像数据的每个帧的概率值;以及通过将每个帧的概率值与预定的概率阈值进行比较来确定所捕获的图像数据的帧的子序列。
条款4:如条款1至3中任一项所述的方法,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该方法还包括:从所捕获的图像数据中选择一系列帧;生成随机整数,所述随机整数具有大于或等于该一系列帧的第一帧号并且小于或等于比该一系列帧的最后一帧大一的值;以及基于随机整数来确定针对帧的子序列的所选择的帧。
条款5:根据条款1至4中任一项所述的方法,其中修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,该方法还包括:随机地生成预定长度的时间偏移;将所捕获的图像数据拆分成等于预定长度的多个子序列;为多个子序列中的每个子序列生成随机整数;以及基于对应于子序列的随机整数而空间地偏移多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。
条款6:根据条款1至5中任一项所述的方法,其中所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中该基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、或其任意组合。
条款7:一种用于训练基于机器学习的人工智能(AI)以处理在视频获取期间发生的各种类型的运动的系统,该系统包括至少一个计算设备,该至少一个计算设备被编程或被配置为:使用成像设备捕获图像数据以生成所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:改变在所捕获的图像数据的任意两个图像之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据,该一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;并且基于修改后的图像数据来训练基于机器学习的AI模型。
条款8:根据条款7所述的系统,其中该图像数据是实时捕获的或是先前捕获的。
条款9:根据条款7或8所述的系统,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该至少一个计算设备进一步被配置为:确定针对所捕获的图像数据的每个帧的概率值;并且通过将每个帧的概率值与预定的概率阈值进行比较来确定图像数据的帧的子序列。
条款10:根据条款7至9中任一项所述的系统,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该至少一个计算设备进一步被配置为:从所捕获的图像数据中选择一系列帧;生成随机整数,所述随机整数具有大于或等于该一系列帧的第一帧号并且小于或等于比该一系列帧的最后一帧大一的值;以及基于随机整数确定针对帧的子序列的所选择的帧。
条款11:根据条款7至10中任一项所述的系统,修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,该至少一个计算设备进一步被配置为:随机地生成预定长度的时间偏移幅度;将所捕获的图像数据拆分成等于预定长度的多个子序列;为多个子序列中的每个子序列生成随机整数;以及基于对应于子序列的所述随机整数,空间地偏移所述多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。
条款12:根据条款7至11中任一项所述的系统,其中所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中该基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、或其任意组合。
条款13:一种用于训练基于机器学习的人工智能(AI)以处理在视频获取期间发生的各种类型的运动的计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得该至少一个计算设备:使用成像设备捕获图像数据以生成所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:改变在所捕获的图像数据的任意两个图像之间的时间量;从所捕获的图像数据中移除帧的子序列;以及将一个或多个新的帧的子序列添加到所捕获的图像数据,该一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;并且基于修改后的图像数据来训练基于机器学习的AI模型。
条款14:根据条款13所述的计算机程序产品,其中该图像数据是实时捕获的或是先前捕获的。
条款15:根据条款13或14所述的计算机程序产品,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该程序指令进一步使得至少一个计算设备:确定针对所捕获的图像数据的每个帧的概率值;并且通过将每个帧的概率值与预定的概率阈值进行比较来确定图像数据的帧的子序列。
条款16:根据条款13至15中任一项所述的计算机程序产品,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,该程序指令进一步使得至少一个计算设备:从所捕获的图像数据中选择一系列帧;生成随机整数,所述随机整数具有大于或等于该一系列帧的第一帧号并且小于或等于比该一系列帧的最后一帧大一的值;以及基于随机整数来确定针对帧的子序列的所选择的帧。
条款17:根据条款13至16中任一项所述的计算机程序产品,其中修改所捕获的图像数据包括将一个或多个新的帧的子序列添加到所捕获的图像数据,该程序指令进一步使得该至少一个计算设备:为预定长度的帧的每个子序列随机地生成时间偏移幅度;将所捕获的图像数据拆分成等于预定长度的多个子序列;为多个子序列中的每个子序列生成随机整数;以及基于对应于所述子序列的所述随机整数来空间地偏移多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。
条款18:根据条款13至17中任一项所述的计算机程序产品,其中所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中该基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、或其任意组合。
条款19:根据条款1至6中任一项所述的方法,其中修改所捕获的图像数据包括生成所捕获的图像数据的副本并且修改所捕获的图像数据的副本以形成修改后的图像数据。
条款20:一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的方法,该方法包括:使用成像设备捕获一系列训练医学图像,该一系列训练医学图像包括序列中的多个帧;用计算设备在每个帧周围和在该多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;用计算设备,基于该组控制点和不确定性映射,用卷积神经网络为该至少一个帧子组中的每个帧生成一组变形的控制点;基于该组变形的控制点,用计算设备将几何失真应用于至少一个帧子组中的每个帧以生成新的训练图像;以及用计算设备基于新的训练图像来训练基于机器学习的AI模型。
条款21:根据条款20所述的方法,其中该组变形的控制点是基于仿射变换生成的。
条款22:根据条款20或21所述的方法,其中通过自动评估至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成该组变形的控制点。
条款23:根据条款20至22中任一项所述的方法,其中自动评估该至少一个帧子组中的每个帧的哪些部分满足不确定性阈值是基于认知和/或偶然不确定性映射的。
条款24:根据条款20至23中任一项所述的方法,其中该认知和/或偶然不确定性映射是从正被训练的基于机器学习的AI模型输出的。
条款25:根据条款20至24中任一项所述的方法,其中正被训练的基于机器学习的AI模型包括贝叶斯人工神经网络。
条款26:根据条款20至25中任一项所述的方法,其中基于被配置为将自动评估的输出作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成该组变形的控制点。
条款27:一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的方法,该方法包括:使用成像设备捕获一系列训练医学图像;将该训练医学图像增强为新的训练图像,其中不同的失真针对该一系列训练医学图像和/或视频的各个帧内的不同部分;对新的训练图像的中的每一个新的训练图像应用失真;以及在AI学习期间,基于对以下至少一个的自动评估,交互式地计算失真:与在训练中的那个时刻由AI视觉理解更具挑战性的部分相比,训练图像的哪些部分由AI视觉理解更不具挑战性;和/或在训练中的那个时刻AI受到训练图像的不同部分中的每一个挑战的程度。
条款28:根据条款27所述的方法,其中该失真是几何失真并且是使用移动最小二乘图像变形来应用的。
条款29:根据条款27或28所述的方法,其中基于将不同图像区域的挑战性的评估作为输入进行处理的独立代理对抗性增强人工神经网络的输出来计算该失真。
条款30:根据条款27至29中任一项所述的方法,其中增强系统将训练医学图像增强为新的训练图像,并且其中该增强系统与一个或多个数据增强过程集成,使得该增强系统在训练期间点增强该图像数据的特定区域。
条款31:一种系统,其包括至少一个计算设备,该至少一个计算设备被编程或被配置为执行条款27至30中任一项所述的方法。
条款32:一种计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得至少一个计算设备执行条款27至30中任一项所述的方法。
条款33:一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的系统,该系统包括至少一个计算设备,该计算设备被编程或被配置为:使用成像设备捕获一系列训练医学图像,该一系列训练医学图像包括在序列中的多个帧;在每个帧周围和在该多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;基于该组控制点和不确定性映射,用卷积神经网络为该至少一个帧子组中的每个帧生成一组变形的控制点;基于该组变形的控制点,将几何失真应用于至少一个帧子组中的每个帧以生成新的训练图像;并且基于新的训练图像来训练基于机器学习的AI模型。
条款34:根据条款33所述的系统,其中该组变形的控制点是基于仿射变换生成的。
条款35:根据条款33或34所述的系统,其中通过自动评估在所述至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成该组变形的控制点。
条款36:根据条款33至35中任一项所述的系统,其中自动评估在该至少一个帧子组中的每个帧的哪些部分满足不确定性阈值是基于认知和/或偶然不确定性映射的。
条款37:根据条款33至36中任一项所述的系统,其中该认知和/或偶然不确定性映射是从正被训练的基于机器学习的AI模型输出的。
条款38:根据条款33至37中任一项所述的系统,其中正被训练的基于机器学习的AI模型包括贝叶斯人工神经网络。
条款39:根据条款33至38中任一项所述的系统,其中基于被配置为将自动评估作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成该组变形的控制点。
条款40:一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得该至少一个计算设备:使用成像设备捕获一系列训练医学图像,该一系列训练医学图像包括在序列中的多个帧;在每个帧周围和在该多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;基于该组控制点和不确定性映射,用卷积神经网络为该至少一个帧子组中的每个帧生成一组变形的控制点;基于该组变形的控制点,将几何失真应用于在所述至少一个帧子组中的每个帧以生成新的训练图像;并且基于新的训练图像训练基于机器学习的AI模型。
条款41:根据条款40所述的计算机程序产品,其中该组变形的控制点是基于仿射变换生成的。
条款42:根据条款40或41所述的计算机程序产品,其中通过自动评估该至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成该组变形的控制点。
条款43:根据条款40至42中任一项所述的计算机程序产品,其中自动评估该至少一个帧子组中的每个帧的哪些部分满足不确定性阈值是基于认知和/或偶然不确定性映射的。
条款44:根据条款40至43中任一项所述的计算机程序产品,其中该认知和/或偶然不确定性映射是从正被训练的基于机器学习的AI模型输出的。
条款45:根据条款40至44中任一项所述的计算机程序产品,其中正被训练的基于机器学习的AI模型包括贝叶斯人工神经网络。
条款46:根据条款40至45中任一项所述的计算机程序产品,其中基于被配置为将自动评估的输出作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成该组变形的控制点。
条款47:一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的系统,该系统包括:机器人,其被配置为自主地获取对象的训练图像数据;至少一个计算设备,其与机器人通信,该至少一个计算设备被配置为:当由机器人获取训练图像数据时,实时评估训练图像数据的图像质量;基于训练图像数据的图像质量来创建训练图像数据的至少一个映射;以及基于训练图像数据的至少一个映射来协调由机器人对新的训练图像数据的获取。
条款48:根据条款47所述的系统,其中评估图像质量包括确定平均值估计和该平均值估计的不确定性估计。
条款49:根据条款47或48所述的系统,其中确定该平均值估计和该不确定性估计是基于高斯过程或协方差模型的。
条款50:根据条款47至49中任一项所述的系统,其中协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善、或其任意组合。
条款51:根据条款47至50中任一项所述的系统,其中该至少一个计算装置进一步被配置为基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定该平均值估计和该不确定性估计。
条款52:根据条款47至51中任一项所述的系统,其中由机器人或第二设备自主地物理地操纵组织以改变在获取训练图像数据的同时所捕获的图像的外观。
条款53:根据条款47至52中任一项所述的系统,其中该至少一个计算设备进一步被配置为基于新的训练图像数据来训练基于机器学习的AI模型,并且其中该机器人或该第二设备被配置为在基于机器学习的AI模型的运行时使用期间操纵该组织。
条款54:根据条款47至53中任一项所述的系统,其中该组织被物理地操纵以表现为在新的训练图像数据中所捕获的组织。
条款55:根据条款47至54中任一项所述的系统,其中该至少一个计算设备进一步被配置为递增地改变该训练图像数据的一个或多个方面以提高图像质量。
条款56:根据条款47至55中任一项所述的系统,其中该至少一个计算设备包括第一AI系统和第二AI系统,其中该第一AI系统包括学生AI系统,并且其中该第二AI系统包括教师AI系统,该教师AI系统被配置为基于预期的行动过程来协调该学生AI系统。
条款57:根据条款47至56中任一项所述的系统,其中该训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示该训练图像数据中变化的单个方面,并且其中该新的训练图像数据的获取或该训练图像数据的增强是基于该潜在向量表示的。
条款58:根据条款47至57中任一项所述的系统,其中该至少一个计算设备进一步被配置为基于解耦的数据表示来创建或推断独立的潜在向量。
条款59:根据条款47至58中任一项所述的系统,其中该训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中该至少一个计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树、或其任意组合。
条款60:根据条款47至59中任一项所述的系统,其中该至少一个计算设备包括第一AI系统和第二AI系统,其中该第一AI系统被配置为当由机器人获取训练图像数据时实时评估训练图像数据的图像质量,并且基于训练图像数据的图像质量创建训练图像数据的至少一个映射,并且其中该第二AI系统被配置为基于该训练图像数据的至少一个映射来协调对新的训练图像数据的获取。
条款61:一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的方法,该方法包括:用计算设备自主地获取机器人的对象的训练图像数据;当由机器人获取训练图像数据时,用计算设备实时评估训练图像数据的图像质量;基于训练图像数据的图像质量,用计算设备创建训练图像数据的至少一个映射;以及基于训练图像数据的至少一个映射,用计算设备协调由机器人对新的训练图像数据的获取。
条款62:根据条款61所述的方法,其中评估图像质量包括确定平均值估计和该平均值估计的不确定性估计。
条款63:根据条款61或62所述的方法,其中确定平均值估计和不确定性估计是基于高斯过程或协方差模型的。
条款64:根据条款61至63中任一项所述的方法,其中协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善或其任意组合。
条款65:根据条款61至64中任一项所述的方法,还包括基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定平均值估计和不确定性估计。
条款66:根据条款61至65中任一项所述的方法,其中由机器人或第二设备自主地物理地操纵组织以改变在获取训练图像数据的同时所捕获的图像的外观。
条款67:根据条款61至66中任一项所述的方法,还包括基于新的训练图像数据来训练基于机器学习的AI模型,并且其中该机器人或该第二设备被配置为在基于机器学习的AI模型的运行时使用期间操纵该组织。
条款68:根据条款61至67中任一项所述的方法,其中该组织被物理地操纵以表现为在新的训练图像数据中被捕获的组织。
条款69:根据条款61至68中任一项所述的方法,还包括递增地改变训练图像数据的一个或多个方面以提高图像质量。
条款70:根据条款61至69中任一项所述的方法,其中该训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示在该训练图像数据中变化的单个方面,并且其中该新的训练图像数据的获取或该训练图像数据的增强是基于该潜在向量表示的。
条款71:根据条款61至70中任一项所述的方法,其中该至少一个计算设备进一步被配置为基于解耦的数据表示来创建或推断独立的潜在向量。
条款72:根据条款61至71中任一项所述的方法,其中该训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中该计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树、或其任意组合。
条款73:一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的计算机程序产品,该计算机程序产品包括至少一个非暂态计算机可读介质,该至少一个非暂态计算机可读介质包括程序指令,该程序指令当由至少一个计算设备执行时使得至少一个计算设备:用机器人自主地获取对象的训练图像数据;当由机器人获取训练图像数据时,实时评估训练图像数据的图像质量;基于训练图像数据的图像质量来创建训练图像数据的至少一个映射;以及基于训练图像数据的至少一个映射来协调由机器人对新的训练图像数据的获取。
条款74:根据条款73所述的计算机程序产品,其中评估图像质量包括确定平均值估计和所述平均值估计的不确定性估计。
条款75:根据条款73或74所述的计算机程序产品,其中确定平均值估计和不确定性估计是基于高斯过程或协方差模型的。
条款76:根据条款73至75中任一项所述的计算机程序产品,其中协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善或其任意组合。
条款77:根据条款73至76中任一项所述的计算机程序产品,其中该程序指令进一步使得该至少一个计算装置基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定该平均值估计和该不确定性估计。
条款78:根据条款73至77中任一项所述的计算机程序产品,其中由机器人或第二设备自主地物理地操纵组织以改变在获取训练图像数据的同时所捕获的图像的外观。
条款79:根据条款73至78中任一项所述的计算机程序产品,其中该程序指令进一步使得该至少一个计算设备基于新的训练图像数据来训练基于机器学习的AI模型,并且其中该机器人或该第二设备被配置为在基于机器学习的AI模型的运行时使用期间操纵该组织。
条款80:根据条款73至79中任一项所述的计算机程序产品,其中该组织被物理地操纵以表现为在新的训练图像数据中被捕获的组织。
条款81:根据条款73至80中任一项所述的计算机程序产品,其中该程序指令进一步使得该至少一个计算设备递增地改变该训练图像数据的一个或多个方面以提高图像质量。
条款82:根据条款73至81中任一项所述的计算机程序产品,其中该训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示在该训练图像数据中变化的单个方面,并且其中该新的训练图像数据的获取或该训练图像数据的增强是基于该潜在向量表示的。
条款83:根据条款73至82中任一项所述的计算机程序产品,其中该程序指令进一步使得该至少一个计算设备基于解耦的数据表示来创建或推断独立的潜在向量。
条款84:根据条款73至83中任一项所述的计算机程序产品,其中该训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中该至少一个计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树、或其任意组合。
条款85:一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的方法,该方法包括:使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;确定至少一个潜在向量表示;将该至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;用变分自动编码器模型将至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;以及基于对抗图像数据来训练基于机器学习的AI模型。
条款86:根据条款85所述的方法,其中潜在向量表示的每个向量维度表示目标域的单个变化程度。
条款87:根据条款85至86中任一项所述的方法,其中每个潜在向量表示独立于每个其他潜在向量表示。
条款88:一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的系统,该系统包括至少一个计算设备,该计算设备被编程或被配置为:使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;确定至少一个潜在向量表示;将该至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;用变分自动编码器模型将该至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;并且基于对抗图像数据来训练基于机器学习的AI模型。
条款89:根据条款88所述的系统,其中该潜在向量表示的每个向量维度表示目标域的单个变化程度。
条款90:根据条款88或89所述的系统,其中每个潜在向量表示独立于每个其他潜在向量表示。
条款91:一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的计算机程序产品,该计算机程序产品包括非暂态计算机可读介质,该非暂态计算机可读介质包括至少一个程序指令,该至少一个程序指令当由至少一个计算设备执行时使得该至少一个计算设备:使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在成像设备和组织之间的运动;确定至少一个潜在向量表示;将该至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;用变分自动编码器模型将该至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;并且基于对抗图像数据来训练基于机器学习的AI模型。
条款92:根据条款91所述的计算机程序产品,其中潜在向量表示的每个向量维度表示目标域的单个变化程度。
条款93:根据条款91或92所述的计算机程序产品,其中每个潜在向量表示独立于每个其他潜在向量表示。
在参考附图考虑以下描述和所附权利要求时,本公开的这些和其他特征和特性、以及操作方法和结构的相关元件的功能以及部分的组合和制造的经济性将变得更加明显,所有这些都形成本说明书的一部分,其中在各个附图中相同的附图标记表示对应的部分。然而,应清楚地理解,附图仅是为了说明和描述的目的,而不是作为对本发明的限制的定义。
附图说明
下面参考在附图中图示的非限制性示例性实施例更详细地说明另外的优点和细节,在附图中:
图1图示了根据非限制性实施例或方面的用于训练基于机器学习的人工智能(AI)模型的系统;
图2图示了根据非限制性实施例或方面的使用空间图像变形来训练基于机器学习的AI模型的系统;
图3图示了根据非限制性实施例或方面的用于使用对抗性图像数据修改来训练基于机器学习的AI模型的系统;
图4图示了根据非限制性实施例或方面的用于使用具有机器人控件的主动数据修改来训练基于机器学习的AI模型的系统;
图5图示了根据非限制性实施例或方面的用于训练基于机器学习的AI模型的方法;
图6是根据非限制性实施例或方面的用于训练基于机器学习的AI模型以处理在图像获取期间发生的各种类型的运动的方法的流程图;
图7是根据非限制性实施例或方面的用于训练基于机器学习的AI模型以处理在医学成像期间的各种类型的组织外观的方法的流程图;
图8是根据非限制性实施例或方面的用于通过在训练期间获取新的训练图像数据来训练基于机器学习的AI模型以处理在医学成像期间的各种类型和/或外观的组织的方法的流程图;
图9是根据非限制性实施例或方面的用于训练基于机器学习的AI模型以处理在医学图像获取期间发生的各种类型的变化的方法的流程图;和
图10是根据非限制性实施例或方面的计算设备的示意图。
具体实施方式
应当理解,实施例可以采取各种替代的变化和步骤顺序,除非有相反的明确说明。还应当理解,在以下说明书中描述的特定设备和过程仅是本公开的示例性实施例或方面。因此,与本文公开的实施例或方面相关的具体维度和其他物理特性不应被视为限制性的。本文使用的方面、部件、元件、结构、动作、步骤、功能、指令等等都不应被解释为关键的或必要的,除非如此明确描述。此外,如本文所用,冠词“一”和“一个”旨在包括一个或多个项目并且可以与“一个或多个”和“至少一个”互换使用。此外,如本文所用,术语“具有(has)”、“具有(have)”、“具有(having)”等等旨在作为开放式术语。此外,短语“基于”旨在表示“至少部分地基于”,除非另有明确说明。
如本文所用,术语“计算设备”可以指被配置为处理数据的一个或多个电子设备。在一些示例中,计算设备可以包括用于接收、处理和输出数据的必要部件,诸如处理器、显示器、存储器、输入设备、网络接口等等。计算设备可以是中央处理单元(CPU)、图形处理单元(GPU)等等。计算设备可以是移动设备。计算设备也可以是台式计算机或其他形式的非移动计算机。在非限制性实施例或方面中,计算设备可以包括AI加速器,包括专用集成电路(ASIC)神经引擎,诸如苹果的“神经引擎”或谷歌的张量处理单元。在非限制性实施例或方面中,计算设备可以由表示神经网络中的每个连接的多个独立电路组成,使得每个电路被配置为对来自神经网络中的每个节点的输入进行加权。在此类布置中,可以使用逻辑门和/或模拟电路,而不需要软件、处理器或存储器。
非限制性实施例或方面提供了一种用于使用超声波图像数据来训练基于机器学习的人工智能(AI)模型的系统和方法。在非限制性实施例或方面中,使用图像分割和数据修改方法来随机地修改(例如,增强、改变、编辑、使失真等等)医学图像,诸如但不限于超声波图像,并且使用修改后的图像作为训练数据来训练深度学习模型(例如,卷积神经网络(CNN)、贝叶斯神经网络(BNN)、和/或类似网络)以对跨图像的各个域进行泛化。非限制性实施例可以允许AI模型主动学习顺序特征不变性和由不同扫描程序生成的特征,使得AI模型可能能够对在非训练或真实世界场景中捕获的特征进行泛化。使用AI模型来解决在紧急场景期间的诸如快速和不稳定的血管搏动和超声波扫描方法的时间特征已被证明是具有挑战性的。
非限制性实施例或方面提供了通过随机时间数据增强来对医学图像的修改,其中修改后的图像可以用于训练AI模型以对跨医学图像的各个域进行泛化。在一些非限制性实施例或方面中,随机时间数据增强可以包括在所捕获的图像数据的每个序列内随机地丢弃帧。例如,所捕获的图像数据帧可以各自被分配概率值,并且如果帧的被分配概率值满足或超过阈值概率值,则该帧可以被丢弃。非限制性实施例或方面可以通过改变在所捕获的图像数据的任意两个帧之间的时间量来修改所捕获的图像数据来修改图像数据。非限制性实施例或方面可以通过从所捕获的图像数据中移除帧的子序列并且创建可以用于训练的生成的图像序列来修改所捕获的图像数据来修改医学图像数据。在一些非限制性实施例或方面中,可以通过随机地丢弃每隔一帧或随机选择的帧来生成图像数据的子序列。例如,可以通过从所捕获的图像数据序列中选择随机帧并且将选择的帧组合成新的序列来生成训练图像数据的序列。非限制性实施例或方面可以通过将一个或多个新的帧的子序列添加到所捕获的图像数据的序列来修改图像数据。在一些非限制性实施例或方面中,新的帧可以包括所捕获的图像数据的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在其他帧之间的内插帧、未包括在原始捕获的图像数据中的帧、或此类帧的任意组合。非限制性实施例或方面可以将所捕获的图像序列分成多个子序列,其中每个子序列可以具有被应用于在所述序列内的帧的不同幅度的空间和/或时间偏移。因此,非限制性实施例或方面提供用于跨在超声波成像帧之间的空间-时间差异而将运动综合地注入现有图像数据中。
非限制性实施例或方面可以自适应地生成空间变形以在模型的优势和/或劣势的区域中挑战AI模型。非限制性实施例或方面可以使用3D U-Net编码器-解码器架构的基于丢失的贝叶斯公式。在一些非限制性实施例或方面中,为了确定模型在图像或图像数据序列内的优势和/或劣势,可以使用贝叶斯时间分割网络(BTSN)或其他BNN来生成不确定性映射。例如,BNN可以用于输出认知不确定性映射。在一些非限制性实施例或方面中,BTSN或BNN可以输出图像分割。在一些非限制性实施例或方面中,不确定性映射可以被输入到另一个人工神经网络(ANN)中以对抗地生成几何失真的图像。ANN可以使用诸如移动最小二乘图像变形的方法来使现有图像空间地变形和/或失真,并且生成具有几何压缩、膨胀、扭转、剪切、移位的一个或多个区域的图像,和/或其他几何失真图像。非限制性实施例或方面可以使用CNN或其他神经网络来生成包括图像变形的合成和/或修改后的图像以用于训练。非限制性实施例可以将空间变形的自适应生成与其他数据修改技术集成。所描述的空间变形的自适应生成可以实时发生或可以应用于先前捕获的图像序列。因此,非限制性实施例或方面可以允许AI模型自动分割超声波图像中的图像和解剖标志的区域并且自适应地生成修改后的图像以用于学习跨各种成像伪影的不变性。
非限制性实施例或方面可以通过使用机器人控件来提供超声波图像数据的主动数据修改。非限制性实施例或方面可以在扫描和图像数据捕获期间以在线或实时方式训练分割模型。所捕获的图像数据可以用于建模在哪里搜索新的数据并且驱动机器人或机器人系统的运动。在一些非限制性实施例中,对下一步在哪里搜索另外的图像数据的信息的建模可以使用表示所捕获的图像数据的当前信任的平均值和不确定性的高斯过程或其他相关过程。在一些非限制性实施例或方面中,可以使用最高平均值、置信上限或预期的改善度量。随着新的图像数据被捕获,平均值映射和不确定性映射被更新。在一些非限制性实施例或方面中,平均值映射和不确定性映射可以用作CNN或其他AI模型的输入以确定在哪里驱动机器人系统的运动以捕获另外的图像数据。在一些非限制性实施例或方面中,不确定性映射可以从BTSN或其他BNN输出。非限制性实施例或方面提供了包括机器人控件的机器人或机器人系统,该机器人控件可以基于所捕获的图像数据进行学习,使得机器人系统可以操纵图像捕获的对象以表示在模型的训练域中的先前捕获的图像或捕获在所述模型的训练域之外的图像数据。在一些非限制性实施例或方面中,如果AI模型的路径远离期望路线进展,则教师AI模型可以用于校正用于驱动机器人系统运动的AI模型。因此,非限制性实施例或方面可以允许在捕获图像数据的同时实时训练AI模型,同时还训练机器人控制系统以辅助改善AI模型训练过程。
非限制性实施例或方面可以通过修改所捕获的图像数据来产生对抗性图像数据或生成对抗性图像数据以用于训练来训练AI模型。在一些非限制性实施例或方面中,可以基于解耦的数据表示和基于所捕获的图像数据确定的独立的潜在向量来生成对抗性图像数据。独立的潜在向量可以表示在图像数据中的单个变化程度或与所捕获的图像数据相关的一些其他属性。在一些非限制性实施例中,潜在向量表示可以用于将所捕获的图像数据修改成对抗性图像。因此,修改后的对抗性图像可以用作输入以在现实世界场景中使用AI模型的方式来训练AI模型。在一些非限制性实施例中,这将提供用于模型训练的新的训练图像数据的产生,而不必在真实世界场景中捕获图像数据。可以通过设置潜在向量表示来指定期望的训练域。
非限制性实施例或方面可以被实现为能够处理由医学成像设备输出的医学图像数据的软件应用程序。在其他非限制性实施例中,用于对超声波数据进行泛化的系统可以作为硬件和/或软件直接结合到超声波设备中,或可以结合到另一个医学成像设备中。
现在参考图1,示出了根据非限制性实施例或方面的用于对跨图像数据中的变化进行泛化的系统1000。系统1000可以包括修改引擎100、成像设备102、所捕获的图像数据104、训练图像数据105、机器学习(ML)模型106和数据库108。在非限制性实施例或方面中,成像设备102可以是被配置为捕获对象的医学图像的任何类型的成像设备,诸如光学相干断层扫描(OCT)扫描仪、超声波扫描仪等。例如,成像设备102可以包括被配置为物理地捕获超声波波形数据(例如,RF波形数据)的超声波设备。在非限制性实施例或方面中,成像设备102可以仅保存(例如,存储、传送等)与RF波形数据相关联的、可以用于创建灰度超声波图像的某些数据(例如,RF波形的幅度包络等等)。例如,原始的每个元件的RF波形可以被组合成波束形成的RF波形,并且所述波束形成的RF波形的包络可以形成灰度超声波图像的基础(例如以用于在屏幕等上显示)。另外地或替代地,成像设备102可以使用频率内容来计算多普勒频移以测量速度(例如,可以用彩色显示)。在非限制性实施例或方面中,在已经计算(例如,导出、确定等等)了某些数据(例如,包络、多普勒频移等等)之后可以舍弃原始RF波形数据。另外地或替代地,成像设备102可以保存RF波形数据用于另外的分析(例如,存储、分析和/或类似地操作RF波形数据)。在非限制性实施例或方面中,成像设备102可以包括超声波设备,所述超声波设备捕获和保存RF波形数据(例如,波束形成的RF波形数据、每个元件的RF波形数据、RF波形的任何其他合适的表示(例如,保存频率内容)等)。另外地或替代地,RF波形数据可以实时用于在线分析,可以被保存以用于以后的分析等等。在非限制性实施例或方面中,成像系统102可以包括便携式超声波机器,诸如晶体线性阵列扫描仪。例如,成像设备102可以包括Clarius L7便携式超声波机器。在一些非限制性实施例或方面中,成像设备102可以包括基于非晶体微机电系统(MEMS)的和/或多功能的超声波机器。例如,成像设备102可以包括Butterfly iQ+超声波机器。在非限制性实施例或方面中,成像设备102可以用于从至少一个样本获得所捕获的图像数据104(例如,灰度图像帧等)。例如,临床医生可以使用成像设备102从人类对象获得此类图像。另外地或替代地,成像设备102可以输出所捕获的图像数据104,所捕获的图像数据可以包括至少一个超声波图像或多个超声波图像帧。在非限制性实施例或方面中,成像设备102可以包括能够从修改引擎100和/或其他设备接收信息和/或将信息传送到修改引擎100和/或其他设备的一个或多个设备。
所捕获的图像数据104可以包括超声波图像帧、医学图像帧等等的序列。所捕获的图像数据104可以包括由于成像设置、成像设备102的操作、解剖结构和/或伪影的急剧添加(诸如在医疗伤害场景中)而具有差异的图像帧。所捕获的图像数据104可以由成像设备102捕获并且实时传送到修改引擎100。另外地或替代地,所捕获的图像数据104可以被保存以用于稍后传送到修改引擎100。在一些非限制性实施例中,所捕获的图像数据104可以被输入到修改引擎100中用于处理。可以由修改引擎100通过修改所捕获的图像数据104来处理所捕获的图像数据104以产生训练图像数据105。另外地或替代地,修改引擎100可以通过复制所捕获的图像数据104或通过从所捕获的图像数据104复制各个帧并且生成训练图像数据105来处理所捕获的图像数据104。
修改引擎100可以包括例如软件和/或硬件,该软件和/或硬件被配置为从成像设备102接收信息(例如,所捕获的图像数据)、将信息(例如,诸如用于控制成像设备102的信息)传送到成像设备102、以及处理所述图像数据(例如,修改图像数据)。例如,修改引擎100可以是在一个或多个计算设备上执行的一个或多个软件应用程序。在非限制性实施例或方面中,如本文所描述的,修改引擎100可以实施至少一个卷积神经网络(例如,W-Net、U-Net、AU-Net、SegNet等等)。在非限制性实施例或方面中,如本文所描述的,修改引擎100可以实施至少一个贝叶斯神经网络(BNN)或其他类型的概率图形模型。在非限制性实施例或方面中,修改引擎100可以从成像设备102实时地接收所捕获的图像数据104。另外地或替代地,修改引擎100可以接收(例如,检索、获得、查询等等)所捕获的图像数据104(例如,历史捕获的图像数据),所述图像数据可以包括如本文所描述的来自先前存储的所捕获的图像数据104的至少一个超声波图像帧。
在非限制性实施例或方面中,修改引擎100可以处理所捕获的图像数据104以产生训练图像数据105。修改引擎100可以基于复制所捕获的图像数据104的一些或所有帧并且处理那些复制的帧来生成训练图像数据105。在一些非限制性实施例中,当修改引擎100生成训练图像数据105时,捕获图像数据104的未修改的副本可以保持被存储。在一些非限制性实施例中,当修改引擎100生成训练图像数据105时,训练图像数据105可以包含修改后的图像数据104和未修改的图像数据104两者的混合。在一些非限制性实施例或方面中,修改引擎100可以指导成像设备基于所捕获的图像数据105来捕获训练数据105。例如,修改引擎100可以基于所捕获的图像数据104生成不确定性映射,并且修改引擎100可以使用所述不确定性映射作为对至少一个CNN或BNN的输入以确定是否收集所捕获的图像数据104或训练数据105形式的另外的图像数据。在非限制性实施例或方面中,修改引擎100可以随机地或基于预定义的模式(例如,每隔一帧等等)丢弃或移除在所捕获的图像数据104内的帧或帧的序列。修改引擎100可以通过直接修改所捕获的图像数据104以生成训练图像数据105,或者修改引擎100可以通过将移除的帧或序列复制到新的生成的图像数据的序列以产生训练图像数据105来做到这一点。所捕获的图像数据104和/或训练图像数据105中的序列可以包括子序列。另外地或替代地,修改引擎100可以通过改变在所捕获的图像数据104的任意两个图像之间的时间量来修改所捕获的图像数据104。另外地或替代地,修改引擎100可以将帧的子序列添加到所捕获的图像数据104中。例如,修改引擎100可以将所捕获的图像数据104的现有帧的至少一个副本添加到所捕获的图像数据104中。在其他非限制性实施例或方面中,修改引擎100可以生成从所捕获的图像数据104的一个或多个现有帧创建的合成帧。在一些非限制性实施例中,修改引擎100可以生成表现为在所捕获的图像数据104中的现有帧之间的内插帧。修改引擎100可以基于诸如潜在向量表示、预先存在的数据等等独立因素来生成未被包括在所捕获的图像数据104中的新的帧。
在非限制性实施例或方面中,训练图像数据105可以包括超声波图像帧或其他医学成像帧的序列。训练图像数据105可以包括由于修改引擎100的处理而具有差异的图像帧。训练图像数据105可以由修改引擎100生成或可以是由修改引擎100创建的所捕获的图像数据104的修改版本。在一些非限制性实施例或方面中,训练图像数据105可以包括由成像设备102捕获的新捕获的图像数据。在一些非限制性实施例或方面中,训练图像数据105可以被输入到修改引擎100中以进行处理。在一些非限制性实施例或方面中,修改引擎100可以通过修改训练图像数据105来处理训练图像数据105,或产生不确定性映射和/或另外的训练数据。训练图像数据105可以被输入到ML模型106中以用于训练ML模型106。
在非限制性实施例或方面中,ML模型106可以与成像设备102分离,诸如在与成像设备102通信的一个或多个计算设备上执行的一个或多个软件应用程序。替代地,ML模型106可以被结合(例如,完全地、部分地等)到成像设备102中,使得ML模型106由成像设备102的软件和/或硬件实现。在一些非限制性实施例或方面中,ML模型106可以并入修改引擎100中,使得ML模型106由修改引擎100的软件和/或硬件实现,或ML模型106可以与修改引擎100分离。ML模型106可以接收训练图像数据105作为输入。ML模型106可以与能够从数据库108接收信息和/或向数据库108传送信息的一个或多个设备集成。在一些非限制性实施例或方面中,ML模型106可以从数据库108接收数据。从数据库108接收到的数据可以包括潜在向量表示、不确定性映射、预先存在的图像数据(例如,历史超声波图像数据)等。
数据库108可以包括能够从ML模型106等等接收信息和/或将信息传送到ML模型106等的一个或多个设备。在非限制性实施例或方面中,数据库108可以存储来自(例如,通过成像设备102、其他超声波和/或RF系统等等)先前图像捕获的所捕获的图像数据104(例如,历史超声波图像数据)。例如,(历史的)所捕获的图像数据104可以包括至少一个超声波图像帧。在非限制性实施例或方面中,先前捕获的图像数据可以被提供给数据库108以存储为历史图像数据。另外地或替代地,此类先前捕获的图像数据可以用于训练和/或测试ML模型106(例如,以确定ML模型106学习诸如解剖标志的泛化特征的准确度,确定什么泛化特征在ML模型106的优势或劣势之内等等),如本文所描述的。
在非限制性实施例或方面中,成像设备102、ML模型106和数据库108可以由单个计算设备、单个系统等等实现(例如,完全地、部分地等等)。
现在参考图2,示出了根据非限制性实施例或方面的使用空间图像变形来训练基于机器学习的AI模型的系统2000。在非限制性实施例或方面中,系统2000可以包括修改引擎200、训练系统202、修改代理神经网络(NN)204、贝叶斯时间分割网络(BTSN)206、训练图像208、不确定性映射210和分割映射212。修改引擎200可以包括CNN(例如,W-Net、U-Net、AU-Net、SegNet、它们的任意组合等等)。在一些非限制性实施例或方面中,修改引擎200可以与本文所描述的修改引擎100相同或类似。在非限制性实施例或方面中,修改引擎200可以使用图像变形来生成用于进一步训练的合成图像。例如,修改引擎200可以通过使用移动最小二乘变形方法的变体用图像变形来生成用于训练的合成图像。在一些非限制性实施例中,修改引擎200可以从修改代理NN 204接收一组控制点和一组变形的控制点。修改引擎200可以将该组控制点和该组变形点应用于从训练系统202接收到的输入图像以生成包括图像变形的合成图像。
如图2中所示,训练系统202可以包括并且输出训练图像208。训练系统202可以包括例如计算设备和/或存储图像数据的数据存储设备。训练图像208可以从图像的实时捕获中获得,或者训练图像208可以是先前捕获的存储的图像。训练系统202可以将训练图像208传送到修改引擎200以用由修改代理NN 204产生的图像变形来修改训练图像208。在其他非限制性实施例中,训练系统202可以将训练图像208传送到BTSN 206以用于训练。因此,图像变形可以用于按以下方式点修改训练图像208:使得BTSN 206在其可能已经学习了训练图像208的特定特征的区受到挑战。
继续参考图2,根据非限制性实施例或方面,修改代理NN 204可以是CNN,诸如3DCNN。在一些非限制性实施例或方面中,修改代理NN 204可以与本文所描述的修改引擎100、200和/或ML模型106相同或类似。修改代理NN 204可以包括多个卷积块。修改代理NN 204可以包括3D卷积层、批量归一化层、校正线性单元(ReLU)激活、最大池层等等。在一些非限制性实施例或方面中,修改代理NN 204可以与本文所描述的修改引擎100或ML模型106相同或类似。在一些非限制性实施例或方面中,修改代理NN 204可以用于生成控制点和变形的控制点,该控制点用于用图像变形来修改训练图像208。在一些非限制性实施例或方面中,修改代理NN 204可以通过创建输入训练图像的副本并且将变形应用于输入训练图像的副本来生成用变形修改后的新的训练图像。在一些非限制性实施例或方面中,修改代理NN 204可以通过应用变形来直接修改输入训练图像208。在一些非限制性实施例或方面中,训练图像208的未修改的副本可以保持被存储。在一些非限制性实施例中,为了生成合成图像,修改代理NN 204可以从所捕获的图像数据的序列生成在图像边界周围的第一组控制点。为了生成控制点并且修改训练图像208,修改代理NN 204可以从可以用于确定并且输出一组方向以偏移应用于输入图像的控制点的BTSN 206接收不确定性映射。每个控制点都可以接收单独的方向偏移。方向偏移可能包括直接的上下和左右方向偏移以及另外的自由度。用于表示在方向偏移后的控制点的新的位置的点作为变形的控制点包括在内。修改代理NN 204可以在训练图像中检测到的各个解剖类别周围生成第二组控制点。修改代理NN 204还可以生成一组变形的控制点,其中该变形的控制点通过使用可以最小化以下公式的最佳仿射变换lv(x)来定义图像变形:
其中pi表示第一组控制点和第二组控制点,qi表示该组变形的控制点,并且wi表示该组变形的权重,它们取决于评价点v。修改代理NN204可以使用不确定性映射(例如认知不确定性映射)作为输入来生成变形的控制点。控制点和变形的控制点然后可以被应用于训练图像208以产生具有变换的方面的新的训练图像。在一些非限制性实施例或方面中,移动最小二乘图像变形方法用于将控制点、变形的控制点和变形应用于训练图像208。表达式lv(x)为具有线性变换矩阵M和平移值T的仿射变换,所述平移值可以通过使用用于线性移动最小二乘变形的加权质心来求解,
T=q*-p*M
其中,
其中p*和q*是用于线性移动最小二乘变形的加权质心。在一些非限制性实施例或方面中,控制点和变形的控制点被拆分成用于训练图像208的边界的第一组控制点和第一组变形的控制点、以及用于训练图像208内的解剖类的第二组控制点和第二组变形的控制点。为训练图像208的边界指定的控制点用于防止图像的边在变形期间折叠。由于边界在整个训练过程中保持不变,因此针对加权质心的关系可以写成:
其中下标B是指分配给训练图像边界的控制点。变形权重可以预先计算为:
连同用于计算仿射变换的另外的值,它们不依赖于用于计算的每个单独图像。在一些非限制性实施例或方面中,控制点的总数可以被设置为用于修改代理NN 204的超参数。
可以基于通过修改代理NN 204能够挑战BTSN 206的程度(例如,达到阈值程度或阈值百分比)(这是对于修改后的训练图像上的损失的量度)来训练修改代理NN 204。在一些非限制性实施例或方面中,可以通过生成一组随机点并且发出用于控制点变形的方向的信号来训练修改代理NN 204。可以为代理生成的(例如,控制点和变形的控制点)和随机生成的点两者计算移动最小二乘图像变形。可以为两个集合都计算分割损失。如果代理生成的点产生较低的分割损失,则随机生成的点可以被认为更困难。更难的点被指定为用于训练修改代理NN 204的标签。然而,如果随机生成的点产生较低的损失,则代理生成的点的相反方向被指定为用于训练的标签。
继续参考图2,根据非限制性实施例或方面,BTSN 206可以与本文所描述的ML模型106相同或类似。BTSN 206可以包括3D U-Net编码器-解码器架构的基于丢失的贝叶斯公式。BTSN 206可以包括在编码器侧上的四个卷积块,其中在解码器侧上具有匹配对。每个块可以包括输入层,所述输入层后面跟随以下两对:卷积层、批量归一化和ReLU。每个块进一步可以包括在输出层之前的单个丢失层。BTSN 206可以为预测的平均值分割映射、和预测的方差输出可以用于认知不确定性映射的两个值(下面表示):
其中f是由模型权重参数化的贝叶斯3D U-Net。认知不确定性映射是使用测试时随机前向传递(也称为蒙特卡洛丢失)获得的:
其中T是蒙特卡洛样本的总数并且
在一些非限制性实施例或方面中,BTSN 206可以接收训练图像208作为用于训练的输入。训练图像208可以是修改后的训练图像或修改前的原始训练图像。在一些非限制性实施例或方面中,BTSN 206可以从修改引擎200接收修改后的训练图像作为用于训练的输入。BTSN 206可以产生训练图像208或其他修改后的训练图像的分割映射作为输出。BTSN206可以产生不确定性映射作为输出,该不确定性映射可以被传送到修改代理NN 204以用于训练修改代理NN 204和用于生成用于图像修改的控制点。
在非限制性实施例或方面中,不确定性映射210可以包括认知不确定性映射、偶然不确定性映射(aleatoric uncertainty)等等。不确定性映射210可以从BTSN 206传送到修改代理NN 204。不确定性映射210可以作为输入馈送到修改代理NN 204以用于训练和用于生成图像变形的控制点。
现在参考图3,示出了根据非限制性实施例或方面的用于使用对抗性图像数据修改(例如,被修改以欺骗AI模型的图像)来训练基于机器学习的AI模型的系统3000。在一些非限制性实施例或方面中,系统3000可以包括修改后的变分自动编码器模型(MVAM)300、深度学习语义分割模型(DLSSM)302、输入医学图像304、输入噪声向量306、对抗性地生成的图像308和分割输出310。系统3000可以使用潜在向量形式的解耦的数据表示,使得每个向量维度可以表示在图像数据中的单个变化程度。在一些非限制性实施例或方面中,系统3000可以实时使用(例如,与图像捕获同时)以训练基于机器学习的AI模型。在一些非限制性实施例或方面中,系统3000可以用于使用先前捕获的图像数据来训练基于机器学习的AI模型。
在一些非限制性实施例或方面中,MVAM 300可以与本文所描述的修改引擎100、200相同或类似。在一些非限制性实施例或方面中,DLSSM 302可以与本文所描述的ML模型106相同或类似。DLSSM 302可以包括基于深度学习的语义分割模型的变体。输入医学图像304可以与本文所描述的所捕获的图像数据104相同或类似。在一些非限制性实施例或方面中,输入医学图像304可以包括单个图像、图像帧序列或原始图像数据。在一些非限制性实施例或方面中,输入噪声向量306可以包括多个维度。输入噪声向量306可以包括独立于其他维度的维度。输入噪声向量306的每个维度可以表示图像数据的单个变化程度。在一些非限制性实施例或方面中,可以预先选择维度以表示目标域。在一些非限制性实施例或方面中,输入噪声向量306的维度可以从分布中得出。对抗性地生成的图像308可以包括用输入噪声向量306修改的图像数据。在一些非限制性实施例中,因为输入噪声向量306的维度可以从分布中得出(因此维度可以表示没有添加噪声的状态),所以由于对抗性地生成的图像308没有被应用修改,因此对抗性地生成的图像308可以与输入医学图像304相同。当与由MVAM 300修改后的输入医学图像304相比时,对抗性地生成的图像308可以包括在图像中的可察觉的差异。
根据非限制性实施例,MVAM 300可以接收输入医学图像304和输入噪声向量306作为输入。MVAM 300可以将输入解码成对抗性地生成的图像308。输入噪声向量306可以独立地变换输入医学图像304的空间特征,诸如解剖形状、大小、成像设置等等。对抗性地生成的图像可以作为输入馈送到DLSSM 302以用于训练。DLSSM 302可以输出随着DLSSM 302的训练进展可能更容易解译的分割输出310。
现在参考图4,示出了根据非限制性实施例或方面的用于使用具有机器人控件的主动数据修改来训练基于机器学习的AI模型的系统4000。在一些非限制性实施例或方面中,系统4000可以包括计算设备400、机器人402、成像设备404、训练图像数据406和数据库408。在一些非限制性实施例或方面中,计算设备400可以与本文所描述的修改引擎100相同或类似。在一些非限制性实施例或方面中,计算设备400可以与本文所描述的ML模型106相同或类似。计算设备400可以包括可以被训练的ML模型或与其通信。机器人402可以包括能够操纵(例如,按压、变形、推动、探测、扩张、收缩等等)组织410的机器人臂、机器人操纵器和/或机器人工具。在一些非限制性实施例或方面中,机器人402可以包括计算设备来控制机器人402的移动。在其他非限制性实施例或方面中,机器人402可以包括与计算设备400通信的计算设备(诸如控制器),使得计算设备400可以控制机器人402。成像设备404可以与本文所描述的成像设备102相同或类似。训练图像数据406可以与本文所描述的所捕获的图像数据104或训练图像数据105相同或类似。数据库408可以与本文所描述的数据库108相同或类似。在一些非限制性实施例或方面中,组织410可以包括被扫描的对象的活的或死的组织,诸如人类组织、动物组织、合成组织等等。
继续参考图4,根据非限制性实施例或方面,计算设备400可以应用高斯过程来处理和分析输入数据,诸如训练图像数据406。在一些非限制性实施例中,计算装置400可以应用另一个过程,其可以表示所收集的数据或正被收集的训练图像数据406的当前信任的平均值、最佳估计、不确定性和/或协方差。例如,计算装置400可以对收集的数据应用最高平均值、置信上限和/或预期的改善措施。对训练图像数据406或其他收集的训练数据(例如,由机器人402和成像设备404收集的位置数据)的信任可以包括对可以用于进一步训练计算设备400并且指导机器人402在哪里搜索新的图像数据以用于捕获的期望信息的估计。在一些非限制性实施例或方面中,计算设备400可以使用最佳估计和估计的不确定性来评估训练图像数据质量。在一些非限制性实施例或方面中,可以由从贝叶斯分割模型输出的认知不确定性映射和偶然不确定性映射来表示最佳估计和所述估计的不确定性。
在一些非限制性实施例或方面中,机器人402可以被配置为自主地获取组织410的训练图像数据。在一些非限制性实施例或方面中,计算设备400可以被配置为控制机器人402,使得机器人402自主地获取训练图像数据。
在一些非限制性实施例或方面中,当使用最佳估计和所述估计的不确定性时,可以训练机器人402,使得它能够操纵组织410来表示计算设备400的第一ML模型的当前训练域。可以应用对组织410的操纵,使得组织410可以类似于计算设备400的第一ML模型先前已经学习的内容。例如,如果第一ML模型已经学习了训练过的动脉大小,则机器人402可以用于将动脉压缩或扩张到训练过的大小以便用成像设备404进行进一步的数据捕获。在一些非限制性实施例或方面中,可以使用机器人402使得其将成像设备404移动到组织410的其中第一ML模型尚未被训练或需要另外的训练的区。在一些非限制性实施例中,系统4000或计算设备400可以包括教师ML模型。如果第一ML模型传播不期望的错误导致系统超过错误阈值,则教师ML模型可能能够校正第一ML模型。错误可以包括由训练图像数据406或其他收集的训练数据中的第一ML模型或教师ML模型检测到的错误。
根据非限制性实施例或方面,计算设备400可以基于训练图像数据的图像质量来创建所收集的训练图像数据的映射。图像质量可以包括训练图像数据406的整体图像质量。图像质量可以包括训练图像数据406的可解译性。在一些非限制性实施例或方面中,计算设备400可以协调对新的训练图像数据406的获取。协调对训练图像数据406的获取可以包括任何所描述的方法,诸如基于第一ML模型先前已经学习的内容来指导机器人402以操纵组织410。协调对训练图像数据406的获取可以是或基于第一ML模型的弱训练域或第一ML模型未被训练的地方。协调获取可以基于教师ML模型的命令和/或应当被收集用于训练的期望信息的最佳估计和所述估计的不确定性。
现在参考图5,示出了根据非限制性实施例或方面的示例性人工神经网络500(例如,U-Net CNN架构)。人工神经网络500可以包括递归神经网络、前馈神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树、分割网络、语义分割网络、贝叶斯分割网络、或其任意组合。人工神经网络500可以包括3D U-Net架构、批量归一化和ReLU激活,并且可以包括下采样层作为编码器块的最后一层。每个解码器块可以包括上采样层,后面跟随在编码器块中的两对卷积层、批量归一化、卷积LSTM层和ReLU激活。每个卷积层可能包括3x3x3的内核维度。人工神经网络500可以由ML模型106、修改引擎200、修改代理NN 204、BTSN 206、DLSSM 302和/或计算设备400实现(例如,完全地、部分地等等)。另外地或替代地,人工神经网络500可以由与ML模型106、修改引擎200、修改代理NN 204、BTSN206、DLSSM 302、计算设备400和/或机器人402分离的或包括它们的至少一个其他计算设备实现(例如,完全地、部分地等)和/或直接实现在(例如,数字和/或模拟)电路中。
在非限制性实施例或方面中,人工神经网络500可以类似于在医学图像计算和计算机辅助干预国际会议(International Conference on Medical Image Computing andComputer-Assisted Intervention)中的第234页至241页(2015)的Ronneberger等人的“U-net:用于生物医学图像分割的卷积网络(U-net:Convolutional networks forbiomedical image segmentation)”中描述的CNN。
现在参考图6,示出了根据非限制性实施例或方面的用于训练基于机器学习的AI模型以处理在图像获取期间发生的各种类型的运动的方法的流程图。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由修改引擎100、修改引擎200、修改代理NN204、BTSN 206、MVAM 300、DLSSM 302和计算设备400执行(例如,完全地、部分地等等)。当提到修改引擎、AI模型时,可以理解,本文所描述的非限制性实施例的步骤可以由修改引擎100、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和/或计算设备400中的任一个执行。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由与修改引擎100分离或包括修改引擎100的另一个系统、另一个设备、另一组系统或另一组设备(诸如ML模型106、计算设备400等等)执行(例如,完全地、部分地等等)。
如图6中所示,在步骤600处,该方法可以包括如本文所描述的捕获图像数据。例如,成像设备102、404可以捕获图像数据以产生所捕获的图像数据的多个帧。基于在成像设备102、404和组织410之间的运动,所捕获的图像数据可以包括相对于其他图像帧的图像帧。
如图6中所示,在步骤602处,该方法可以包括如本文所描述的修改图像数据。例如,修改引擎100可以修改所捕获的图像数据(例如,图像数据104、406等等)。修改所捕获的图像数据可以产生修改后的图像数据(例如训练图像数据105、208、308等等)。在非限制性实施例或方面中,修改所捕获的图像数据可以包括改变在所捕获的图像数据的任意两个帧之间的时间量。改变在所捕获的图像数据的任意两个帧之间的时间量可以包括在所捕获的图像数据的任意两个图像之间添加一个或多个帧。该一个或多个帧可以是从所捕获的图像数据中复制或移除的重复帧或新的帧。替代地,所述一个或多个帧可以包括由本文所描述的任何方法生成的帧。在非限制性实施例或方面中,修改所捕获的图像数据可以包括从所捕获的图像数据中移除帧的子序列并且创建可以用于训练的所生成的图像序列。在一些非限制性实施例或方面中,可以通过随机丢弃每隔一帧或随机选择的帧来生成图像数据的子序列。例如,可以通过从所捕获的图像数据序列中选择随机帧并且将选择的帧组合成新的序列来生成用于训练的序列。在一些非限制性实施例中,修改所捕获的图像数据可以包括向所捕获的图像数据的序列添加一个或多个新的帧的子序列。在一些非限制性实施例或方面中,新的帧可以包括所捕获的图像数据的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在其他帧之间的内插帧、未包括在原始所捕获的图像数据中的帧、或此类帧的任意组合。
如图6中所示,在步骤604处,该方法可以包括基于修改后的图像数据来训练模型,如本文所描述的。例如,可以通过从修改引擎100接收修改后的图像数据(例如训练图像数据105)作为对ML模型106的输入以用修改引擎100来训练ML模型106(或本文所描述的任何其他AI模型)。
现在参考图7,示出了根据非限制性实施例或方面的用于训练基于机器学习的AI模型以处理在医学成像期间的各种类型的组织外观的方法的流程图。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由修改引擎100、成像设备102、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和计算设备400执行(例如,完全地、部分地等等)。当提到修改引擎或AI模型时,可以理解,本文所描述的非限制性实施例的步骤可以由修改引擎100、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和/或计算设备400中的任一个执行。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由与修改引擎100分离或包括修改引擎100的另一个系统、另一个设备、另一组系统或另一组设备(诸如ML模型106、计算设备400等等)执行(例如,完全地、部分地等等)。
如图7中所示,在步骤700处,该方法可以包括如本文所描述的捕获图像数据。例如,成像设备102、404可以捕获图像数据作为一系列训练医学图像。该一系列图像可以包括在序列中的多个图像帧。基于在成像设备102、404和组织410之间的运动,所捕获的图像数据可以包括相对于其他图像帧的图像帧。
如图7中所示,在步骤702处,该方法可以包括在所捕获的图像数据的每个帧周围以及在所捕获的多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点,如本文所描述的。例如,修改引擎100可以在帧的子序列中的每个帧的边界周围生成一组控制点。对于边界和分类对象两者的该组控制点中的控制点的数量可以各自由生成该组控制点的模型的超参数设置。该组控制点可以用于使所捕获的图像数据变形以生成训练图像数据。通过针对一组随机地生成的点计算分割损失,该组控制点可以用于生成不确定性映射。
如图7中所示,在步骤704处,该方法可以包括在所捕获的图像数据的每个帧周围以及在所捕获的多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组变形的控制点,如本文所描述的。例如,修改引擎100可以在帧的子序列中的每个帧中生成一组变形的控制点以定义图像帧的变形。可以基于仿射变换来生成所述变形的控制点。
如图7中所示,在步骤706处,该方法可以包括对帧应用几何失真以生成新的训练图像。例如,修改引擎100可以生成新的帧的子序列,每个帧包括基于该组控制点和变形的控制点的帧的变形部分。在一些非限制性实施例中,修改引擎可以将失真直接应用于所捕获的图像数据104以产生训练图像数据105,使得所捕获的图像数据104被修改。对帧应用失真可以使用移动最小二乘图像变形方法。在一些非限制性实施例或方面中,失真可以部分地由平移值定义。
如图7中所示,在步骤708处,该方法可以包括基于新的训练图像来训练模型。例如,修改引擎100可以向ML模型106发送变形帧的新的子序列(例如,训练图像数据105)作为用于训练的输入。
现在参考图8,示出了根据非限制性实施例或方面的用于通过在训练期间获取新的训练图像数据来训练基于机器学习的AI模型以处理在医学成像期间的各种类型和/或外观的组织的方法的流程图。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由修改引擎100、成像设备102、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和计算设备400执行(例如,完全地、部分地等等)。当提到修改引擎或AI模型时,可以理解,本文所描述的非限制性实施例的步骤可以由修改引擎100、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和/或计算设备400中的任一个执行。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由与修改引擎100分离或包括修改引擎100的另一个系统、另一个设备、另一组系统或另一组设备(诸如ML模型106、计算设备400等等)执行(例如,完全地、部分地等等)。在一些非限制性实施例或方面中,图8中示出的方法可以实时迭代地重复以训练AI模型。
如图8中所示,在步骤800处,该方法可以包括用机器人402捕获图像数据,如本文所描述的。例如,机器人402可以被配置为自主地捕获对象的图像数据。机器人402可以与一个或多个计算设备和一个或多个AI模型通信。机器人402可以通过相对于对象移动成像设备来捕获图像数据。在一些非限制性实施例或方面中,基于与机器人402通信的计算设备的协调,机器人402可以移动以捕获在对象上的位置处的图像数据。在一些非限制性实施例或方面中,机器人402可以通过自主地物理地操纵对象以改变所捕获的图像数据的外观来捕获图像数据以获取期望的训练图像数据。
如图8中所示,在步骤802处,该方法可以包括评估训练图像数据的图像质量。例如,当由机器人402和成像设备获取训练图像数据时,可以实时评估图像质量。在一些非限制性实施例或方面中,在已经捕获和/或存储图像数据之后,可以由与机器人402通信的计算设备(例如,计算设备400)异步地评估图像质量。评估图像质量可以包括评估所捕获的图像数据的可解译性。
如图8中所示,在步骤804处,该方法可以包括创建训练图像数据的映射。例如,可以基于训练图像数据的图像质量来创建映射。在一些非限制性实施例或方面中,映射可以包括平均值映射或不确定性映射。
如图8中所示,在步骤806处,该方法可以包括协调由机器人对新的训练图像数据的获取。在一些非限制性实施例或方面中,协调由机器人402对新的训练图像数据的获取可以包括计算设备400接收映射作为输入。计算设备400可以使用来自映射的测量值以确定将机器人402驱动到哪里以获取新的训练图像数据。在一些非限制性实施例或方面中,计算设备400可以基于经训练的模型已经知道或先前已经学习的内容来协调对新的训练图像数据的获取。在一些非限制性实施例或方面中,计算设备400可以基于在当前训练域之外的域来协调对新的训练图像数据的获取。在当前训练域之外的域可以包括正被训练的模型尚未学习的任何图像特征。
现在参考图9,示出了根据非限制性实施例或方面的用于训练基于机器学习的AI模型以处理在医学图像获取期间发生的各种类型的变化的方法的流程图。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由修改引擎100、成像设备102、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和计算设备400执行(例如,完全地、部分地等等)。当提到修改引擎或AI模型时,可以理解,本文所描述的非限制性实施例的步骤可以由修改引擎100、修改引擎200、修改代理NN 204、BTSN 206、MVAM 300、DLSSM 302和/或计算设备400中的任一个执行。在一些非限制性实施例或方面中,该方法的一个或多个步骤可以由与修改引擎100分离或包括修改引擎100的另一个系统、另一个设备、另一组系统或另一组设备(诸如ML模型106、计算设备400等等)执行(例如,完全地、部分地等等)。
如图9中所示,在步骤920处,该方法可以包括如本文所描述的捕获图像数据。在步骤922处,该方法可以包括确定至少一个潜在向量表示。确定潜在向量表示可以包括基于目标域确定潜在向量表示。相对于正被训练的模型已经学习的内容,目标域可能被认为是困难的。目标域可以包括在正被训练的模型的当前训练域之外的域。在一些非限制性实施例或方面中,可以使用AI模型(诸如包括具有瓶颈层的编码器-解码器架构的CNN)从图像数据中导出潜在向量。瓶颈层可以在处理可以用作潜在空间的图像数据时生成特征映射以导出潜在向量表示。
如图9中所示,在步骤924处,该方法可以包括将潜在向量表示和所捕获的图像数据输入到变分自动编码器模型(例如,MVAM 300)中。在一些非限制性实施例或方面中,潜在向量表示和所捕获的图像数据可以被输入作为具有相关联向量表示的单个图像。在一些非限制性实施例或方面中,潜在向量表示和所捕获的图像数据可以被输入作为与对应于每个帧的向量表示的序列连同一起的所捕获的图像数据的帧序列。在一些非限制性实施例或方面中,潜在向量表示包括各自的维度,其可以独立于在潜在向量表示的其他各自维度中的变化。
如图9中所示,在步骤926处,该方法可以包括使用变分自动编码器模型(例如,MVAM 300)将潜在向量表示和捕获的输入数据解码成对抗图像数据。例如,MVAM 300可以对所捕获的图像数据进行编码并且将潜在向量表示的维度应用于所捕获的图像数据。MVAM300然后可以将利用潜在向量表示修改后的捕获图像数据解码成新的训练图像数据,该新的训练图像数据可以用作对抗图像数据来训练AI模型。在一些非限制性实施例中,当潜在向量表示被应用于所捕获的图像数据时,潜在向量的各种维度和/或表示可以独立地变换所述输入的所捕获的图像数据的不同空间特征。
如图9中所示,在步骤928处,该方法可以包括基于对抗图像数据训练AI模型(例如,DLSSM 302)。例如,对抗图像数据的帧的序列可以被输入到AI模型中以用于在可能已经用潜在向量表示修改后的所捕获的图像数据的区上进行训练。
现在参考图10,示出了根据非限制性实施例的设备900的示例部件的图。作为示例,设备900可以对应于修改引擎100、200、ML模型106、修改代理NN 204、MVAM 300、DLSSM302、计算设备400和/或机器人402。在一些非限制性实施例中,此类系统或设备可以包括至少一个设备900和/或设备900的至少一个部件。示出的部件的数量和布置是作为示例提供的。在一些非限制性实施例中,设备900可以包括比图10中示出的更多的部件、更少的部件、不同的部件或不同布置的部件。另外地或替代地,设备900的一组部件(例如,一个或多个部件)可以执行被描述为由设备900的另一组部件执行的一个或多个功能。
如图10中所示,设备900可以包括总线902、处理器904、存储器906、存储部件908、输入部件910、输出部件912和通信接口914。总线902可以包括准许在设备900的部件之间进行通信的部件。在一些非限制性实施例中,处理器904可以用硬件、固件、或硬件和软件的组合来实现。例如,处理器904可以包括处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)、加速度处理单元(APU)等)、微处理器、数字信号处理器(DSP)和/或可以被编程来执行功能的任何处理部件(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器906可以包括用于存储供处理器904使用的信息和/或指令的随机存取存储器(RAM)、只读存储器(ROM)、和/或另一种类型的动态或静态存储设备(例如,快闪存储器、磁存储器、光存储器等)。
继续参考图10,存储部件908可以存储与设备900的操作和使用相关的信息和/或软件。例如,存储部件908可以包括硬盘(例如,磁盘、光盘、磁光盘、固态盘等)和/或另一种类型的计算机可读介质。输入部件910可以包括准许设备900诸如经由用户输入端(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、传声器等)接收信息的部件。另外地或替代地,输入部件910可以包括用于感测信息的传感器(例如,全球定位系统(GPS)部件、加速度计、陀螺仪、致动器等)。输出部件912可以包括用于提供来自设备900的输出信息的部件(例如,显示器、扬声器、一个或多个发光二极管(LED)等)。通信接口914可以包括用于使得设备900能够诸如经由有线连接、无线连接、或有线连接和无线连接的组合与其他设备通信的类似收发器的部件(例如,收发器、独立的接收器和发射器等)。通信接口914可以准许设备900从另一个设备接收信息和/或向另一个设备提供信息。例如,通信接口914可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、接口、蜂窝网络接口等等。
设备900可以执行本文所描述的一个或多个过程。设备900可以基于处理器904执行由诸如存储器906和/或存储部件908的计算机可读介质存储的软件指令来执行这些过程。计算机可读介质可以包括任何非暂态存储设备。存储设备包括位于单个物理存储设备内部的存储空间或跨多个物理存储设备分布的存储空间。软件指令可以经由通信接口914从另一个计算机可读介质或从另一个设备读入存储器906和/或存储部件908。当被执行时,存储在存储器906和/或存储部件908中的软件指令可以使处理器904执行本文所描述的一个或多个过程。另外地,或替代地,可以使用硬连线电路来代替软件指令或与软件指令相组合,以执行本文所描述的一个或多个过程。因此,本文所描述的实施例不限于硬件电路和软件的任何特定组合。如本文所用,术语“编程或配置”是指软件、硬件电路或其任意组合在一个或多个设备上的布置。
尽管为了说明的目的已经详细描述了实施例,但是应当理解,此类细节仅是为了说明的目的并且本公开不限于所公开的实施例,相反,本公开旨在覆盖在所附权利要求的精神和范围内的修改和等效布置。例如,应当理解,本公开考虑到,在可能的程度上,任何实施例的一个或多个特征可以与任何其他实施例的一个或多个特征组合。

Claims (93)

1.一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的运动的方法,所述方法包括:
使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在所述成像设备和组织之间的运动;
通过以下中的至少一个来用计算设备修改所捕获的图像数据以产生修改后的图像数据:
改变在所捕获的图像数据的任意两个帧之间的时间量;
从所捕获的图像数据中移除帧的子序列;以及
将一个或多个新的帧的子序列添加到所捕获的图像数据中,所述一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;以及用计算设备基于所述修改后的图像数据来训练基于机器学习的AI模型。
2.根据权利要求1所述的方法,其中所述图像数据是实时捕获的或是先前捕获的。
3.根据权利要求1所述的方法,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,所述方法还包括:
确定针对所捕获的图像数据的每个帧的概率值;以及
通过将每个帧的概率值与预定的所述概率阈值进行比较来确定所捕获的图像数据的帧的所述子序列。
4.根据权利要求1所述的方法,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,所述方法还包括:
从所捕获的图像数据中选择一系列帧;
生成随机整数,所述随机整数具有大于或等于所述系列帧的第一帧号并且小于或等于比所述系列帧的最后一帧大一的值;以及
基于所述随机整数确定针对帧的所述子序列的选择的帧。
5.根据权利要求1所述的方法,其中修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,所述方法还包括:
随机地生成预定长度的时间偏移;
将所捕获的图像数据拆分成等于所述预定长度的多个子序列;
为所述多个子序列中的每个子序列生成随机整数;以及
基于对应于所述子序列的所述随机整数,空间地偏移所述多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。
6.根据权利要求1所述的方法,其中所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像或其任意组合,并且其中所述基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树或其任意组合。
7.一种用于训练基于机器学习的人工智能(AI)以处理在视频获取期间发生的各种类型的运动的系统,所述系统包括至少一个计算设备,所述计算设备被编程或被配置为:
使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括所述成像设备和组织之间的运动;
通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:
改变在所捕获的图像数据的任意两个图像之间的时间量;
从所捕获的图像数据中移除帧的子序列;以及
将一个或多个新的帧的子序列添加到所捕获的图像数据中,所述一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;以及基于所述修改后的图像数据来训练基于机器学习的AI模型。
8.根据权利要求7所述的系统,其中所述图像数据是实时捕获的或是先前捕获的。
9.根据权利要求7所述的系统,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,所述至少一个计算设备进一步被配置为:
确定针对所捕获的图像数据的每个帧的概率值;以及
通过将每个帧的所述概率值与预定的概率阈值进行比较来确定所述图像数据的帧的所述子序列。
10.根据权利要求7所述的系统,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,所述至少一个计算设备进一步被配置为:
从所捕获的图像数据中选择一系列帧;
生成随机整数,所述随机整数具有大于或等于所述系列帧的第一帧号并且小于或等于比所述系列帧的最后一帧大一的值;以及
基于所述随机整数来确定针对帧的所述子序列的选择的帧。
11.根据权利要求7所述的系统,其中修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,所述至少一个计算设备进一步被配置为:
随机地生成预定长度的时间偏移幅度;
将所捕获的图像数据拆分成等于所述预定长度的多个子序列;
为所述多个子序列中的每个子序列生成随机整数;以及
基于对应于所述子序列的所述随机整数,空间地偏移所述多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。
12.根据权利要求7所述的系统,其中所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像或其任意组合,并且其中所述基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树或其任意组合。
13.一种用于训练基于机器学习的人工智能(AI)以处理在视频获取期间发生的各种类型的运动的计算机程序产品,所述计算机程序产品包括至少一个非暂态计算机可读介质,所述至少一个非暂态计算机可读介质包括程序指令,所述程序指令当由至少一个计算设备执行时使得所述至少一个计算设备:
使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在所述成像设备和组织之间的运动;
通过以下中的至少一个来修改所捕获的图像数据以产生修改后的图像数据:
改变在所捕获的图像数据的任意两个图像之间的时间量;
从所捕获的图像数据中移除帧的子序列;以及
将一个或多个新的帧的子序列添加到所捕获的图像数据,所述一个或多个新的帧中的每一个包括以下中的至少一个:所捕获的图像数据中的至少一个帧的副本、从所捕获的图像数据中的其他帧创建的合成帧、被生成为表现为在所捕获的图像数据中的其他帧之间的内插帧、未被包括在所捕获的图像数据中的帧、或其任意组合;以及
基于修改后的图像数据来训练基于机器学习的AI模型。
14.根据权利要求13所述的计算机程序产品,其中所述图像数据是实时捕获的或是先前捕获的。
15.根据权利要求13所述的计算机程序产品,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,所述程序指令进一步使得所述至少一个计算设备:
确定针对所捕获的图像数据的每个帧的概率值;以及
通过将每个帧的所述概率值与预定的概率阈值进行比较来确定所述图像数据的帧的所述子序列。
16.根据权利要求13所述的计算机程序产品,其中修改所捕获的图像数据包括从所捕获的图像数据中移除帧的子序列,所述程序指令进一步使得所述至少一个计算设备:
从所捕获的图像数据中选择一系列帧;
生成随机整数,所述随机整数具有大于或等于所述系列帧的第一帧号并且小于或等于比所述系列帧的最后一帧大一的值;以及
基于所述随机整数来确定针对帧的所述子序列的选择的帧。
17.根据权利要求13所述的计算机程序产品,其中修改所捕获的图像数据包括向所捕获的图像数据添加一个或多个新的帧的子序列,所述程序指令进一步使得所述至少一个计算设备:
为预定长度的帧的每个子序列随机地生成时间偏移幅度;
将所捕获的图像数据拆分成等于所述预定长度的多个子序列;
为所述多个子序列中的每个子序列生成随机整数;以及
基于对应于所述子序列的所述随机整数,空间地偏移所述多个子序列中的每个子序列的至少一个帧的宽度和高度中的至少一个。
18.根据权利要求13所述的计算机程序产品,其中所捕获的图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像或其任意组合,并且其中所述基于机器学习的AI模型包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升回归树或其任意组合。
19.根据权利要求1所述的方法,其中修改所捕获的图像数据包括生成所捕获的图像数据的副本并且修改所捕获的图像数据的所述副本以形成所述修改后的图像数据。
20.一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的方法,所述方法包括:
使用成像设备捕获一系列训练医学图像,所述一系列训练医学图像包括在序列中的多个帧;
用计算设备在每个帧周围和在所述多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;
用计算设备,基于所述一组控制点和不确定性映射,用卷积神经网络为所述至少一个帧子组中的每个帧生成一组变形的控制点;
基于所述一组变形的控制点,用计算设备将几何失真应用于所述至少一个帧子组中的每个帧以生成新的训练图像;以及
基于所述新的训练图像,用计算设备训练基于机器学习的AI模型。
21.根据权利要求20所述的方法,其中所述一组变形的控制点是基于仿射变换生成的。
22.根据权利要求20所述的方法,其中通过自动评估所述至少一个帧子组中的每个帧的哪些部分满足不确定性阈值,来生成所述一组变形的控制点。
23.根据权利要求22所述的方法,其中自动评估所述至少一个帧子组中的每个帧的哪些部分满足所述不确定性阈值是基于认知和/或偶然不确定性映射的。
24.根据权利要求23所述的方法,其中所述认知和/或偶然不确定性映射是从正被训练的所述基于机器学习的AI模型输出的。
25.根据权利要求24所述的方法,其中正被训练的所述基于机器学习的AI模型包括贝叶斯人工神经网络。
26.根据权利要求22所述的方法,其中基于被配置为将所述自动评估的输出作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成所述一组变形的控制点。
27.一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的方法,所述方法包括:
使用成像设备捕获一系列训练医学图像;
将所述训练医学图像增强为新的训练图像,其中不同的失真针对所述一系列训练医学图像和/或视频的各个帧内的不同部分;
对所述新的训练图像中的每个新的训练图像应用失真;以及
基于对以下至少一个的自动评估而在AI学习期间交互式地计算所述失真:
与在训练中的那个时刻被所述AI视觉理解更具挑战性的部分相比,训练图像的哪些部分被所述AI视觉理解更不具挑战性;和/或
在训练中的那个时刻所述AI受到训练图像的不同部分中的每个部分挑战的程度。
28.根据权利要求27所述的方法,其中所述失真是几何失真并且是使用移动最小二乘图像变形来应用的。
29.根据权利要求27或28所述的方法,其中基于将对于不同图像区域的挑战性的评估作为输入进行处理的独立代理对抗性增强人工神经网络的所述输出来计算所述失真。
30.根据权利要求27-29中任一项所述的方法,其中增强系统将训练医学图像增强为新的训练图像,并且其中所述增强系统与一个或多个数据增强过程集成,使得所述增强系统在训练期间点增强所述图像数据的特定区域。
31.一种系统,包括被编程或被配置为执行根据权利要求27至30中任一项所述的方法的至少一个计算设备。
32.一种计算机程序产品,包括至少一个非暂态计算机可读介质,所述至少一个非暂态计算机可读介质包括程序指令,所述程序指令当由至少一个计算设备执行时使得所述至少一个计算设备执行根据权利要求27至30中任一项所述的方法。
33.一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的系统,所述系统包括至少一个计算设备,所述计算设备被编程或被配置为:
使用成像设备捕获一系列训练医学图像,所述一系列训练医学图像包括在序列中的多个帧;
在每个帧周围和在所述多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;
基于所述一组控制点和不确定性映射,用卷积神经网络为所述至少一个帧子组中的每个帧生成一组变形的控制点;
基于所述一组变形的控制点将几何失真应用于所述至少一个帧子组中的每个帧以生成新的训练图像;以及
基于所述新的训练图像来训练基于机器学习的AI模型。
34.根据权利要求33所述的系统,其中所述一组变形的控制点是基于仿射变换而生成的。
35.根据权利要求33所述的系统,其中通过自动评估所述至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成所述一组变形的控制点。
36.根据权利要求35所述的系统,其中自动评估所述至少一个帧子组中的每个帧的哪些部分满足所述不确定性阈值是基于认知和/或偶然不确定性映射的。
37.根据权利要求36所述的系统,其中所述认知和/或偶然不确定性映射是从正被训练的所述基于机器学习的AI模型输出的。
38.根据权利要求33所述的系统,其中正被训练的所述基于机器学习的AI模型包括贝叶斯人工神经网络。
39.根据权利要求33所述的系统,其中所述一组变形的控制点是基于被配置为将所述自动评估作为输入进行处理的独立代理对抗性增强人工神经网络的输出而生成的。
40.一种用于训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型的组织外观的计算机程序产品,所述计算机程序产品包括至少一个非暂态计算机可读介质,所述至少一个非暂态计算机可读介质包括程序指令,所述程序指令当由至少一个计算设备执行时使得所述至少一个计算设备:
使用成像设备捕获一系列训练医学图像,所述系列训练医学图像包括在序列中的多个帧;
在每个帧周围和在所述多个帧的至少一个帧子组中的每个帧中的每个分类对象周围生成一组控制点;
基于所述一组控制点和不确定性映射,用卷积神经网络为所述至少一个帧子组中的每个帧生成一组变形的控制点;
基于所述一组变形的控制点将几何失真应用于所述至少一个帧子组中的每个帧以生成新的训练图像;以及
基于所述新的训练图像来训练基于机器学习的AI模型。
41.根据权利要求40所述的计算机程序产品,其中所述一组变形的控制点是基于仿射变换而生成的。
42.根据权利要求40所述的计算机程序产品,其中通过自动评估所述至少一个帧子组中的每个帧的哪些部分满足不确定性阈值来生成所述一组变形的控制点。
43.根据权利要求42所述的计算机程序产品,其中自动评估所述至少一个帧子组中的每个帧的哪些部分满足所述不确定性阈值是基于认知和/或偶然不确定性映射的。
44.根据权利要求43所述的计算机程序产品,其中所述认知和/或偶然不确定性映射是从正被训练的所述基于机器学习的AI模型输出的。
45.根据权利要求40所述的计算机程序产品,其中正被训练的所述基于机器学习的AI模型包括贝叶斯人工神经网络。
46.根据权利要求40所述的计算机程序产品,其中基于被配置为将所述自动评估的输出作为输入进行处理的独立代理对抗性增强人工神经网络的输出来生成所述一组变形的控制点。
47.一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的系统,所述系统包括:
机器人,被配置为自主地获取对象的训练图像数据;
至少一个计算设备,与所述机器人通信,所述至少一个计算设备被配置为:
当由所述机器人获取所述训练图像数据时实时评估所述训练图像数据的图像质量;
基于所述训练图像数据的图像质量创建所述训练图像数据的至少一个映射;以及
基于所述训练图像数据的至少一个映射来协调由所述机器人对新的训练图像数据的获取。
48.根据权利要求47所述的系统,其中评估所述图像质量包括确定平均值估计和所述平均值估计的不确定性估计。
49.根据权利要求48所述的系统,其中确定所述平均值估计和所述不确定性估计是基于高斯过程或协方差模型的。
50.根据权利要求47所述的系统,其中协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善、或其任意组合。
51.根据权利要求48所述的系统,其中所述至少一个计算装置进一步被配置为基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定所述平均值估计和所述不确定性估计。
52.根据权利要求47所述的系统,其中由所述机器人或第二设备自主地物理地操纵组织,以在获取所述训练图像数据的同时改变所捕获的图像的外观。
53.根据权利要求52所述的系统,其中所述至少一个计算设备进一步被配置为基于所述新的训练图像数据来训练基于机器学习的AI模型,并且其中所述机器人或所述第二设备被配置为在所述基于机器学习的AI模型的运行时使用期间操纵所述组织。
54.根据权利要求53所述的系统,其中所述组织被物理地操纵以表现为在所述新的训练图像数据中捕获的组织。
55.根据权利要求47所述的系统,其中所述至少一个计算设备进一步被配置为递增地改变所述训练图像数据的一个或多个方面以提高所述图像质量。
56.根据权利要求47所述的系统,其中所述至少一个计算设备包括第一AI系统和第二AI系统,其中所述第一AI系统包括学生AI系统,并且其中所述第二AI系统包括教师AI系统,所述教师AI系统被配置为基于预期的行动过程来协调所述学生AI系统。
57.根据权利要求47所述的系统,其中所述训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示所述训练图像数据中变化的单个方面,并且其中所述新的训练图像数据的所述获取或所述训练图像数据的增强是基于所述潜在向量表示的。
58.根据权利要求57所述的系统,其中所述至少一个计算设备进一步被配置为基于解耦的数据表示来创建或推断所述独立的潜在向量。
59.根据权利要求457所述的系统,其中所述训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中所述至少一个计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树、或其任意组合。
60.根据权利要求47所述的系统,其中所述至少一个计算设备包括第一AI系统和第二AI系统,其中所述第一AI系统被配置为当由所述机器人获取所述训练图像数据时实时评估所述训练图像数据的图像质量,并且基于所述训练图像数据的图像质量创建训练所述图像数据的至少一个映射,并且其中所述第二AI系统被配置为基于所述训练图像数据的至少一个映射来协调对所述新的训练图像数据的获取。
61.一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的方法,所述方法包括:
用计算设备自主地获取机器人的对象的训练图像数据;
当由所述机器人获取所述训练图像数据时,用计算设备实时评估所述训练图像数据的图像质量;
基于所述训练图像数据的图像质量,用所述计算设备创建所述训练图像数据的至少一个映射;以及
基于所述训练图像数据的至少一个映射,用计算设备协调由所述机器人对新的训练图像数据的获取。
62.根据权利要求61所述的方法,其中评估所述图像质量包括确定平均值估计和所述平均值估计的不确定性估计。
63.根据权利要求62所述的方法,其中确定所述平均值估计和所述不确定性估计是基于高斯过程或协方差模型的。
64.根据权利要求61所述的方法,其中协调对新的训练图像数据的获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善、或其任意组合。
65.根据权利要求62所述的方法,还包括基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定所述平均值估计和所述不确定性估计。
66.根据权利要求61所述的方法,其中由所述机器人或第二设备自主地物理地操纵组织以在获取所述训练图像数据的同时改变所捕获的图像的外观。
67.根据权利要求66所述的方法,还包括基于所述新的训练图像数据来训练基于机器学习的AI模型,并且其中所述机器人或所述第二设备被配置为在所述基于机器学习的AI模型的运行时使用期间操纵所述组织。
68.根据权利要求66所述的方法,其中所述组织被物理地操纵以表现为在所述新的训练图像数据中捕获的组织。
69.根据权利要求61所述的方法,还包括递增地改变所述训练图像数据的一个或多个方面以提高所述图像质量。
70.根据权利要求61所述的方法,其中所述训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示所述训练图像数据中变化的单个方面,并且其中所述新的训练图像数据的获取或所述训练图像数据的增强是基于所述潜在向量表示的。
71.根据权利要求70所述的方法,其中所述至少一个计算设备进一步被配置为基于解耦的数据表示来创建或推断所述独立的潜在向量。
72.根据权利要求61所述的方法,其中所述训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中所述计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树、或其任意组合。
73.一种用于通过在训练期间获取新的训练数据来训练基于机器学习的人工智能(AI)模型以处理在医学成像期间的各种类型和/或外观的组织的计算机程序产品,所述计算机程序产品包括至少一个非暂态计算机可读介质,所述至少一个非暂态计算机可读介质包括程序指令,所述程序指令当由至少一个计算设备执行时使得所述至少一个计算设备:
用机器人自主地获取对象的训练图像数据;
当由所述机器人获取所述训练图像数据时实时评估所述训练图像数据的图像质量;
基于所述训练图像数据的图像质量创建所述训练图像数据的至少一个映射;以及
基于所述训练图像数据的至少一个映射来协调由所述机器人对新的训练图像数据的获取。
74.根据权利要求73所述的计算机程序产品,其中评估所述图像质量包括确定平均值估计和所述平均值估计的不确定性估计。
75.根据权利要求74所述的计算机程序产品,其中确定所述平均值估计和所述不确定性估计是基于高斯过程或协方差模型的。
76.根据权利要求73所述的计算机程序产品,其中协调对新的训练图像数据的所述获取包括优化以下图像质量参数中的至少一个:最高平均值、置信上限、预期的改善、或其任意组合。
77.根据权利要求74所述的计算机程序产品,其中所述程序指令进一步使得所述至少一个计算装置基于来自正被训练的贝叶斯AI模型的认知和偶然不确定性输出的组合来确定所述平均值估计和所述不确定性估计。
78.根据权利要求73所述的计算机程序产品,其中由所述机器人或第二设备自主地物理地操纵组织以在获取所述训练图像数据的同时改变所捕获的图像的外观。
79.根据权利要求78所述的计算机程序产品,其中所述程序指令进一步使得所述至少一个计算设备基于所述新的训练图像数据来训练基于机器学习的AI模型,并且其中所述机器人或所述第二设备被配置为在所述基于机器学习的AI模型的运行时使用期间操纵所述组织。
80.根据权利要求78所述的计算机程序产品,其中所述组织被物理地操纵以表现为在所述新的训练图像数据中捕获的组织。
81.根据权利要求73所述的计算机程序产品,其中所述程序指令进一步使得所述至少一个计算设备递增地改变所述训练图像数据的一个或多个方面以提高所述图像质量。
82.根据权利要求73所述的计算机程序产品,其中所述训练图像数据被表示在独立向量的潜在空间中,其中每个潜在向量表示所述训练图像数据中变化的单个方面,并且其中所述新的训练图像数据的获取或所述训练图像数据的增强是基于所述潜在向量表示的。
83.根据权利要求82所述的计算机程序产品,其中所述程序指令进一步使得所述至少一个计算设备基于解耦的数据表示来创建或推断所述独立的潜在向量。
84.根据权利要求73所述的计算机程序产品,其中所述训练图像数据包括以下中的至少一个:超声波图像、光学相干断层扫描(OCT)图像、CT图像、MRI图像、PET图像、SPECT图像、荧光透视图像、X射线图像、乳房X线照相图像、断层合成图像、光声图像、声光图像、内窥镜图像、显微图像、眼底图像、扫描激光检眼镜(SLO)图像、智能手机图像、3D(深度)图像、焦点堆叠图像、光场图像、可见光图像、红外图像、紫外图像、热图像、多光谱图像、断层图像、投影图像、积分图像、重建图像、或其任意组合,并且其中所述至少一个计算设备包括以下中的至少一个:卷积神经网络、递归神经网络、长短期记忆神经网络、贝叶斯网络、贝叶斯神经网络、变换器网络、自动编码器网络、深度波尔兹曼机、深度信任网络、随机森林、贝叶斯随机森林、梯度提升机、梯度提升回归树、或其任意组合。
85.一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的方法,所述方法包括:
使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在所述成像设备和组织之间的运动;
确定至少一个潜在向量表示;
将所述至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;
用所述变分自动编码器模型将所述至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;以及
基于所述对抗图像数据来训练基于机器学习的AI模型。
86.根据权利要求85所述的方法,其中所述潜在向量表示的每个向量维度表示目标域的单个变化程度。
87.根据权利要求85所述的方法,其中每个潜在向量表示独立于每个其他潜在向量表示。
88.一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的系统,所述系统包括至少一个计算设备,所述至少一个计算设备被编程或被配置为:
使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在所述成像设备和组织之间的运动;
确定至少一个潜在向量表示;
将所述至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;
用所述变分自动编码器模型将所述至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;以及
基于所述对抗图像数据来训练基于机器学习的AI模型。
89.根据权利要求88所述的系统,其中所述潜在向量表示的每个向量维度表示目标域的单个变化程度。
90.根据权利要求88所述的系统,其中每个潜在向量表示独立于每个其他潜在向量表示。
91.一种用于训练基于机器学习的人工智能(AI)模型以处理在图像获取期间发生的各种类型的变化的计算机程序产品,所述计算机程序产品包括至少一个非暂态计算机可读介质,所述至少一个非暂态计算机可读介质包括程序指令,所述程序指令当由至少一个计算设备执行时使得所述至少一个计算设备:
使用成像设备捕获图像数据以产生所捕获的图像数据的多个帧,所捕获的图像数据包括在所述成像设备和组织之间的运动;
确定至少一个潜在向量表示;
将所述至少一个潜在向量表示和所捕获的图像数据输入到变分自动编码器模型中;
用所述变分自动编码器模型将所述至少一个潜在向量表示和所捕获的图像数据解码成对抗图像数据;以及
基于所述对抗图像数据来训练基于机器学习的AI模型。
92.根据权利要求91所述的计算机程序产品,其中所述潜在向量表示的每个向量维度表示目标域的单个变化程度。
93.根据权利要求91所述的计算机程序产品,其中每个潜在向量表示独立于每个其他潜在向量表示。
CN202180078932.6A 2020-11-13 2021-11-15 用于对跨医学图像中的变化进行域泛化的系统和方法 Pending CN116601670A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063113397P 2020-11-13 2020-11-13
US63/113,397 2020-11-13
PCT/US2021/059356 WO2022104194A1 (en) 2020-11-13 2021-11-15 System and method for domain generalization across variations in medical images

Publications (1)

Publication Number Publication Date
CN116601670A true CN116601670A (zh) 2023-08-15

Family

ID=81602649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180078932.6A Pending CN116601670A (zh) 2020-11-13 2021-11-15 用于对跨医学图像中的变化进行域泛化的系统和方法

Country Status (7)

Country Link
US (1) US12154319B2 (zh)
JP (1) JP2023552284A (zh)
KR (1) KR20230107320A (zh)
CN (1) CN116601670A (zh)
CA (1) CA3201789A1 (zh)
IL (1) IL302903A (zh)
WO (1) WO2022104194A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102831324B1 (ko) * 2022-12-16 2025-07-07 아주대학교산학협력단 대표 패턴 기반 의료 영상의 투과 상태 품질을 평가하는 방법 및 장치
KR20250059151A (ko) 2023-10-24 2025-05-02 연세대학교 산학협력단 도메인 일반화된 분할 모델 학습 방법
WO2025150976A1 (ko) * 2024-01-12 2025-07-17 주식회사 필드큐어 의료영상을 이용한 조직 분할 방법
CN118096567B (zh) * 2024-02-27 2024-10-25 湖北经济学院 基于贝叶斯方法的dbn模型自适应图像去噪方法和系统
CN119477845B (zh) * 2024-11-04 2025-06-13 中国人民解放军南部战区总医院 一种基于跨模态知识融合的心肌梗死定位方法
CN120125827B (zh) * 2025-05-12 2025-07-29 复影(上海)医疗科技有限公司 基于多模态mri的脑肿瘤分割方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418128B2 (en) 2003-07-31 2008-08-26 Microsoft Corporation Elastic distortions for automatic generation of labeled data
US20100165087A1 (en) * 2008-12-31 2010-07-01 Corso Jason J System and method for mosaicing endoscope images captured from within a cavity
GB201603645D0 (en) * 2016-03-02 2016-04-13 Univ Edinburgh Frame selection in medical image data
US10667776B2 (en) 2016-08-11 2020-06-02 Siemens Healthcare Gmbh Classifying views of an angiographic medical imaging system
US10878529B2 (en) * 2017-12-22 2020-12-29 Canon Medical Systems Corporation Registration method and apparatus
JP7062960B2 (ja) * 2018-01-12 2022-05-09 株式会社リコー 情報処理システム、プログラム、情報処理装置及び情報出力方法
US11580381B2 (en) * 2018-08-01 2023-02-14 Siemens Healthcare Gmbh Complex-valued neural network with learnable non-linearities in medical imaging
US10771698B2 (en) * 2018-08-31 2020-09-08 Qualcomm Incorporated Image stabilization using machine learning
KR102015939B1 (ko) * 2018-09-27 2019-08-28 주식회사 크라우드웍스 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법
TWI728369B (zh) * 2019-05-24 2021-05-21 臺北醫學大學 人工智慧雲端膚質與皮膚病灶辨識方法及其系統
JP7451443B2 (ja) * 2021-02-09 2024-03-18 キヤノン株式会社 画像処理方法および装置、機械学習モデルの訓練方法および装置、並びにプログラム
DE102021202813A1 (de) * 2021-03-23 2022-09-29 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren, Vorrichtung und Computerprogramm für eine Unsicherheitsbewertung einer Bildklassifikation
US12266157B2 (en) * 2021-04-06 2025-04-01 Nec Corporation Temporal augmentation for training video reasoning system

Also Published As

Publication number Publication date
IL302903A (en) 2023-07-01
CA3201789A1 (en) 2022-05-19
JP2023552284A (ja) 2023-12-15
KR20230107320A (ko) 2023-07-14
WO2022104194A1 (en) 2022-05-19
US12154319B2 (en) 2024-11-26
US20240029410A1 (en) 2024-01-25

Similar Documents

Publication Publication Date Title
CN116601670A (zh) 用于对跨医学图像中的变化进行域泛化的系统和方法
US11354791B2 (en) Methods and system for transforming medical images into different styled images with deep neural networks
US20210192758A1 (en) Image processing method and apparatus, electronic device, and computer readable storage medium
KR101908520B1 (ko) 메디컬 이미징에서 공간 및 시간 제약들을 이용하는 랜드마크 검출
JP2022505498A (ja) 画像処理方法、装置、電子機器及びコンピュータ読取可能記憶媒体
US8920322B2 (en) Valve treatment simulation from medical diagnostic imaging data
US9585632B2 (en) Estimation of a mechanical property of anatomy from medical scan data
CN107403446A (zh) 用于使用智能人工代理的图像配准的方法和系统
CN115830016A (zh) 医学图像配准模型训练方法及设备
Wang et al. A general framework for context-specific image segmentation using reinforcement learning
CN108198235A (zh) 一种三维超声重建方法、装置、设备及存储介质
Danilov et al. Use of semi-synthetic data for catheter segmentation improvement
Luo et al. Multi-modal autonomous ultrasound scanning for efficient human–machine fusion interaction
KR20240086195A (ko) 확산 모델을 이용한 비지도 학습 기반 변형 영상 정합 및 합성 영상 생성 시스템 및 그 방법
CN114511642A (zh) 用于预测虚拟定位片流的方法和系统
US20240020839A1 (en) Medical image processing device, medical image processing program, and medical image processing method
CN119027585A (zh) 基于自适应神经网络的微创介入术中三维成像重建系统
Jeong et al. Depth estimation of endoscopy using sim-to-real transfer
Khanal et al. EchoFusion: tracking and reconstruction of objects in 4D freehand ultrasound imaging without external trackers
Mao Three-dimensional Ultrasound Fusion for Transesophageal Echocardiography
JP2021030048A (ja) 経路決定方法、医用画像処理装置、モデル学習方法及びモデル学習装置
Elmekki et al. End-to-End Framework Integrating Generative AI and Deep Reinforcement Learning for Autonomous Ultrasound Scanning
KR102426925B1 (ko) 3d 시뮬레이션을 활용한 수술로봇의 동작 정보를 획득하는 방법 및 프로그램
EP4485352A1 (en) Image segmentation using a point distribution model
KR20250092337A (ko) 랜드마크를 이용하여 영상의 동작음을 보정하는 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination