CN104936466A

CN104936466A - 工程化的分泌蛋白质和方法

Info

Publication number: CN104936466A
Application number: CN201380070852.1A
Authority: CN
Inventors: S·巴萨; K·G·戈拉; Y-J·陈; D·M·杨; N·W·希尔弗; M·哈米尔; D·A·贝瑞
Original assignee: Pronutria Inc
Current assignee: Axcella Health Inc
Priority date: 2012-11-20
Filing date: 2013-11-20
Publication date: 2015-09-23
Also published as: JP2016500250A; WO2014081884A1; WO2014081884A9; US20150307562A1; CA2892021A1; EP2922416A1; EP2922416A4; HK1214739A1

Abstract

本文中提供了营养蛋白质。还提供了各种其它实施方案，包括编码所述蛋白质的核酸、制备所述蛋白质的重组微生物、用于表达所述蛋白质的载体、使用重组微生物制备所述蛋白质的方法、包含所述蛋白质的组合物和使用所述蛋白质的方法。营养蛋白质包括工程化蛋白质，其中所述工程化蛋白质包含至少20个氨基酸的序列，其包含与参考分泌蛋白质的氨基酸序列相比改变的氨基酸序列，且所述工程化蛋白质中存在的必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中存在的必需氨基酸与总氨基酸的比率。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非必需氨基酸残基的至少一个必需氨基酸残基取代。

Description

工程化的分泌蛋白质和方法

相关申请的交叉引用

本申请要求2013年11月20日提交的USSN 61/728,427的优先权，且与2013年3月15日提交的PCT/US2013/032232、2013年3月15日提交的PCT/US2013/032180、2013年3月15日提交的PCT/US2013/032225、2013年3月15日提交的PCT/US2013/032218、2013年3月15日提交的PCT/US2013/032212、2013年3月15日提交的PCT/US2013/032206和2013年4月29日提交的PCT/US2013/038682有关；其整个公开内容都以引用的方式整体并入本文中以用于所有目的。

前言

天然存在的蛋白质由二十种不同类型的氨基酸构成，即丙氨酸(A)、精氨酸(R)、天冬酰胺(N)、天冬氨酸(D)、半胱氨酸(C)、谷氨酸(E)、谷氨酰胺(Q)、甘氨酸(G)、组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、甲硫氨酸(M)、苯丙氨酸(F)、脯氨酸(P)、丝氨酸(S)、苏氨酸(T)、色氨酸(W)、酪氨酸(Y)和缬氨酸(V)。在消化期间，摄入的蛋白质分解为氨基酸。蛋白质是人饮食的一种重要组分，因为大部分的哺乳动物都无法合成所有其需要的氨基酸；必需氨基酸必须从食物中获得。被认为必需的氨基酸是组氨酸(H)、异亮氨酸(I)、亮氨酸(L)、赖氨酸(K)、甲硫氨酸(M)、苯丙氨酸(F)、苏氨酸(T)、色氨酸(W)和缬氨酸(V)。

世界卫生组织建议当处于能量平衡和体重稳定，饮食蛋白质应占到能量摄入的约10％至15％。各个国家的平均每日蛋白质摄入表明这些建议与全世界消耗的蛋白质的量一致。平均20％至30％的能量来自蛋白质的膳食代表了在能量平衡中消耗的高蛋白饮食。

植物和动物食品都含有蛋白质。提供所有必需氨基酸的蛋白质称为“高质量”蛋白质。例如肉、鱼、家禽、蛋和乳制品等动物食品都是高质量蛋白质来源。这些食品提供了必需氨基酸的良好平衡。未提供必需氨基酸良好平衡的蛋白质称为“低质量”蛋白质。大部分的水果和植物是差的蛋白质来源。包括菜豆、豌豆、小扁豆、坚果和谷物(例如小麦)在内的一些植物食物是较佳的蛋白质来源。

酪蛋白、乳清和大豆是蛋白质的主要来源。酪蛋白通常是在哺乳动物乳汁中发现的，占牛乳中的蛋白质的80％和人乳中蛋白质的20％至40％。酪蛋白也是乳酪的一种主要组分。乳清是乳汁凝结并粗滤后剩余的液体，并且也是制造乳酪或酪蛋白的副产物。大豆是由黄豆制造的植物蛋白。虽然大部分的植物蛋白都被认为是低质量蛋白质，但大豆蛋白被一些人认为是高质量蛋白质，且其可与许多基于动物/乳汁的蛋白质相比。

关于人中消耗大量蛋白质的急性效应的研究已经表明包括和在一些情况下增加饮食中的蛋白质含量可以具有有益的作用。举例来说，研究已经表明蛋白质可以诱发餐后的饱腹感(包括通过抑制饥饿)，蛋白质饮食诱发生热作用且蛋白质饮食使血糖反应减少。

长期使用高蛋白饮食以减轻重量的研究已经表明蛋白质积极地影响能量消耗和瘦体重，在含有至少5％来自蛋白质的能量的饮食中吃得过多显著引起较少的重量增加，且高蛋白饮食减少能量摄入。

临床研究提供了蛋白质阻止肌肉蛋白质因年老或卧床休息而损失的证据。具体地说，在长期卧床休息期间肌肉分数合成速率(FSR)在蛋白质补充后增加，在长期卧床休息期间蛋白质补充维持腿部质量和腿力，蛋白质补充增加瘦体重，蛋白质补充改善步态和平衡的功能量度，且必需氨基酸补充可以用作因不动或长期卧床休息而处于肌肉减少症风险下的个体切实可行的介入。

关于运动员中增加肌肉蛋白质合成代谢的研究已经表明在运动后提供的蛋白质促进肌肉过度生长至超过单独运动所实现的过度生长的程度。也已经表明运动后提供的蛋白质支持蛋白质合成，而不会使蛋白质分解有任何增加，使得净的正蛋白质平衡和肌肉质量增加。虽然肌肉蛋白质合成似乎以剂量反应的方式对必需氨基酸补充起反应，但不是所有的蛋白质在建立肌肉方面都是同等的。举例来说，在支持肌肉质量增加和抗阻训练方面乳蛋白似乎优于大豆，而两者都优于单独碳水化合物。氨基酸亮氨酸是刺激肌肉蛋白质合成的一个重要因素。

通常在食物中发现的全蛋白不一定以有效方式提供能满足例如人等哺乳动物的氨基酸需求的氨基酸组成。结果是，为了实现每种必需氨基酸的最低需求，与饮食蛋白质的质量更高的情况下所需要的总蛋白量相比，饮食中必须消耗更大的总蛋白量。与包括较低质量蛋白质的饮食相比，通过增加饮食中蛋白质的质量，可能减少必须消耗的蛋白质总量。

一般说来，认为在哺乳动物饮食中具有较高蛋白质质量的蛋白质比其它不具有较高蛋白质质量的蛋白质有益。此类蛋白质适用作例如哺乳动物饮食的组分。在某些情况下，此类蛋白质尤其促进肌肉质量、健康体重指数和血糖平衡的维持。因此，需要具有高蛋白质质量的蛋白质来源。

理论上包含高比例的支链氨基酸和必需氨基酸中至少一者的多肽可以完全计算机设计。接着可以合成编码合成蛋白质的核酸且产生包含核酸的重组微生物以产生重组蛋白。然而，此方法具有若干可能的缺点。举例来说，熟练技术人员意识到获得高生产水平的此类合成序列的可溶型式是非常有挑战的。

发明概要

在一个方面，提供营养多肽和包含营养多肽的制剂。举例来说，提供一种分离的营养多肽，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率，其中所述营养多肽以营养量存在于所述制剂中，且其中所述制剂基本上不含非食用产品。在一个实施方案中，所述一种或多种必需氨基酸以营养量存在于所述制剂中。在另一个实施方案中，所述营养多肽的总必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中所述总必需氨基酸与总氨基酸的比率。在另一个实施方案中，所述营养多肽的单一必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中所述单一必需氨基酸与总氨基酸的比率。在另一个实施方案中，所述营养多肽的两种必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中所述两种必需氨基酸与总氨基酸的比率。在另一个实施方案中，所述参考分泌蛋白质包含分泌酶多肽。举例来说，所述分离的营养多肽能够降低所述分泌酶多肽的主要酶活性水平。在另一个实施方案中，所述分离的营养多肽基本上从宿主细胞纯化。在另一个实施方案中，所述营养多肽的溶解性在pH 7下超过约10g/l。在另一个实施方案中，所述营养多肽的溶解性超过所述参考分泌蛋白质的溶解性。在另一个实施方案中，所述营养多肽的可消化性具有小于六十分钟的模拟胃消化半衰期。在另一个实施方案中，所述营养多肽的可消化性超过所述参考分泌蛋白质的可消化性。在另一个实施方案中，所述营养多肽的热稳定性超过所述参考分泌蛋白质的热稳定性。在另一个实施方案中，所述营养多肽具有-20或更低的计算溶剂化评分。在另一个实施方案中，所述营养多肽具有0.75或更低的计算聚集评分。在另一个实施方案中，所述营养多肽的溶解性和可消化性超过所述参考分泌蛋白质的溶解性和可消化性。在另一个实施方案中，所述营养多肽具有小于约50％的与已知过敏原的同源性。示例性制剂以每1kg制剂至少100g的浓度含有至少1.0g营养多肽。在一些实施方案中，所述制剂作为液体、半液体或凝胶以不大于约500ml的体积存在，或作为固体或半固体以不大于约200g的质量存在。在另一个实施方案中，所述营养多肽在重组生物体中产生。在另一个实施方案中，所述营养多肽由包含编码所述营养多肽的重组核酸序列的单细胞生物体产生。在另一个实施方案中，所述制剂提供蛋白质的参考每日摄入值的至少约2％的营养益处或另外以足够提供人受试者消耗时饱腹感的量存在。在另一个实施方案中，所述制剂提供一种或多种必需氨基酸的参考每日摄入值的至少约2％的营养益处。在另一个实施方案中，所述制剂提供总必需氨基酸的参考每日摄入值的至少约2％的营养益处。在另一个实施方案中，所述制剂提供至少10克营养多肽。制剂优选配制用于肠施用。在另一个实施方案中，i)在所述营养多肽或所述参考分泌蛋白质的全长上，所述营养多肽包含与所述参考分泌蛋白质至少约98％或99％或99.5％或99.9％整体序列同一性，或ii)所述营养多肽包含所述参考分泌蛋白质的直系同源物，其中在所述营养多肽或所述参考分泌蛋白质的全长上，所述直系同源包含与所述参考分泌蛋白质至少约70％的整体序列同一性。还提供了包含至少约1克本文中提供的制剂的食品。在另一个实施方案中，制剂提供了每100g等于或大于蛋白质的参考每日摄入值的至少约2％的营养益处。在另一个实施方案中，当向人受试者施用时所述营养多肽的有效量低于所述参考分泌蛋白质的有效量。优选的制剂基本上不含表面活性剂、聚乙烯醇、丙二醇、聚乙酸乙烯酯、聚乙烯吡咯烷酮、非食用多元酸或多元醇、脂肪醇、磺酸烷基苯甲基酯、烷基葡糖苷或对羟基苯甲酸甲酯。在一些实施方案中，制剂还包含促味剂、维生素、矿物质或其组合，或调味剂或非营养多元醇或营养碳水化合物和/或营养脂质。

在另一方面，提供了重组单细胞生物体，其个别包含编码分离的营养多肽的重组核酸序列，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。在一些实施方案中，所述营养多肽从所述单细胞生物体分泌。

还提供了配制营养产品的方法，其包括以下步骤：提供包含有效量的分离的营养多肽的组合物，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率，其中所述营养多肽以每克所述组合物至少1mg营养多肽的浓度存在于所述组合物中；并将所述组合物与至少一种食物组分组合，由此配制所述营养产品。举例来说，所述食物组分包括调味剂、促味剂、农业来源的食品、维生素、矿物质、营养碳水化合物、营养脂质、粘合剂、填充剂或其组合，其中所述营养产品可食用，且其中所述营养产品以每1kg营养产品至少100g的浓度包含至少1.0g营养多肽，且其中所述营养产品作为液体、半液体或凝胶以不大于约500ml的体积存在，或作为固体或半固体以不大于约200g的质量存在。

还提供了选择营养组合物以供向可以得益于所述营养组合物的人受试者施用的方法，所述方法包括：鉴别所述受试者中最小必需氨基酸营养需要；计算满足所述最小必需氨基酸营养需要所需的必需氨基酸含量评分；以及提供包含有效量的营养多肽的营养组合物，其中所述营养组合物具有至少所述所需的必需氨基酸含量评分。

进一步提供了选择营养组合物以供向可以得益于所述营养组合物的人受试者施用的方法，所述方法包括：鉴别所述受试者中最大必需氨基酸营养需要；计算不超过所述最大必需氨基酸营养需要所需的必需氨基酸含量评分；以及提供包含有效量的营养多肽的营养组合物，其中所述营养组合物具有至多所述所需的必需氨基酸含量评分。

在另一方面，提供了治疗有需要的人受试者的特征为蛋白质营养失调或由蛋白质营养失调加重的疾病、病症或病状的方法，其包括以下步骤：向所述人受试者施用足够治疗此类疾病、病症或病状的量的营养制剂，其中所述营养制剂包含营养多肽和农业来源的食品，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。在一个实施方案中，所述人受试者是老年受试者。在另一个实施方案中，所述人受试者是18岁以下的儿童。在另一个实施方案中，所述人受试者是怀孕受试者或哺乳期女性受试者。在另一个实施方案中，所述人受试者是18岁与约65岁之间的成年人。在另一个实施方案中，所述人受试者是罹患肥胖症、糖尿病或心血管疾病或处于发展肥胖症、糖尿病或心血管疾病的风险的成年人。

还提供了改善人受试者的营养状况的方法，其包括向所述受试者施用有效量的包含农业来源的食品和分离的营养多肽的营养制剂，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。

在另一方面，提供了组成工程化蛋白质的营养多肽。在一些实施方案中，所述工程化蛋白质包含至少20个氨基酸的序列，其包含与参考分泌蛋白质的氨基酸序列相比改变的氨基酸序列，且所述工程化蛋白质中存在的必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中存在的必需氨基酸与总氨基酸的比率。

在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非必需氨基酸残基的至少一个必需氨基酸残基取代。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非支链氨基酸残基的至少一个支链氨基酸残基取代。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非精氨酸(Arg)或非谷氨酰胺(Glu)氨基酸残基的至少一个精氨酸(Arg)或谷氨酰胺(Glu)氨基酸残基取代。

在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非亮氨酸(Leu)氨基酸残基的至少一个Leu氨基酸残基取代。在一些实施方案中，所述Leu氨基酸残基取代在Leu频率评分大于0的氨基酸位置上。在一些实施方案中，所述Leu氨基酸残基取代在Leu频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Leu氨基酸残基取代在支链氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，所述Leu氨基酸残基取代在支链氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Leu氨基酸残基取代在疏水性氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，所述Leu氨基酸残基取代在疏水性氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Leu氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。在一些实施方案中，所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质中至少两个非亮氨酸(Leu)氨基酸残基被所述工程化蛋白质中的Leu氨基酸残基取代，其中所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5，且其中每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质在位置熵为至少1.5的位置包含参考分泌蛋白质中非Leu氨基酸残基的至少一个Leu氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非Leu氨基酸残基的至少两个Leu氨基酸残基取代，其中独立考虑的每一Leu氨基酸残基取代对所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质在由Leu取代产生的总折叠自由能小于或等于0.5的位置包含参考分泌蛋白质中非Leu氨基酸残基的至少一个Leu氨基酸残基取代。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非Leu氨基酸残基的至少两个Leu氨基酸残基取代，其中独立考虑的每一Leu氨基酸残基取代对所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非缬氨酸(Val)氨基酸残基的至少一个Val氨基酸残基取代。在一些实施方案中，所述Val氨基酸残基取代在Val频率评分大于0的氨基酸位置上。在一些实施方案中，所述Val氨基酸残基取代在Val频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Val氨基酸残基取代在支链氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，所述Val氨基酸残基取代在支链氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Val氨基酸残基取代在疏水性氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，所述Val氨基酸残基取代在疏水性氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Val氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。在一些实施方案中，所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质中至少两个非缬氨酸(Val)氨基酸残基被所述工程化蛋白质中的Val氨基酸残基取代，其中所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5，且其中每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质在位置熵为至少1.5的位置包含参考分泌蛋白质中非Val氨基酸残基的至少一个Val氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非Val氨基酸残基的至少两个Val氨基酸残基取代，其中独立考虑的每一Val氨基酸残基取代对所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质在由Val取代产生的总折叠自由能小于或等于0.5的位置包含参考分泌蛋白质中非Val氨基酸残基的至少一个Val氨基酸残基取代。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非Val氨基酸残基的至少两个Val氨基酸残基取代，其中独立考虑的每一Val氨基酸残基取代对所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非异亮氨酸(Ile)氨基酸残基的至少一个Ile氨基酸残基取代。在一些实施方案中，所述Ile氨基酸残基取代在Ile频率评分大于0的氨基酸位置上。在一些实施方案中，所述Ile氨基酸残基取代在Ile频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Ile氨基酸残基取代在支链氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，所述Ile氨基酸残基取代在支链氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Ile氨基酸残基取代在疏水性氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，所述Ile氨基酸残基取代在疏水性氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，所述Ile氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。在一些实施方案中，所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质中至少两个非异亮氨酸(Ile)氨基酸残基被所述工程化蛋白质中的Ile氨基酸残基取代，其中所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5，且其中每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质在位置熵为至少1.5的位置包含参考分泌蛋白质中非Ile氨基酸残基的至少一个Ile氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非Ile氨基酸残基的至少两个Ile氨基酸残基取代，其中独立考虑的每一Ile氨基酸残基取代对所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述工程化蛋白质在由Ile取代产生的总折叠自由能小于或等于0.5的位置包含参考分泌蛋白质中非Ile氨基酸残基的至少一个Ile氨基酸残基取代。在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非Ile氨基酸残基的至少两个Ile氨基酸残基取代，其中独立考虑的每一Ile氨基酸残基取代对所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，所述参考分泌蛋白质是天然存在的蛋白质。在一些实施方案中，所述工程化蛋白质当在相容微生物中表达时从其分泌。在一些实施方案中，所述相容微生物是与所述参考分泌蛋白质天然存在的微生物相同的属。在一些实施方案中，所述微生物是异养生物。在一些实施方案中，所述微生物是光合的。在一些实施方案中，所述光合微生物是蓝细菌。

在一些实施方案中，所述工程化蛋白质的氨基酸序列与所述参考分泌蛋白质至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％同源。

在一些实施方案中，所述参考分泌蛋白质中5至50个非必需氨基酸残基被所述工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5至50个非支链氨基酸残基被所述工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5至50个非Leu氨基酸残基被所述工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5至50个非Val氨基酸残基被所述工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5至50个非Ile氨基酸残基被所述工程化蛋白质中的Ile氨基酸残基取代。

在一些实施方案中，所述参考分泌蛋白质中5％至50％的非必需氨基酸残基被所述工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5％至50％的非支链氨基酸残基被所述工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5％至50％的非Leu氨基酸残基被所述工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5％至50％的非Val氨基酸残基被所述工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，所述参考分泌蛋白质中5％至50％，例如5％至10％、5％至15％、5％至20％、5％至25％、5％至30％、5％至40％、5％至45％、10％至15％、10％至20％、10％至25％、10％至30％、10％至35％、10％至40％、10％至45％、15％至20％、15％至25％、15％至30％、15％至35％、15％至40％、15％至45％、20％至25％、20％至30％、20％至35％、20％至40％、20％至45％、25％至30％、25％至35％、25％至40％、25％至45％、30％至35％、30％至40％、30％至45％、35％至40％、35％至45％或40％至45％的非Ile氨基酸残基被所述工程化蛋白质中的Ile氨基酸残基取代。

在一些实施方案中，所述工程化蛋白质由以下构成：a)所述工程化营养蛋白质序列中存在的支链氨基酸残基与总氨基酸残基的比率为至少26.3％；b)所述工程化营养蛋白质序列中存在的Leu残基与总氨基酸残基的比率为至少11.8％；以及c)所述工程化营养蛋白质序列中存在的必需氨基酸残基与总氨基酸残基的比率为至少55.5％。在一些实施方案中，所述工程化蛋白质包含每种必需氨基酸。在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质来自于选自以下的属的一员：曲霉属(Aspergillus)、木霉属(Trichoderma)、青霉属(Penicillium)、金孢霉属(Chrysosporium)、枝顶孢属(Acremonium)、镰刀菌属(Fusarium)、栓菌属(Trametes)和根霉属(Rhizopus)。在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质来自于选自以下的微生物：大肠杆菌(Escherichia coli)、枯草杆菌(Bacillus subtilis)、酿酒酵母(Saccharomyces cerevisiae)、巴斯德毕赤氏酵母(Pichia pastoris)、棒状杆菌属的种(Corynebacterium species)、集胞藻属的种(Synechocystisspecies)和聚球藻属的种(Synechococcus species)。在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质是选自附录A中列出的蛋白质的蛋白质。在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质选自SEQ ID NO:1-9。在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质包含选自纤维素结合结构域、碳水化合物结合模块、纤连蛋白III型结构域和疏水蛋白的折叠共同序列。在工程化蛋白质的一些实施方案中，所述参考分泌蛋白质选自通过以下UniProt登录号鉴别的蛋白质：Q4WBW4,Q99034,A1DBP9,Q8NJP6,A1CU44,B0Y8K2,Q4WM08,Q0CMT2,Q8NK02,A1DNL0,A1CCN4,B0XWL3,Q4WFK4,A2QYR9,Q0CFP1,Q5B2E8,A1DJQ7,A1C4H2,B0Y9G4,B8MXJ7,Q4WBU0,Q96WQ9,A2R5N0,Q2US83,Q0CEU4,Q5BCX8,A1DBS6,Q9HE18,O14405,P62694,Q06886,P13860,Q9P8P3,P62695,P07987,A1C8U0,B0Y9E7,B8NIV9,Q4WBS1,Q2U2I3,Q5AR04,A1DBV1,B0YEK2,B8N7Z0,A4DA70,A2R2S6,Q2UI87,Q0CVX4,Q5AX28,A1D9S3,A1CC12,B0Y2K1,Q4WW45,Q5AQZ4,Q99024,P29026,P29027,P69328,P69327,P36914,P23176,P22832,A2QHE1,A1CR85,B0XPE1,B8NRX2,Q4WJJ3,P87076,A2RAL4,Q2UUD6,D0VKF5,Q0CTD7,Q5B5S8,A1D451,B8NJF4,A2QPK4,Q2UNR0,Q5AUW5,B0Y7Q8,B8NP65,Q4WMU3,Q2UN12,Q0CI67,Q5B6C6,A1DMR8,B8NMR5,Q2U325,Q0CUC1,Q5B0F4,A1DC16,A1CUR8,B0XM94,B8NPL7,Q4WL79,Q2U9M7,Q5B6C7,A1DPG0,A1CA51,B0Y3M6,B8NDE2,Q4WU49,A2R989,Q2U8Y5,Q0CAF5,Q5BB53,A1DFA8,B0Y8M8,Q4WLY1,Q5AV15,A1DNN8,Q5BA18,B0YB65,Q4WGT3,Q0CEF3,Q5B9F2,A1DCV5,B0XPB8,B8N5S6,Q4WR62,A5ABF5,Q2UDK7,Q0C7L4,Q5AWD4,A1D122,Q5B681,Q5BG51,A1CCL9,Q0CB82,Q5ATH9,Q4AEG8,B0XP71,B8MYV0,Q4WRB0,A2QA27,O00089,Q2UR38,Q0CMH8,Q5BAS1,P29026,P29027,P48827,A1CIA7,B0Y708,P35211,B8N106,P28296,P12547,Q00208,A1CWF3,P52750,P52754,P79073,P52755,P41746和P28346。由本文中提供的登录号指示的序列是到本申请提交日期时止数据库中的那些序列。

在一些实施方案中，所述工程化蛋白质选自SEQ ID NO:10-13。在一些实施方案中，所述工程化蛋白质进一步包含用于亲和力纯化的多肽标签。在一些实施方案中，用于亲和力纯化的标签是聚组氨酸标签。在一些实施方案中，所述工程化蛋白质在pH 7下具有至少0.05的每个氨基酸净绝对电荷。在一些实施方案中，所述工程化蛋白质在pH 7下具有至少0.10的每个氨基酸净绝对电荷。在一些实施方案中，所述工程化蛋白质在pH 7下具有至少0.15的每个氨基酸净绝对电荷。在一些实施方案中，所述工程化蛋白质在pH 7下具有至少0.20的每个氨基酸净绝对电荷。在一些实施方案中，所述工程化蛋白质在pH 7下具有至少0.25的每个氨基酸净绝对电荷。在一些实施方案中，所述工程化蛋白质在pH 7下具有净正电荷。在一些实施方案中，所述工程化蛋白质在pH 7下具有净负电荷。在一些实施方案中，所述工程化蛋白质是可消化的。在一些实施方案中，所述工程化蛋白质包含选自胃蛋白酶识别位点、胰蛋白酶识别位点和胰凝乳蛋白酶识别位点的蛋白酶识别位点。

在另一方面，本公开提供了核酸，在一些实施方案中，包括分离的核酸。在一些实施方案中，所述核酸包含编码本公开的工程化蛋白质的核酸序列。在一些实施方案中，所述核酸进一步包含可操作地连接于编码所述工程化蛋白质的核酸序列的表达控制序列。

在另一方面，本公开提供了载体。在一些实施方案中，所述载体包含编码本公开的工程化蛋白质的核酸序列。在一些实施方案中，所述载体进一步包含可操作地连接于编码所述工程化蛋白质的核酸序列的表达控制序列。

在另一方面，本公开提供了重组微生物。在一些实施方案中，所述重组微生物包含以下中的至少一者：a)编码本公开的工程化蛋白质的核酸；和b)包含编码本公开的工程化蛋白质的核酸的载体。在一些实施方案中，所述重组微生物是原核生物。在一些实施方案中，所述原核生物是异养的。在一些实施方案中，所述原核生物是自养的。在一些实施方案中，所述原核生物是细菌。

在另一方面，本公开提供了制备本公开的重组工程化蛋白质的方法。在一些实施方案中，所述方法包括在足够由所述重组微生物产生所述重组工程化蛋白质的条件下培养本公开的重组微生物。在一些实施方案中，所述方法进一步包括从所述培养物分离所述重组工程化蛋白质。在一些实施方案中，所述重组蛋白质是可溶的。在一些实施方案中，所述重组工程化蛋白质由所述培养的重组微生物分泌且从所述培养基分离所述分泌蛋白质。

在另一方面，本公开提供了营养组合物。在一些实施方案中，所述营养组合物包含本公开的工程化蛋白质和至少一种第二组分。在一些实施方案中，所述第二组分选自蛋白质、多肽、肽、游离氨基酸、碳水化合物、脂肪、矿物质或矿物质来源、维生素和赋形剂。在一些实施方案中，所述第二组分是蛋白质。在一些实施方案中，所述蛋白质是工程化蛋白质。在一些实施方案中，所述第二组分是选自必需氨基酸的游离氨基酸。在一些实施方案中，所述第二组分是选自支链氨基酸的游离氨基酸。在一些实施方案中，所述第二组分是Leu。在一些实施方案中，所述第二组分是Val。在一些实施方案中，所述第二组分是Ile。在一些实施方案中，所述第二组分是赋形剂。在一些实施方案中，所述赋形剂选自缓冲剂、防腐剂、稳定剂、粘合剂、压缩剂、润滑剂、分散增强剂、崩解剂、调味剂、甜味剂、着色剂。在一些实施方案中，所述营养组合物被配制为液体溶液、浆液、悬浮液、凝胶、糊剂、粉剂或固体。

在另一方面，本公开提供了制备营养组合物的方法。在一些实施方案中，所述方法包括提供本公开的工程化蛋白质并将所述工程化蛋白质与第二组分组合。在一些实施方案中，所述第二组分选自蛋白质、多肽、肽、游离氨基酸、碳水化合物、脂肪、矿物质或矿物质来源、维生素和赋形剂。在一些实施方案中，所述第二组分是蛋白质。在一些实施方案中，所述第二组分是选自必需氨基酸的游离氨基酸。在一些实施方案中，所述第二组分是选自支链氨基酸的游离氨基酸。在一些实施方案中，所述第二组分是Leu。在一些实施方案中，所述第二组分是Val。在一些实施方案中，所述第二组分是Ile。在一些实施方案中，所述第二组分是赋形剂。在一些实施方案中，所述赋形剂选自缓冲剂、防腐剂、稳定剂、粘合剂、压缩剂、润滑剂、分散增强剂、崩解剂、调味剂、甜味剂、着色剂。在一些实施方案中，所述营养组合物被配制为液体溶液、浆液、悬浮液、凝胶、糊剂、粉剂或固体。

在另一方面，本公开提供了维持或增加受试者的肌肉质量、肌肉强度和功能性能中的至少一者的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的根据本公开的工程化蛋白质、根据本公开的营养组合物或通过根据本公开的方法制备的营养组合物。在一些实施方案中，受试者是年老、病情危急和罹患蛋白质-能量营养不良症中的至少一者。在一些实施方案中，受试者配合运动，消耗根据本公开的工程化蛋白质、根据本公开的营养组合物或通过根据本公开的方法制备的营养组合物。在一些实施方案中，根据本公开的工程化蛋白质、根据本公开的营养组合物或通过根据本公开的方法制备的营养组合物被受试者通过口腔、肠或肠胃外途径消耗。

在另一方面，本公开提供了维持或实现受试者的合乎需要的体重指数的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的本公开的工程化蛋白质、本公开的营养组合物或通过本公开的方法制备的营养组合物。在一些实施方案中，受试者是年老、病情危急和罹患蛋白质-能量营养不良症中的至少一者。在一些实施方案中，受试者配合运动，消耗根据本公开的工程化蛋白质、根据本公开的营养组合物或通过根据本公开的方法制备的营养组合物。在一些实施方案中，根据本公开的工程化蛋白质、根据本公开的营养组合物或通过根据本公开的方法制备的营养组合物被受试者通过口腔、肠或肠胃外途径消耗。

在另一方面，本公开提供了向患有蛋白质-能量营养不良症的受试者提供蛋白质的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的本公开的工程化蛋白质、本公开的营养组合物或本公开的营养组合物。在一些实施方案中，根据本公开的工程化蛋白质、根据本公开的营养组合物或通过根据本公开的方法制备的营养组合物被受试者通过口腔、肠或肠胃外途径消耗。

在另一方面，本公开提供了制备工程化蛋白质的方法。在一些实施方案中，所述方法包括a)提供参考分泌蛋白质；b)鉴别所述参考分泌蛋白质的一组氨基酸位置以进行突变，从而提高所述蛋白质的营养含量；以及c)合成包含目标氨基酸取代的工程化蛋白质。在一些实施方案中，所述参考分泌蛋白质来自于选自以下属的一员：曲霉属、木霉属、青霉属、金孢霉属、枝顶孢属、镰刀菌属、栓菌属和根霉属。在一些实施方案中，所述参考分泌蛋白质来自于选自以下的微生物：大肠杆菌、枯草杆菌、酿酒酵母、巴斯德毕赤氏酵母、棒状杆菌属的种、集胞藻属的种和聚球藻属的种。在一些实施方案中，所述参考分泌蛋白质是附录A中列出的蛋白质。在一些实施方案中，所述参考分泌蛋白质是选自通过以下UniProt登录号鉴别的蛋白质的蛋白质：Q4WBW4,Q99034,A1DBP9,Q8NJP6,A1CU44,B0Y8K2,Q4WM08,Q0CMT2,Q8NK02,A1DNL0,A1CCN4,B0XWL3,Q4WFK4,A2QYR9,Q0CFP1,Q5B2E8,A1DJQ7,A1C4H2,B0Y9G4,B8MXJ7,Q4WBU0,Q96WQ9,A2R5N0,Q2US83,Q0CEU4,Q5BCX8,A1DBS6,Q9HE18,O14405,P62694,Q06886,P13860,Q9P8P3,P62695,P07987,A1C8U0,B0Y9E7,B8NIV9,Q4WBS1,Q2U2I3,Q5AR04,A1DBV1,B0YEK2,B8N7Z0,A4DA70,A2R2S6,Q2UI87,Q0CVX4,Q5AX28,A1D9S3,A1CC12,B0Y2K1,Q4WW45,Q5AQZ4,Q99024,P29026,P29027,P69328,P69327,P36914,P23176,P22832,A2QHE1,A1CR85,B0XPE1,B8NRX2,Q4WJJ3,P87076,A2RAL4,Q2UUD6,D0VKF5,Q0CTD7,Q5B5S8,A1D451,B8NJF4,A2QPK4,Q2UNR0,Q5AUW5,B0Y7Q8,B8NP65,Q4WMU3,Q2UN12,Q0CI67,Q5B6C6,A1DMR8,B8NMR5,Q2U325,Q0CUC1,Q5B0F4,A1DC16,A1CUR8,B0XM94,B8NPL7,Q4WL79,Q2U9M7,Q5B6C7,A1DPG0,A1CA51,B0Y3M6,B8NDE2,Q4WU49,A2R989,Q2U8Y5,Q0CAF5,Q5BB53,A1DFA8,B0Y8M8,Q4WLY1,Q5AV15,A1DNN8,Q5BA18,B0YB65,Q4WGT3,Q0CEF3,Q5B9F2,A1DCV5,B0XPB8,B8N5S6,Q4WR62,A5ABF5,Q2UDK7,Q0C7L4,Q5AWD4,A1D122,Q5B681,Q5BG51,A1CCL9,Q0CB82,Q5ATH9,Q4AEG8,B0XP71,B8MYV0,Q4WRB0,A2QA27,O00089,Q2UR38,Q0CMH8,Q5BAS1,P29026,P29027,P48827,A1CIA7,B0Y708,P35211,B8N106,P28296,P12547,Q00208,A1CWF3,P52750,P52754,P79073,P52755,P41746和P28346。在一些实施方案中，所述参考分泌蛋白质选自SEQ ID NO:1-9。在一些实施方案中，所述参考分泌蛋白质包含选自纤维素结合结构域、碳水化合物结合模块、纤连蛋白III型结构域和疏水蛋白的折叠共同序列。

在一些实施方案中，鉴别所述参考分泌蛋白质的所述氨基酸位置组进行突变以提高所述蛋白质的营养含量包括确定选自以下各者的至少一个参数：所述参考分泌蛋白质的多个氨基酸位置的氨基酸可能性(AALike)、氨基酸类型可能性(AATLike)、位置熵(S_pos)、氨基酸类型位置熵(S_AATpos)、相对折叠自由能(ΔΔG_fold)和二级结构同一性(LoopID)。在一些实施方案中，确定所述参考分泌蛋白质的多个氨基酸位置的两个或更多个参数的组合，其中所述参数的组合选自：(A)AAlike和ΔΔG_fold；(B)AATlike和ΔΔG_fold；(C)AAlike、AATlike和ΔΔG_fold；(D)S_pos和ΔΔG_fold；(E)S_AATpos和ΔΔG_fold；(F)LoopID和ΔΔG_fold；(G)AAlike、ΔΔG_fold和LoopID；(H)AAlike、AATlike、ΔΔG_fold和LoopID；(I)AATlike、ΔΔG_fold和LoopID；(J)S_pos、ΔΔG_fold和LoopID以及(K)S_AATpos、ΔΔG_fold和LoopID。在一些实施方案中，所述方法进一步包括基于所述参数将所述参考分泌蛋白质的所述多个氨基酸位置排序并使具有至少一个阈值参数值的位置上的氨基酸突变。

在一些实施方案中，所述工程化蛋白质在体内合成。在一些实施方案中，所述工程化蛋白质在体外合成。

附图简述

图1显示来自黑曲霉(A.niger)的葡糖淀粉酶蛋白质(SEQ ID NO:1)中基于氨基酸可能性的亮氨酸替换。图1A显示基于亮氨酸可能性的亮氨酸替换，且图1B显示图1A中图左端的放大视图。图1C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图1D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图2显示来自黑曲霉的葡糖淀粉酶蛋白质(SEQ ID NO:1)中基于位置熵的亮氨酸替换。图2A中，位置熵基于全组二十种氨基酸计算，而图2B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图3显示来自黑曲霉的葡糖淀粉酶蛋白质(SEQ ID NO:1)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图4显示来自黑曲霉的内切-β-1,4-葡聚糖酶蛋白质(SEQ ID NO:2)中基于氨基酸可能性的亮氨酸替换。图4A显示基于亮氨酸可能性的亮氨酸替换，且图4B显示图4A中图左端的放大视图。图4C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图4D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图5显示来自黑曲霉的内切-β-1,4-葡聚糖酶蛋白质(SEQ ID NO:2)中基于位置熵的亮氨酸替换。图5A中，位置熵基于全组二十种氨基酸计算，而图5B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图6显示来自黑曲霉的内切-β-1,4-葡聚糖酶蛋白质(SEQ ID NO:2)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图7显示来自黑曲霉的1,4-β-D-葡聚糖纤维二糖水解酶蛋白质(SEQ ID NO:3)中基于氨基酸可能性的亮氨酸替换。图7A显示基于亮氨酸可能性的亮氨酸替换，且图7B显示图7A中图左端的放大视图。图7C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图7D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图8显示来自黑曲霉的1,4-β-D-葡聚糖纤维二糖水解酶蛋白质(SEQ ID NO:3)中基于位置熵的亮氨酸替换。图8A中，位置熵基于全组二十种氨基酸计算，而图8B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图9显示来自黑曲霉的1,4-β-D-葡聚糖纤维二糖水解酶蛋白质(SEQ ID NO:3)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图10显示来自黑曲霉的内切-1,4-β-木聚糖酶蛋白质(SEQ ID NO:4)中基于氨基酸可能性的亮氨酸替换。图10A显示基于亮氨酸可能性的亮氨酸替换，且图10B显示图10A中图左端的放大视图。图10C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图10D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图11显示来自黑曲霉的内切-1,4-β-木聚糖酶蛋白质(SEQ ID NO:4)中基于位置熵的亮氨酸替换。图11A中，位置熵基于全组二十种氨基酸计算，而图11B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图12显示来自黑曲霉的内切-1,4-β-木聚糖酶蛋白质(SEQ ID NO:4)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图13显示来自黑曲霉的纤维素结合结构域1(SEQ ID NO:5)中基于氨基酸可能性的亮氨酸替换。图13A显示基于亮氨酸可能性的亮氨酸替换，且图13B显示图13A中图左端的放大视图。图13C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图13D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图14显示来自黑曲霉的纤维素结合结构域1(SEQ ID NO:5)中基于位置熵的亮氨酸替换。图14A中，位置熵基于全组二十种氨基酸计算，而图14B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图15显示来自黑曲霉的纤维素结合结构域1(SEQ ID NO:5)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图16显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中基于氨基酸可能性的亮氨酸替换。图16A显示基于亮氨酸可能性的亮氨酸替换，且图16B显示图16A中图左端的放大视图。图16C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图16D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图17显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中基于氨基酸可能性的异亮氨酸替换。图17A显示基于异亮氨酸可能性的异亮氨酸替换，且图17B显示图17A中图左端的放大视图。图17C显示基于支链氨基酸(BCAA)可能性的异亮氨酸替换，且图17D显示基于疏水性氨基酸(A、M、I、L、V)可能性的异亮氨酸替换。

图18显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中基于氨基酸可能性的缬氨酸替换。图18A显示基于缬氨酸可能性的缬氨酸替换，且图18B显示图18A中图左端的放大视图。图18C显示基于支链氨基酸(BCAA)可能性的缬氨酸替换，且图18D显示基于疏水性氨基酸(A、M、I、L、V)可能性的缬氨酸替换。

图19显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中基于位置熵的亮氨酸替换。图19A中，位置熵基于全组二十种氨基酸计算，而图19B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图20显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图21显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中每个氨基酸位置相对于野生型的异亮氨酸替换突变折叠自由能。

图22显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中每个氨基酸位置相对于野生型的缬氨酸替换突变折叠自由能。

图23显示来自黑曲霉的碳水化合物结合模块20(SEQ ID NO:6)中每个氨基酸位置相对于野生型的精氨酸替换突变折叠自由能。

图24显示来自黑曲霉的葡糖苷酶纤连蛋白III型结构域(SEQ IDNO:7)中基于氨基酸可能性的亮氨酸替换。图24A显示基于亮氨酸可能性的亮氨酸替换，且图24B显示图24A中图左端的放大视图。图24C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图24D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图25显示来自黑曲霉的葡糖苷酶纤连蛋白III型结构域(SEQ IDNO:7)中基于位置熵的亮氨酸替换。图25A中，位置熵基于全组二十种氨基酸计算，而图25B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图26显示来自黑曲霉的葡糖苷酶纤连蛋白III型结构域(SEQ IDNO:7)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图27显示来自里氏木霉(T.Reesei)的疏水蛋白I蛋白质(SEQID NO:8)中基于氨基酸可能性的亮氨酸替换。图27A显示基于亮氨酸可能性的亮氨酸替换，且图27B显示图27A中图左端的放大视图。图27C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图27D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图28显示来自里氏木霉的疏水蛋白I蛋白质(SEQ ID NO:8)中基于位置熵的亮氨酸替换。图28A中，位置熵基于全组二十种氨基酸计算，而图28B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图29显示来自里氏木霉的疏水蛋白I蛋白质(SEQ ID NO:8)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图30显示来自里氏木霉的疏水蛋白II蛋白质(SEQ ID NO:9)中基于氨基酸可能性的亮氨酸替换。图30A显示基于亮氨酸可能性的亮氨酸替换，且图30B显示图30A中图左端的放大视图。图30C显示基于支链氨基酸(BCAA)可能性的亮氨酸替换，且图30D显示基于疏水性氨基酸(A、M、I、L、V)可能性的亮氨酸替换。

图31显示来自里氏木霉的疏水蛋白II蛋白质(SEQ ID NO:9)中基于位置熵的亮氨酸替换。图31A中，位置熵基于全组二十种氨基酸计算，而图31B中，其基于5组具有类似的生物物理特性的氨基酸计算：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]、其它[G、P、C]。

图32显示来自里氏木霉的疏水蛋白II蛋白质(SEQ ID NO:9)中每个氨基酸位置相对于野生型的亮氨酸替换突变折叠自由能。

图33显示用于制备SEQID-45001和SEQID-45029变体的文库构建策略的示意图。

图34A和34B显示使用Caliper LabChip GXII筛选的分泌结果。(A)证明命中(相关蛋白质峰值用箭头表示)、阴性对照和蛋白质梯级的电泳图谱。(B)由电泳图谱产生的模拟凝胶图像，证明蛋白质变体的分泌(相关蛋白质峰值在框中)。

图35显示曲霉属培养物上清液的抗FLAG dotblot分析的结果。(A)经编码SEQID-45029的特定变体的表达载体转化的分离株。框指示标准曲线。(B)来自(A)的阳性孔的定量。SEQID-45029是野生型分泌的阳性对照。(C)经编码SEQID-45029变体的文库的表达载体转化的分离株。(D)基于标准曲线(框)的来自(C)的阳性孔的定量。

图36证明分离株18和27表达盒的序列多样性。破折号后的数字指示特定亚克隆。框指示同一性序列。表示存在超出可变区范围的缺失的克隆用星号(asterix)表示。

附录描述

本说明书包括附录A-D。

附录A列出示例性参考分泌蛋白质。

附录B列出包括选自以下的折叠/结构域的代表性蛋白质：锚蛋白重复序列、富含亮氨酸的重复序列、三十四肽重复序列(tetratricopeptide repeat)、犰狳重复序列、纤连蛋白III型结构域、类脂质运载蛋白结构域、扭结菌素(knottin)、纤维素结合结构域、碳水化合物结合结构域、蛋白Z折叠、PDZ结构域、SH3结构域、SH2结构域、WW结构域、硫氧还原蛋白、亮氨酸拉链、植物同源结构域、tudor结构域和疏水蛋白。

附录C列出用于多重序列比对(MSA)以分析氨基酸可能性的蛋白质。

附录D呈现实施例中分析的蛋白质和多肽序列的生理化学特性的分析。

发明详述

除非本文中另外定义，否则与本公开结合使用的科学与技术术语应具有本领域普通技术人员通常所理解的含义。此外，除非上下文另外要求，单数术语应包括复数且复数术语应包括单数。一般来说，与生物化学、酶学、分子和细胞生物学、微生物学、遗传学和蛋白质与核酸化学和本文中描述的杂交相关使用的命名法和所述学科的技术是本领域中众所周知且常用的那些命名法和技术。本文中引用的某些参考文献和其它文献以引用的方式明确地并入本文中。另外，本文中引用的所有UniProt/SwissProt记录由此以引用的方式并入本文中。在冲突的情况下，将以本说明书(包括定义)为主。材料、方法和实施例仅仅是说明性的且并非旨在限制。

本公开的方法和技术一般根据本领域中众所周知和如本说明书通篇引用和论述的各种通用和更具体参考文献中所描述的常规方法进行。参见例如Sambrook等人,Molecular Cloning:A LaboratoryManual,第3版,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,N.Y.(2001)；Ausubel等人,Current Protocols in MolecularBiology,Greene Publishing Associates(1992和2002增刊)；Taylor和Drickamer,Introduction to Glycobiology,Oxford Univ.Press(2003)；Worthington Enzyme Manual,Worthington Biochemical Corp.,Freehold,N.J.；Handbook of Biochemistry:Section A Proteins,第I卷,CRC Press(1976)；Handbook of Biochemistry:Section A Proteins,第II卷,CRCPress(1976)；Essentials of Glycobiology,Cold Spring Harbor LaboratoryPress(1999)。Remington’s Pharmaceutical Sciences,Mack Pub.Co,Easton,PA(第18版)(1990)。许多可应用到蓝细菌的分子生物学和遗传技术描述于由此以引用的方式并入本文中的Heidorn等人,“Synthetic Biology in Cyanobacteria:Engineering and Analyzing NovelFunctions,”Methods in Enzymology,第497卷,第24章(2011)中。

本公开提及在因特网上公开的某些蛋白质和基因序列的序列数据库登录(例如UniProt/SwissProt记录)以及其它有关因特网的信息。熟练技术人员了解包括序列数据库登录在内的有关因特网的信息时时更新，且举例来说，用于提到具体序列的参考数字可改变。在提到序列信息的公共数据库或其它有关因特网的信息的情况下，应了解此类改变可能发生，且有关因特网的信息的具体实施方案可以变来变去。因为熟练技术人员可以通过在因特网上搜索来发现同等的信息，所以对因特网网页地址或序列数据库登录的提及证明所讨论的信息的可用性和公共传播。在所有情况下，本文中提及的序列数据库登录中含有的序列信息由此以引用的方式并入本文中。

在公开和描述本发明的蛋白质、组合物、方法和其它实施方案前，应了解本文中使用的术语仅仅是为了描述具体的实施方案而不意图限制。必须指出，除非上下文另外清楚地规定，否则如本说明书和随附权利要求书中所用，单数形式“一(a/an)”和“该”包括复数个指示物。

如本文所用，术语“包含”与“包括”或“含有”同义，且为包括性或开放性的，且不排除额外的未叙述的成员、要素或方法步骤。

本公开提到氨基酸。氨基酸全名可与每一者的标准三字母和一字母缩写互换使用。为了避免疑义，它们是：丙氨酸(Ala，A)、精氨酸(Arg，R)、天冬酰胺(Asn，N)、天冬氨酸(Asp，D)、半胱氨酸(Cys，C)、谷氨酸(Glu，E)、谷氨酰胺(Gln，Q)、甘氨酸(Gly，G)、组氨酸(His，H)、异亮氨酸(Ile，I)、亮氨酸(Leu，L)、赖氨酸(Lys，K)、甲硫氨酸(Met，M)、苯丙氨酸(Phe，F)、脯氨酸(Pro，P)、丝氨酸(Ser，S)、苏氨酸(Thr，T)、色氨酸(Trp，W)、酪氨酸(Tyr，Y)、缬氨酸(Val，V)。

如本文所用，术语“体外”是指在人造环境中，例如在试管或反应容器中，在细胞培养物中，在皮式培养皿(Petri dish)中等等，而非在生物体(例如动物、植物或微生物)内发生的事件。

如本文所用，术语“体内”是指在生物体(例如动物、植物或微生物)内发生的事件。

如本文所用，术语“分离的”是指物质或实体已经(1)与至少一些在其最初产生(无论在自然界中还是在实验背景中)时所关联的组分分离，和/或(2)借助于人产生、制备和/或制造。分离的物质和/或实体可与其最初关联的其它组分的至少约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％或更多分离。在一些实施方案中，分离试剂超过约80％、约85％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或大于约99％纯。如本文所用，如果物质基本上不含其它组分，那么它是“纯的”。

如本文所用，“支链氨基酸”是选自亮氨酸、异亮氨酸和缬氨酸的氨基酸。

如本文所用，“必需氨基酸”是选自组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、苏氨酸、色氨酸和缬氨酸的氨基酸。

如本文所用，术语“肽”是指短的多肽，例如典型地含有少于约50个氨基酸且更典型地少于约30个氨基酸的多肽。如本文所用的该术语涵盖模拟结构且因此模拟生物功能的类似物和模拟物。

术语“多肽”和“蛋白质”可以互换，且这些术语涵盖天然存在的与非天然存在的多肽，且如本文中提供或如本领域中一般已知，涵盖其片段、突变体、衍生物和类似物。多肽可以是单体的，意指其具有单链；或是聚合的，意指其由两个或更多个可以共价或非共价缔合的链构成。此外，多肽可以包含大量不同的结构域，每一结构域具有一种或多种不同活性。为了避免疑义，多肽可以是大于或等于两个氨基酸的任何长度。

术语“分离的多肽”是如下多肽，其根据起源或来源，(1)不与在任一其天然状态下伴随其的天然关联的组分相关联；(2)以在自然界中未发现的纯度存在，其中可以相对于其它细胞物质的存在(例如，不含来自相同的物种或来自产生所述多肽的宿主物种的其它多肽)判定纯度；(3)通过来自不同物种的细胞表达；(4)通过细胞重组表达(例如，如果多肽由宿主细胞中存在的重组核酸产生并与产生宿主细胞分离，那么多肽是“分离的多肽”)；(5)在自然界中不存在(例如，其是在自然界中发现的多肽的结构域或其它片段或其包括在自然界中未发现的氨基酸类似物或衍生物或除标准肽键以外的键合)；或(6)借助于人以其它方式产生、制备和/或制造。因此，“分离的多肽”包括在宿主细胞中由重组核酸(例如载体)产生的多肽，无论所述宿主细胞是否天然产生具有相同氨基酸序列的多肽。“多肽”包括由宿主细胞经由过度表达产生的多肽，例如通过改变多肽的启动子，多肽从宿主细胞同源过度表达以将其表达增加至超过其在缺乏改变的启动子下在宿主细胞中正常表达水平的水平。化学合成或在不同于多肽天然起源的细胞的细胞系统中合成的多肽与其天然关联组分“分离”。也可以通过使用本领域中众所周知的蛋白质纯化技术分离，使多肽基本上不含天然关联组分。如因此定义，“分离”不一定要求所描述的蛋白质、多肽、肽或寡肽从合成其的细胞中物理去除。

术语“纯化(purify、purifying和purified)”是指已经与在最初产生(无论在自然界中还是在实验背景下)时或者在最初产生后的任何时间期间关联的至少一些组分分离的物质(或实体、组合物、产物或材料)。例如营养多肽等物质如果在产生时或在直至并包括最终产物的任何水平或阶段分离，那么其视为经纯化的，但最终产物可含有多达约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％或超过约90％其它物质并仍然视为“分离的”。经纯化的物质或实体可以与其最初关联的其它组分的至少约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％或更多分离。在一些实施方案中，经纯化的物质大于约80％、约85％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或大于约99％纯。在本文中提供的多肽和其它多肽的情况下，此类多肽可以从一种或多种能够从分泌所述多肽的单细胞生物体分泌的其它多肽纯化。如本文所用，如果多肽物质基本上不含其它组分或其它多肽组分，那么它是“纯的”。

如本文所用，术语“多肽片段”或“蛋白质片段”是指与参考多肽，例如全长多肽或天然存在的蛋白质的多肽结构域相比，具有更少氨基酸的多肽或其结构域。“天然存在的蛋白质”或“天然存在的多肽”包括具有通过非重组细胞或生物体产生的氨基酸序列的多肽。在一个实施方案中，多肽片段是其中片段的氨基酸序列与天然存在的序列中的对应位置相同的邻接序列。片段典型地是至少5、6、7、8、9或10个氨基酸长，或至少12、14、16或18个氨基酸长，或至少20个氨基酸长，或至少25、30、35、40或45个氨基酸，或至少50、60、70、80、90或100个氨基酸长，或至少110、120、130、140、150、160、170、180、190或200个氨基酸长，或225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600或大于600个氨基酸长。片段可以是在细胞内部或外部消化的较大多肽序列的一部分。因此，50个氨基酸长的多肽可以在细胞内产生，但在细胞内部或外部进行蛋白质分解，以产生小于50个氨基酸长的多肽。对于短于约25个氨基酸的多肽，此特别重要，所述多肽可能比较大多肽更难以重组产生或重组产生后纯化。如本文所用，术语“肽”是指短多肽或寡肽，例如典型地含有少于约50个氨基酸且更典型少于约30个氨基酸，或更典型少于约15个氨基酸，例如少于约10、9、8、7、6、5、4或3个氨基酸的肽。如本文所用的术语涵盖模拟结构且因此模拟生物功能的类似物和模拟物。

术语“融合蛋白”是指包含与异源氨基酸序列偶合的多肽或片段的多肽。融合蛋白为适用的，因为其可以经构建而含有两个或更多个可以来自于两种或更多种不同的蛋白质的所需功能元件。融合蛋白包含至少10个来自相关多肽的邻接氨基酸，或至少20或30个氨基酸，或至少40、50或60个氨基酸，或至少75、100或125个氨基酸。融合蛋白内包括的异源多肽通常是至少6个氨基酸长，或至少8个氨基酸长，或至少15、20或25个氨基酸长。包括较大多肽，例如IgG Fc区和甚至整个蛋白质，例如含有绿色荧光蛋白质(“GFP”)发色团的蛋白质的融合物特别有用。融合蛋白可以通过将编码多肽或其片段的核酸序列与编码不同的蛋白质或肽的核酸序列在框内构建并接着表达融合蛋白来重组产生。或者，融合蛋白可以通过将多肽或其片段与另一蛋白质交联而通过化学方式来产生。

如果组合物、制剂或产品为其预定消耗者提供可观的量的营养，那么其是“营养的”或“有营养的”，意指消耗者将组合物或制剂全部或一部分同化至细胞、器官和/或组织中。一般来说，此类同化至细胞、器官和/或组织中例如通过维持或提高所述细胞、器官和/或组织的健康和/或自然功能，为消耗者提供一定益处或效用。如本文中所述被同化的营养组合物或制剂称为“营养”。通过非限制性实例，如果多肽为其预期消耗者提供可观的量的多肽营养，那么其是营养的，意指消耗者将典型地呈单一氨基酸或小肽形式的蛋白质全部或一部分同化至细胞、器官和/或组织中。“营养”也意指为例如人或其它哺乳动物等受试者提供营养组合物、制剂、产品或其它材料的过程。营养产品无须是“营养全面的”意指如果以足够的量消耗，那么所述产品提供消耗者健康所需要的全部碳水化合物、脂质、必需脂肪酸、必需氨基酸、条件必需氨基酸、维生素和矿物质。另外，“营养全面的蛋白质”含有所需要的所有蛋白质营养(意指生物体生理正常状态所需要的量)，但不一定含有例如维生素和矿物质等微量营养素、碳水化合物或脂质。

在优选的实施方案中，组合物或制剂在其能够以足够提供“营养益处”的量分解(即肽键断裂，常常称为蛋白质消化)成单一氨基酸和/或小肽(例如，两个氨基酸、三个氨基酸或四个氨基酸，可能多达十个氨基酸)的多肽供应中是营养的。另外，在某些实施方案中，提供了经过胃肠壁且作为小肽(例如，大于单个氨基酸，但小于约十个氨基酸)或较大肽、寡肽或多肽(例如，>11个氨基酸)吸收至血流中的营养多肽。可以通过大量量度证明且任选地定量含有多肽的组合物中的营养益处。举例来说，营养益处是等于或大于蛋白质的参考每日摄入值的0.5％，例如参考每日摄入值的约1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％、60％、65％、70％、75％、80％、85％、90％、95％、100％或大于约100％的对消耗生物体的益处。或者，通过消耗者感觉和/或认识到饱腹感来证明营养益处。在其它实施方案中，通过将相当大量的组合物或制剂的多肽组分并入消耗者的细胞、器官和/或组织中来证明营养益处，此类并入一般意指单一氨基酸或短肽用以重新在细胞内产生多肽。“消耗者”或“消耗生物体”意指能够摄入具有营养益处的产品的任何动物。典型地，消耗者是哺乳动物，例如健康的人，例如健康的婴儿、儿童、成年人或老年人。或者，消耗者是处于发展疾病、病症或病状的风险或罹患疾病、病症或病状的的哺乳动物，例如人(例如，婴儿、儿童、成年人或老年人)，所述疾病、病症或病状特征为(i)缺乏足够营养和/或(ii)本发明的营养产品可减轻所述疾病、病症或病状。“婴儿”一般是低于约1岁或2岁的人，“儿童”一般是不到约18岁的人，且“老年人”或“老年”人是约65岁或更老的人。

本发明的一方面是，本文中提供的多肽具有超过供应能够分解的多肽的功能益处，包括证明多肽内含有的肽具有独特的氨基酸组成。此外，提供了具有在天然存在的全长多肽或多肽混合物中未发现的氨基酸比率的多肽，此类比率在多肽调节经由单一氨基酸和小肽发生的代谢信号传导的能力方面以及多肽(和其氨基酸组分)刺激对消耗生物体的健康说来是重要的特定代谢反应的能力方面都是有益的。如本文中提供，可以通过将单一氨基酸或两个或更多个氨基酸的多肽中的组成与参考多肽或参考多肽混合物比较来证明氨基酸比率。在一些实施方案中，此类比较可以包括多肽中一种氨基酸的含量对比参考多肽或参考多肽混合物中相同氨基酸的含量。在其它实施方案中，此类比较可以包括多肽中一种氨基酸对比参考多肽或参考多肽混合物中存在的所有其它氨基酸的含量的相对含量。

在其它优选的实施方案中，组合物或制剂在其能够通过预定消耗者水解的碳水化合物的供应中是营养的(称为“营养碳水化合物”)。可以通过大量量度证明且任选地定量含有碳水化合物的组合物中的营养益处。举例来说，营养益处是等于或大于碳水化合物的参考每日摄入值的至少约2％的对消耗生物体的益处。

在其它优选的实施方案中，组合物或制剂在其能够通过预定消耗者消化、并入、转变或进行其它细胞用途的脂质的供应中是营养的(称为“营养脂质”)。可以通过大量量度证明且任选地定量含有脂质的组合物中的营养益处。举例来说，营养益处是等于或超大于脂质(即脂肪)的参考每日摄入值的至少约2％的对消耗生物体的益处。

“农业来源的食品”是由土壤耕种或动物饲养所产生的食品。

如本文所用，如果编码蛋白质的核酸序列具有与编码第二蛋白质的核酸序列类似的序列，那么所述蛋白质具有与第二蛋白质的“同源性”或与其“同源”。或者，如果两种蛋白质具有类似的氨基酸序列，那么蛋白质具有与第二蛋白质的同源性(因此，术语“同源蛋白质”定义为意指两种蛋白质具有类似的氨基酸序列)。如本文所用，氨基酸序列的两个区域之间的同源性(尤其关于预测的结构类似性)解释为意味功能类似性。

当“同源”在关于蛋白质或肽时使用时，认识到不相同的残基位置常常相差保守的氨基酸取代。“保守的氨基酸取代”是一种氨基酸残基经侧链(R基团)具有类似的化学性质(例如，电荷或疏水性)的另一氨基酸残基取代。一般说来，保守的氨基酸取代基本上不会改变蛋白质的功能性质。在两个或更多个氨基酸序列彼此的不同之处在于保守取代的情况下，可上调序列同一性百分比或同源性程度以校正取代的保守性质。进行此调整的方法是本领域技术人员众所周知的。参见例如Pearson,1994,Methods Mol.Biol.24:307-31和25:365-89。

以下六组每一者含有彼此保守取代的氨基酸：1)丝氨酸、苏氨酸；2)天冬氨酸、谷氨酸；3)天冬酰胺、谷氨酰胺；4)精氨酸、赖氨酸；5)异亮氨酸、亮氨酸、甲硫氨酸、丙氨酸、缬氨酸；和6)苯丙氨酸、酪氨酸、色氨酸。

又称为序列同一性百分比的多肽序列同源性典型地使用序列分析软件测量。参见例如the Genetics Computer Group(GCG)的序列分析软件包,University of Wisconsin Biotechnology Center,910University Avenue,Madison,Wis.53705。蛋白质分析软件使用分配给各种取代、缺失和其它修饰(包括保守氨基酸取代)的同源性量度来匹配类似的序列。举例来说，GCG含有例如“Gap”和“Bestfit”等程序，其可以与默认参数一起使用以确定密切相关多肽，例如来自生物体不同物种的同源多肽之间或野生型蛋白质与其突变蛋白之间的序列同源性或序列同一性。参见例如GCG 6.1版。

当将具体的多肽序列与含有大量来自不同生物体的序列的数据库比较时一种示例性算法是计算机程序BLAST(Altschul等人,J.Mol.Biol.215:403-410(1990)；Gish和States,Nature Genet.3:266-272(1993)；Madden等人,Meth.Enzymol.266:131-141(1996)；Altschul等人,Nucleic Acids Res.25:3389-3402(1997)；Zhang和Madden,Genome Res.7:649-656(1997))，尤其是blastp或tblastn(Altschul等人,Nucleic AcidsRes.25:3389-3402(1997))。

BLASTp的示例性参数是：期望值：10(默认)；过滤器：seg(默认)；打开空位的成本：11(默认)；延伸空位的成本：1(默认)；最大比对：100(默认)；字长：11(默认)；描述数目：100(默认)；罚分矩阵：BLOWSUM62。针对同源性进行比较的多肽序列的长度一般将为至少约16个氨基酸残基，或至少约20个残基，或至少约24个残基，或至少约28个残基，或超过约35个残基。当搜索含有来自大量不同生物体的序列的数据库时，比较氨基酸序列可能有用。使用氨基酸序列的数据库搜索可以通过除本领域中已知的blastp以外的算法测量。举例来说，可以使用FASTA(GCG 6.1版中的程序)比较多肽序列。FASTA提供了查询与搜索序列之间的最佳重叠区域的比对和序列同一性百分比。Pearson,Methods Enzymol.183:63-98(1990)。举例来说，可以使用如GCG 6.1版(以引用的方式并入本文中)中所提供的FASTA，在其默认参数(字长为2和PAM250评分矩阵)下确定氨基酸序列之间的序列同一性百分比。

在一些实施方案中，如果聚合物分子(例如，多肽序列或核酸序列)的序列具有至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％同一性，那么其被认为彼此是“同源的”。在一些实施方案中，如果聚合物分子的序列至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％类似，那么其被认为彼此是“同源的”。术语“同源的”必定是指至少两个序列(核苷酸序列或氨基酸序列)之间的比较。在一些实施方案中，如果对于至少约20个氨基酸的至少一条链，两个核苷酸序列编码的多肽具有至少约50％同一性、至少约60％同一性、至少约70％同一性、至少约80％同一性或至少约90％同一性，那么该两个核苷酸序列被认为是同源的。在一些实施方案中，同源核苷酸序列通过编码至少4-5个独特指定氨基酸的链的能力表征。这些氨基酸相对于彼此的同一性和接近间距必须针对视为同源的核苷酸序列考虑。在少于60个核苷酸长的核苷酸序列的一些实施方案中，同源性通过编码至少4-5个独特指定的氨基酸的链的能力确定。在一些实施方案中，如果对于至少约20个氨基酸的至少一条链，两个蛋白质具有至少约50％同一性、至少约60％同一性、至少约70％同一性、至少约80％同一性或至少约90％同一性，那么该两个蛋白质序列被认为是同源的。

如本文所用，“修饰的衍生物”是指在一级结构序列上与参考多肽序列基本上同源，但包括例如体内或体外化学和生物化学修饰或并入在参考多肽中未发现的氨基酸的多肽或其片段。此类修饰包括例如乙酰化、羧化、磷酸化、糖基化、泛素化、例如用放射性核素的标记和各种酶修饰，如本领域的技术人员容易了解。用于标记多肽的多种方法和适用于达成此类目的的取代基或标记是本领域众所周知的，并包括例如¹²⁵I、³²P、³⁵S和³H等放射性同位素、结合于标记抗配体(例如，抗体)的配体、荧光团、化学发光剂、酶和可以用作标记配体的特定结合配对成员的抗配体。标记的选择取决于所需灵敏度、与引物结合的容易程度、稳定性要求和可用的仪器。用于标记多肽的方法是本领域众所周知的。参见例如Ausubel等人,Current Protocols in MolecularBiology,Greene Publishing Associates(1992和2002增刊)。

如本文所用，“多肽突变体”或“突变蛋白”是指与例如天然或野生型蛋白质等参考蛋白或多肽的氨基酸序列相比，序列含有一种或多种氨基酸的插入、复制、缺失、重排或取代的多肽。突变蛋白可以具有一个或多个氨基酸点取代，其中在一个位置上的单一氨基酸已经变为另一氨基酸；一个或多个插入和/或缺失，其中在参考蛋白的序列中一个或多个氨基酸分别插入或缺失；和/或在氨基或者羧基末端的任一者或两者氨基酸序列的截短。与参考蛋白相比，突变蛋白可以具有相同或不同的生物活性。

在一些实施方案中，突变蛋白与其对应参考蛋白具有例如至少85％整体序列同源性。在一些实施方案中，突变蛋白与野生型蛋白质具有至少90％整体序列同源性。在其它实施方案中，突变蛋白显示至少95％序列同一性或98％或99％或99.5％或99.9％整体序列同一性。

如本文所用，“用于亲和力纯化的多肽标签”是具有可以用于分离或纯化与第一“标签”多肽融合的相关第二蛋白质或多肽序列的结合配偶体的任何多肽。若干实例在本领域众所周知并包括His-6标签、FLAG表位、c-myc表位、Strep-TAGII、生物素标签、谷胱甘肽5-转移酶(GST)、壳多糖结合蛋白(CBP)、麦芽糖结合蛋白(MBP)或金属亲和力标签。

如本文所用，利用公式1，计算多肽或蛋白质在pH 7下的“多肽电荷”或“蛋白质电荷”。

公式1：

电荷_P＝-0.002-C*0.045-D*0.999-E*0.998+H*0.091+K*1.0+R*1.0-Y*-0.001

电荷_P是多肽或蛋白质的净电荷。

C是多肽或蛋白质中半胱氨酸残基的数目。

D是多肽或蛋白质中天冬氨酸残基的数目。

E是多肽或蛋白质中谷氨酸残基的数目。

H是多肽或蛋白质中组氨酸残基的数目。

K是多肽或蛋白质中赖氨酸残基的数目。

R是多肽或蛋白质中精氨酸残基的数目。

Y是多肽或蛋白质中酪氨酸残基的数目。

如本文所用，利用公式2，计算多肽或蛋白质在pH 7下的“每个氨基酸电荷”。

公式2：

电荷_A＝(-0.002-C*0.045-D*0.999-E*0.998+H*0.091+K*1.0+R*1.0-Y*-0.001)/N

电荷_A是多肽或蛋白质的每个氨基酸的净电荷。

C、D、E、H、K、R和Y如公式1中。

N是多肽或蛋白质中氨基酸的数目。

如本文所用，“重组”是指一种生物分子，例如基因或多肽，其(1)已从其天然存在的环境去除，(2)不与在自然界中发现所述基因的多核苷酸全部或一部分相关联，(3)可操作地连接于在自然界中未连接的多核苷酸，或(4)在自然界中不存在。此外，“重组”是指含有、产生和/或分泌可以是重组生物分子或非重组生物分子的生物分子的细胞或生物体，例如单细胞生物体，本文中称为“重组单细胞生物体”、“重组宿主”或“重组细胞”。举例来说，重组单细胞生物体可以含有提供重组多肽或非重组多肽增强的产生和/或分泌的重组核酸。重组细胞或生物体也意指已经引入例如重组载体等重组核酸的细胞。“重组单细胞生物体”包括重组微生物宿主细胞且不仅是指具体的受试者细胞，也指此类细胞的子代。因为某些修饰因突变或者环境影响而可能发生在后代中，所以此类子代事实上可能不与母细胞相同，但仍然包括在本文中的术语范围内。

术语“多核苷酸”、“核酸分子”、“核酸”或“核酸序列”是指至少10个碱基长的核苷酸的聚合形式。所述术语包括DNA分子(例如，cDNA或基因组或合成DNA)和RNA分子(例如，mRNA或合成RNA)以及含有非天然的核苷酸类似物、非天然的核苷间键或两者的DNA或RNA类似物。核酸可以呈任何拓扑构象。举例来说，核酸可以是单链、双链、三链、四重、部分双链、分支、发夹、环形或挂锁构象。

“合成的”RNA、DNA或混合聚合物是在细胞外产生的RNA、DNA或混合聚合物，例如化学上合成的RNA、DNA或混合聚合物。

如本文所用，术语“核酸片段”是指与全长的参考核苷酸序列相比，具有缺失，例如5’-末端或3’-末端缺失的核酸序列。在一个实施方案中，核酸片段是其中片段的核苷酸序列与天然存在的序列中对应的位置相同的邻接序列。在一些实施方案中，片段至少10、15、20或25个核苷酸长，或至少20、30、40、50、60、70、80、90、100、110、120、130、140或150个核苷酸长。在一些实施方案中，核酸序列的片段是开放阅读框序列的片段。在一些实施方案中，此类片段编码由开放阅读框核苷酸序列编码的蛋白质的多肽片段(如本文中定义)。

如本文所用，如果异源序列位于生物体基因组中的内源性核酸序列的相邻处，使得此内源性核酸序列的表达被改变，那么该内源性核酸序列(或该序列的编码蛋白质产物)在本文中被认为是“重组”。在此情形下，异源序列是非天然与内源性核酸序列相邻的序列，无论该异源序列本身是内源性的(来源于相同的宿主细胞或其子代)还是外源性的(来源于不同的宿主细胞或其子代)。举例来说，可以用启动子序列取代(例如，通过同源重组)宿主细胞基因组中的基因的天然启动子，使得此基因具有改变的表达模式。此基因现在将变成“重组的”，因为其与天然侧接其的至少一些序列分离。

如果核酸含有基因组中对应核酸非天然存在的任何修饰，那么其也被认为是“重组”。举例来说，如果内源性编码序列含有人工，例如通过人介入所引入的插入、缺失或点突变，那么其被认为是“重组的”。“重组核酸”还包括在异源位点整合至宿主细胞染色体中的核酸及呈游离体形式存在的核酸构建体。术语“重组”也可以用于提及克隆的DNA分离株、化学上合成的多核苷酸类似物或通过异源系统生物学上合成的多核苷酸类似物以及由此类核酸编码的多肽和/或mRNA。因此，举例来说，例如如果通过微生物合成的多肽由从重组基因或细胞中存在的其它核酸序列转录的mRNA产生，那么它是重组的。

如本文所用，短语参考核酸序列的“简并变体”涵盖可以根据标准遗传密码翻译以提供与从参考核酸序列翻译的氨基酸序列具有同一性的氨基酸序列的核酸序列。术语“简并寡核苷酸”或“简并引物”用以表示能够与序列不一定具有同一性但在一个或多个具体区段内彼此同源的靶核酸序列杂交的寡核苷酸。

在核酸序列的情形下术语“序列同一性百分比”或“相同”是指两个序列中在比对以求最大对应时相同的残基。序列同一性比较的长度可在具有至少约九个核苷酸、通常至少约20个核苷酸、更通常至少约24个核苷酸、典型地至少约28个核苷酸、更典型地至少约32个并且甚至更典型地至少约36个或更多个核苷酸的链上。本领域中已知大量不同的算法可以用于测量核苷酸序列同一性。举例来说，可以使用FASTA、Gap或Bestfit比较多核苷酸序列，这些程序是WisconsinPackage 10.0版,Genetics Computer Group(GCG),Madison,Wis中的程序。FASTA提供了查询与搜索序列之间的最佳重叠区域的比对和序列同一性百分比。Pearson,Methods Enzymol.183:63-98(1990)。举例来说，可以使用如GCG 6.1版(以引用的方式并入本文中)中所提供的FASTA在其默认参数下(字长为6和用于评分矩阵的NOPAM因子)或使用Gap在其默认参数下确定核酸序列之间的序列同一性百分比。或者，可以使用计算机程序BLAST(Altschul等人,J.Mol.Biol.215:403-410(1990)；Gish和States,Nature Genet.3:266-272(1993)；Madden等人,Meth.Enzymol.266:131-141(1996)；Altschul等人,Nucleic Acids Res.25:3389-3402(1997)；Zhang和Madden,Genome Res.7:649-656(1997))，尤其是blastp或tblastn(Altschul等人,Nucleic AcidsRes.25:3389-3402(1997))比较序列。

当提及核酸或其片段时术语“基本同源性”或“基本类似性”指示当在适当的核苷酸插入或缺失下与另一核酸(或其互补链)比对时，核苷酸碱基的至少约76％、80％、85％或至少约90％或至少约95％、96％、97％、98％或99％的核苷酸中存在序列同一性，如通过任何众所周知的序列同一性算法(例如如以上所讨论的FASTA、BLAST或Gap)测量。

或者，当核酸或其片段与另一核酸、另一核酸的一条链或其互补链在严格的杂交条件下杂交时存在基本同源性或类似性。在核酸杂交实验的情形下“严格的杂交条件”和“严格的洗涤条件”取决于大量不同的物理参数。如本领域的技术人员将容易了解，核酸杂交将受例如盐浓度、温度、溶剂、杂交物质的碱基组成、互补区域的长度以及杂交核酸之间的核苷酸碱基错配的数目等条件影响。本领域的技术人员知道如何改变这些参数来实现特定的杂交严格性。

一般说来，“严格的杂交”在比一组具体的条件下特定DNA杂交物的热熔点(Tm)低约25℃下进行。“严格的洗涤”在比一组具体的条件下特定DNA杂交物的Tm低约5℃的温度下进行。Tm是使50％的靶序列与完全匹配的探针杂交的温度。参见Sambrook等人,MolecularCloning:A Laboratory Manual,第2版,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,N.Y.(1989),第9.51页，在此以引用的方式并入本文中。出于本文中的目的，对于溶液相杂交，“严格的条件”被定义为在6xSSC(其中20xSSC含有3.0M NaCl和0.3M柠檬酸钠)、1％SDS中，在65℃下水性杂交(即，不含甲酰胺)，持续8-12小时，接着在0.2xSSC、0.1％SDS中在65℃下洗涤两次，持续20分钟。熟练的技术人员应了解在65℃下的杂交将以不同速率发生，这取决于大量因素，包括杂交的序列的长度和同一性百分比。

如本文所用，“表达控制序列”是指影响与其可操作地连接的编码序列的表达所需的多核苷酸序列。表达控制序列是控制核酸序列的转录、转录后事件和翻译的序列。表达控制序列包括适当的转录起始、终止、启动子和增强子序列；有效的RNA加工信号，例如剪接和聚腺苷酸化信号；使细胞质mRNA稳定化的序列；增强翻译效率的序列(例如，核糖体结合位点)；增强蛋白质稳定性的序列；和需要时，增强蛋白质分泌的序列。取决于宿主生物体，此类控制序列的性质不同；在原核生物中，此类控制序列一般包括启动子、核糖体结合位点和转录终止序列。术语“控制序列”意图至少涵盖其存在对表达来说必不可少的任何组分，且也可以涵盖其存在是有利的其它组分，例如前导序列和融合配偶体序列。

如本文所用，“可操作地连接(operatively linked/operably linked)”的表达控制序列是指其中表达控制序列与相关基因邻接以控制相关基因的连接，以及反式或隔开一定距离作用以控制相关基因的表达控制序列。

如本文所用，“载体”意图是指能够输送与其连接的另一核酸的核酸分子。一种类型载体是“质粒”，其一般是指其它DNA区段可连接至其中的环状双链DNA环，并且还包括线性双链分子，例如由聚合酶链式反应(PCR)扩增产生或由用限制酶处理环状质粒产生的线性双链分子。其它载体包括粘粒、细菌人工染色体(BAC)和酵母人工染色体(YAC)。另一类型载体是病毒载体，其中其它的DNA区段可连接至病毒基因组中(以下更详细地论述)。某些载体能够在其被引入的宿主细胞中自主复制(例如，具有在宿主细胞中起作用的复制起点的载体)。其它载体可以在引入宿主细胞后整合至宿主细胞的基因组中，且由此与宿主基因组一起复制。此外，某些载体能够指导与其可操作地连接的基因的表达。此类载体在本文中称为“重组表达载体”(或简称为“表达载体”)。

如本文所用，术语“重组宿主细胞”(或简称为“重组细胞”或“宿主细胞”)意图是指其中已经引入例如重组载体等重组核酸的细胞。在一些情况下，词语“细胞”被指定细胞类型的名称替换。举例来说，“重组微生物”是作为微生物宿主细胞的重组宿主细胞。应了解此类术语意图不仅是指具体的受试者细胞，而且也是指此类细胞的子代。因为某些修饰可能因突变或者环境影响而发生在后代中，所以此类子代事实上可能不与亲本细胞相同，但仍然包括在如本文所用的术语“重组宿主细胞”、“重组细胞”和“宿主细胞”范围内。重组宿主细胞可为在培养物中生长的分离的细胞或细胞系，或可为存在于活组织或生物体中的细胞。

如本文所用，术语“异养”是指无法固定碳和使用有机碳进行生长的生物体。

如本文所用，术语“自养”是指使用来自光的能量(通过光合作用)或无机化学反应(化学合成)，从简单的无机分子产生复杂的有机化合物(例如碳水化合物、脂肪和蛋白质)的生物体。

如本文所用，“肌肉质量”是指受试者体内肌肉的重量。肌肉质量包括骨骼肌、平滑肌(例如心肌和消化肌)和这些肌肉中含有的水。特定肌肉的肌肉质量可以使用双重能量x射线吸收测量法(DEXA)来确定(Padden-Jones等人,2004)。总瘦体重(减去脂肪)、总体重和骨骼矿物含量也可以通过DEXA测量。在一些实施方案中，受试者的特定肌肉的肌肉质量变化例如通过DEXA来确定，且改变用作受试者的肌肉质量总变化的代表物。因此，例如，如果受试者消耗如本文公开的营养蛋白质且具体肌肉或肌群的肌肉质量在一段时期内增加，那么可以断定受试者的肌肉质量增加。肌肉质量的变化可以用多种方式测量，包括蛋白质合成、分数合成速率和某些重要活性，例如mTor/mTorc。一般说来，“瘦肌肉质量”是指在缺乏例如脂肪等其它组织下的肌肉组织的质量。

如本文所用，“肌肉强度”是指肌肉在单次最大力气下可以产生的力量。存在两种类型肌肉强度，静态强度和动态强度。静态强度是指肌肉的等长收缩，其中在肌肉长度保持恒定的同时和/或当关节没有移动时肌肉产生力。实例包括拿着或携带一个物体，或按压墙壁。动态强度是指肌肉产生的导致移动的力。动态强度可以是等张收缩，其中肌肉在恒定负荷或等动力收缩下缩短，其中肌肉以恒定速度收缩和缩短。动态强度也可以包括等惯性强度。

除非说明，否则“肌肉强度”是指最大动态肌肉强度。最大强度称为“一次重复最大值”(1RM)。此为在不破坏或损伤下可以完全移动(上升、推动或牵引)一次的最大负荷(以公斤计)的测量。此值可以直接测量，但这样做需要重量增加，直至受试者不能进行此项活动而结束。或者，通过计数使用少于受试者可以移动的最大量的负荷，受试者可以进行运动重复的最大数目来估计1RM。常常在临床试验中测量伸腿和弯腿(Borsheim等人,“Effect of amino acid supplementation onmuscle mass,strength and physical function in elderly,”Clin Nutr 2008；27:189-195；Paddon-Jones等人,“Essential amino acid and carbohydrate supplementation ameliorates muscle protein loss in humansduring 28days bed rest,”J Clin Endocrinol Metab 2004；89:4351-4358)。

如本文所用，“功能性能”是指模拟每日活动的功能测试。“功能性能”通过任何适合的公认测试来测量，包括计时台阶测试(从4英寸工作台尽可能快地上台阶和下台阶5次)、计时地板传送测试(在地板上从立位到仰卧位和此后尽可能快地再次到立位，重复一次)和身体性能组测试(静态平衡测试、坐椅测试和行走测试)(Borsheim等人,“Effect of amino acid supplementation on muscle mass,strength andphysical function in elderly,”Clin Nutr 2008；27:189-195)。

如本文所用，“体重指数”或“BMI”或“Quetelet指数”是受试者的重量(公斤)除以受试者高度的平方(米)(kg/m²)。

对于成年人，常常使用BMI来评估个体的体重脱离其高度的人正常或所需的体重多少。重量过量或不足可能部分地由身体脂肪来解释，不过例如肌肉发达等其它因素也显著地影响BMI。世界卫生组织将BMI小于18.5视为重量不足，且可以指示营养不良、饮食性病症或其它健康问题，而BMI大于25被认为是过重且超过30被认为是肥胖(世界卫生组织BMI分类)。如本文所用，“合乎需要的体重指数”是约18.5至约25的体重指数。因此，如果受试者具有低于约18.5的BMI，那么受试者的BMI增加是受试者BMI的需要性增加。如果代之以受试者具有超过约25的BMI，那么受试者的BMI减少是受试者BMI的需要性增加。

如本文所用，“年老”哺乳动物是经历体重指数和肌肉质量中至少一者与年龄相关的变化(例如，年龄相关的肌肉减少症)的哺乳动物。在一些实施方案中，“年老”人为至少50岁、至少60岁、至少65岁、至少70岁、至少75岁、至少80岁、至少85岁、至少90岁、至少95岁或至少100岁。在一些实施方案中，且年老动物、哺乳动物或人是经历肌肉质量从峰值寿命肌肉质量损失至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％或至少60％的人。因为已知体重指数和肌肉质量中至少一者的年龄相关的改变与年龄增长相关，所以在一些实施方案中，年老哺乳动物简单地基于年龄来鉴别或界定。因此，在一些实施方案中，“年老”人简单地通过以下事实来鉴别或界定：其年龄是至少60岁、至少65岁、至少70岁、至少75岁、至少80岁、至少85岁、至少90岁、至少95岁或至少100岁，且不用测量体重指数和肌肉质量中的至少一者。

如本文所用，“肌肉减少症”是指骨骼肌肉质量(典型地在25岁后每年损失0.5-1％)、品质和肌肉强度与年老相关联的退化损失。肌肉减少症是虚弱综合症的组分。老年肌肉减少症欧洲工作组(TheEuropean Working Group on Sarcopenia in Older People，EWGSOP)已经为年龄相关的肌肉减少症开发了切实可行的临床定义和一致诊断标准。对于诊断肌肉减少症，工作组已经建议使用低肌肉质量与低肌肉功能(强度或性能)的存在。肌肉减少症特征首先在于肌肉萎缩(肌肉尺寸下降)以及肌肉组织“质量”下降，这些由如脂肪替换肌纤维、纤维化增加、肌肉代谢改变、氧化应激和神经肌肉接头退化等因素引起。组合起来，这些改变导致肌肉功能逐渐损失且最终虚弱。虚弱是常见的老人综合症，其体现了老年人中高风险的健康与功能极大下降。虚弱原因可以包括肌肉减少症、骨质疏松症和肌无力。肌无力又名肌肉疲劳，(或“没有力气”)是指不能用骨骼肌来发力。虚弱常常跟随着肌肉萎缩和活动下降，例如在因疾病而长期卧床后。肌无力还会因肌肉减少症而逐渐发作。

如本文所用，如果患者由于医学疾病而经历体重指数和肌肉质量中至少一者的变化(例如，肌肉减少症)，那么该患者是“病情危急的”。在一些实施方案中，患者卧病时间是其醒着时间的至少25％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或100％。在一些实施方案中，患者是无意识的。在一些实施方案中，如本段落中所描述，患者已经卧床至少1天、2天、3天、4天、5天、10天、2周、3周、4周、5周、10周或更长时间。

如本文所用，“蛋白质-能量营养不良症”是指存在不充分的蛋白质摄入的营养不良形式。类型包括恶性营养不良病(Kwashiorkor)(显著的蛋白质营养不良)、消瘦症(Marasmus)(热量和蛋白质营养都不足)和消瘦性恶性营养不良病(存在显著蛋白质缺乏和显著热量不足征象，有时称为最严重的营养不良形式)。

如本文所用，最广泛地，“运动”是增强或维持身体健全和整体健康和良好的任何身体活动。运动是为了包括加强肌肉和心血管系统、练习运动技能、减轻或维持重量以及为了享乐在内的种种理由而进行。

如本文所用，“足够量”是本文公开的蛋白质或多肽足够引起所期望的作用的量。举例来说，如果希望增加肌肉质量，那么足够的量是在一段时间内在受试者中引起肌肉质量增加的量。足够量的蛋白质或多肽片段可以直接提供，即，通过向受试者施用蛋白质或多肽片段，或其可以作为包含蛋白质或多肽片段的组合物的一部分提供。在本文中的其它地方论述施用模式。

如本文所用，术语“哺乳动物”是指分类学类别哺乳纲的任何成员，包括胎盘哺乳动物和有袋类哺乳动物。因此，“哺乳动物”包括人、灵长类动物、家畜和实验室哺乳动物。示例性哺乳动物包括啮齿动物、小鼠、大鼠、兔、狗、猫、绵羊、马、山羊、美洲驼、牛、灵长类动物、猪和任何其它哺乳动物。在一些实施方案中，哺乳动物是转基因的哺乳动物、基因工程化的哺乳动物和克隆哺乳动物中的至少一种。

如本文所用，“饱腹”是在进食时变饱的动作或减少的吃的欲望。此会停止或减少进食。

如本文所用，“饱腹感”是餐后保持饱的行为，其呈现为餐后不进食的时期。

术语“改善”是指在治疗疾病病况中任何治疗有益的结果，例如包括预防、减轻其严重程度或进展、缓解或治愈其。

如本文所用，术语“体外”是指在人造环境中，例如在试管或反应容器中，在细胞培养物中，在皮式培养皿中等等，而非在生物体(例如动物、植物或微生物)内发生的事件。如本文所用，术语“离体”是指在生物体外部的环境中的组织中或组织上进行的实验。

术语“原位”是指在与活生物体分开生长，例如在组织培养物中生长的活细胞中发生的过程。

术语“体内”是指在活生物体内发生的过程。

术语“足够量”意指足够产生所期望的作用的量，例如足够调节细胞中蛋白质聚集的量。

术语“治疗有效量”是有效改善疾病症状的量。治疗有效量可以是“预防有效量”，因为预防可以视为疗法。

如本文所用，“氨基酸可能性”(缩写为“AALike”)是给定氨基酸在参考了参考蛋白下产生的多重序列比对(MSA)的给定位置出现的频率的量度。位置相对于参考蛋白的氨基酸序列界定。参考蛋白可以是任何蛋白质，例如参考分泌蛋白质。产生MSA后，计算每一氨基酸在MSA中蛋白质序列每一位置出现的频率以给出每个位置的氨基酸可能性。因此，对于参考蛋白的每个氨基酸位置，可以计算多达20个不同氨基酸可能性值。

对于给定查询蛋白质序列，使用同源蛋白质产生MSA。同源蛋白质可以使用本领域中已知的若干方法中的任一者鉴别。举例来说，同源蛋白质可以通过查询与非冗余蛋白质的NCBI文库进行局部序列比对来鉴别。初始局部比对可以使用来自NCBI工具包v.2.2.26+的blastp程序(Altschul S.F.,Gish W.,Miller W.,Myers E.W.,和LipmanD.J.“Basic Local Alignment Search Tool”.J.Mol.Biol.(1990)215:403-410)进行，其中参数选自：

e值截止为1，空位开放罚分为-11，空位延伸罚分为-1，以及BLOSUM62评分矩阵；

e值截止为1，空位开放罚分为-15，空位延伸罚分为-2，以及BLOSUM45评分矩阵；

e值截止为1，空位开放罚分为-10，空位延伸罚分为-1，以及BLOSUM80评分矩阵；

e值截止为1，空位开放罚分为-10，空位延伸罚分为-1，以及PAM70评分矩阵；以及

e值截止为1，空位开放罚分为-9，空位延伸罚分为-1，以及PAM30评分矩阵。

使用如Discovery Studio v3.1(Accelrys Software Inc.,DiscoveryStudio Modeling Environment,3.1版,San Diego:Accelrys Software Inc.,2012)中所执行的Align123算法，进行所得文库的多重序列比对。使用DSC算法指定残基二级结构(King R.D.,Sternberg M.J.E.“Identification and application of the concepts important for accurate andreliable protein secondary structure prediction”.Prot.Sci.(1996)5:2298-2310)，权重为1。使用Smith和Waterman算法，利用-10的空位开放罚分和-0.1的空位延伸罚分以及BLOSUM30评分矩阵进行成对比对。高阶比对使用BLOSUM评分矩阵设置、-10的空位开放罚分、-0.5的空位延伸罚分和40％的比对延迟一致性截止值(延迟分歧参数)。

鉴别局部比对期望值少于1的所有蛋白质(75至1000个独特命中)且对齐以产生多重序列比对(MSA)。用于每一MSA的蛋白质呈现于附录C中。

如本文所用，“氨基酸类型可能性”(缩写为“AATLike”)是给定类型氨基酸在参考了参考蛋白下产生的多重序列比对(MSA)的给定位置出现的频率的量度。氨基酸类型选自支链氨基酸(BCAA)(Leu、Ile和Val)、疏水性氨基酸(Ala、Met、Ile、Leu和Val)、带正电氨基酸(Arg、Lys、His)、带负电氨基酸(Asp、Glu)、带电氨基酸(Arg、Lys、His、Asp、Glu)和芳香族氨基酸(Phe、Tyr、Trp)。位置相对于参考蛋白的氨基酸序列界定。参考蛋白可以是任何蛋白质，例如参考分泌蛋白质。产生MSA后，计算每种类型氨基酸在MSA中蛋白质序列每一位置出现的频率以给出每个位置的氨基酸类型可能性。

如本文所用，“位置熵”(缩写为“S_pos”)是MSA中某一位置的氨基酸分布的扩展的量度。MSA用以计算使用完整氨基酸字母表的给定参考氨基酸序列中每一氨基酸位置的熵，AA＝[A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V]：

S＝-Σ_j∈AAp_jlnp_j

其中p_j是该位置看到氨基酸j的机率。高度可变的位置将具有大的熵(一个位置最大的熵对应于同等可能的每一氨基酸，产生2.996的熵)且高度保守的位置将具有接近于0的熵。

如本文所用，“氨基酸类型位置熵”(缩写为“S_AATpos”)是位置熵的变化，其中代替使用完整氨基酸字母表计算位置熵，基于生理化学特性如下将氨基酸分组：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]和未分类[G、P、C]。使用此生理化学字母表，p_j现对应于在位置j看到每一氨基酸类型(疏水性、芳香族、极性、带电或未分类)的机率。这些氨基酸类型(AAType)机率是看到该类型的每一氨基酸的机率之和。位置熵的等式保持相同，不过理论最大值现在是1.609。

A.工程化蛋白质

在一些实施方案中，蛋白质包含天然存在于可食用产品中的蛋白质或蛋白质片段的衍生物或突变蛋白或由其组成。此类蛋白质可以称为“工程化蛋白质”。在此类实施方案中，天然蛋白质或其片段是“参考”蛋白质或多肽且工程化蛋白质或其第一多肽序列包含相对于参考蛋白或多肽的氨基酸序列至少一种序列修饰。举例来说，在一些实施方案中，工程化蛋白质或其第一多肽序列与至少一种参考蛋白氨基酸序列具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％同一性。典型地，工程化蛋白质或其第一多肽序列中存在的支链氨基酸残基与总氨基酸残基、必需氨基酸残基与总氨基酸残基以及亮氨酸残基与总氨基酸残基中至少一者的比率大于参考蛋白或多肽序列中存在的支链氨基酸残基与总氨基酸残基、必需氨基酸残基与总氨基酸残基和亮氨酸残基与总氨基酸残基中至少一者的对应比率。

在一些方面，营养多肽在被哺乳动物受试者消耗后基本上可消化。优选地，营养多肽比至少一种参考多肽或参考多肽混合物或消耗受试者饮食中其它多肽的一部分容易消化。如本文所用，“基本上可消化”可以通过测量营养多肽在消耗后的半衰期来证明。举例来说，如果营养多肽在人受试者的胃肠道中具有少于60分钟或少于50、40、30、20、15、10、5、4、3、2分钟或1分钟的半衰期，那么其更容易消化。在某些实施方案中，营养多肽被提供于提供增强的消化的制剂中；举例来说，提供不含其它多肽或其它物质的营养多肽。在一些实施方案中，营养多肽含有一种或多种肽链内切酶的一个或多个识别位点。在一特定实施方案中，营养多肽含有分泌前导(或分泌的前导)序列，接着其从营养多肽裂解。如本文中所提供，营养多肽涵盖有或无信号肽和/或分泌前导序列的多肽。在一些实施方案中，营养多肽溶剂易于被一种或多种肽链端解酶裂解。

在一些方面，选择具有所需密度的一种或多种必需氨基酸(EAA)的营养多肽。必需氨基酸缺乏可以通过有效施用受试者饮食中缺乏或以不充足的量存在的一种或多种必需氨基酸来治疗或预防。举例来说，EAA密度约等于或大于全长参考营养多肽中存在的必需氨基酸的密度，例如，营养多肽中的EAA密度比参考营养多肽或农业来源的食品中存在的多肽大至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％、200％、300％、400％、500％或大于500％。

在一些方面，选择具有所需密度的芳香族氨基酸(“AAA”，包括苯丙氨酸、色氨酸、酪氨酸、组氨酸和甲状腺素)的营养多肽。AAA可用于例如神经病学发展和预防运动诱发的疲劳。举例来说，AAA密度约等于或大于全长参考营养多肽中存在的必需氨基酸的密度，例如营养多肽中的AAA密度比参考营养多肽或农业来源的食品中存在的多肽大至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％、200％、300％、400％、500％或大于500％。

在一些方面，选择具有所需密度的支链氨基酸(BCAA)的营养多肽。举例来说，BCAA密度，个别BCAA或总BCAA含量约等于或大于全长参考营养多肽中存在的支链氨基酸的密度，例如营养多肽中的BCAA密度比参考营养多肽或农业来源的食品中存在的多肽大至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％、200％、300％、400％、500％或大于500％。也可以选择营养多肽中的BCAA密度以与例如EAA密度等一种或多种属性组合。

在一些方面，选择具有所需密度的氨基酸精氨酸、谷氨酰胺和/或亮氨酸(RQL氨基酸)的营养多肽。举例来说，RQL氨基酸密度约等于或大于全长参考营养多肽中存在的必需氨基酸的密度，例如营养多肽中的RQL氨基酸密度比参考营养多肽或农业来源的食品中存在的多肽大至少约5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％、200％、300％、400％、500％或大于500％。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非苏氨酸(Thr)氨基酸残基的至少一个Thr氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非精氨酸(Arg)氨基酸残基的至少一个Arg氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非组氨酸(His)氨基酸残基的至少一个His氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非赖氨酸(Lys)氨基酸残基的至少一个Lys氨基酸残基取代。

在一些实施方案中，所述工程化蛋白质包含所述参考分泌蛋白质中非亮氨酸(Leu)氨基酸残基的至少一个Leu氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非异亮氨酸(Ile)氨基酸残基的至少一个Ile氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非缬氨酸(Val)氨基酸残基的至少一个Val氨基酸残基取代。

在另一方面，提供含有与天然存在的多肽或其变体同源的氨基酸序列的营养多肽，其经工程化以从单细胞生物体分泌并从其纯化。此类同源多肽可以与天然存在的多肽或其变体70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％类似，或可以与天然存在的多肽或其变具有70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或大于99％同一性。此类营养多肽可以是宿主细胞内源性的或外源性的，可以是在宿主细胞中天然分泌，或两者，且可以经工程化以进行分泌。

在一些实施方案中，本文中选择天然存在的蛋白质的片段且任选地分离。在一些实施方案中，片段包含至少25个氨基酸。在一些实施方案中，片段包含至少50个氨基酸。在一些实施方案中，片段由至少25个氨基酸组成。在一些实施方案中，片段由至少50个氨基酸组成。在一些实施方案中，提供分离的重组蛋白。在一些实施方案中，蛋白质包含第一多肽序列，且第一多肽序列包含天然存在的蛋白质的至少25或至少50个氨基酸的片段。在一些实施方案中，分离蛋白质。在一些实施方案中，蛋白质是重组的。在一些实施方案中，蛋白质包含第一多肽序列，该第一多肽序列包含天然存在的蛋白质的至少50个氨基酸的片段。在一些实施方案中，蛋白质是分离的重组蛋白质。在一些实施方案中，本文公开的分离的重组蛋白质以非分离和/或非重组形式提供。

在一些情况下，本文中，多肽、蛋白质或组合物内具体类型的氨基酸的部分是基于该类型氨基酸与所讨论的多肽、蛋白质或组合物中存在的氨基酸的总重量的重量比来定量。此值是通过将多肽、蛋白质或组合物中具体氨基酸的重量除以多肽、蛋白质或组合物中存在的所有氨基酸的重量来计算。

在其它情况下，使用多肽或蛋白质中存在的具体类型的氨基酸残基与所讨论的多肽或蛋白质中存在的氨基酸的总数的比率。此值是通过将多肽或蛋白质每一分子中存在的所讨论的氨基酸的数目除以多肽或蛋白质每一分子中存在的氨基酸残基的总数来计算。熟练技术人员了解这两种方法可互换且多肽或蛋白质中存在的一种类型氨基酸的重量比例可以转换成具体类型的氨基酸残基的比率，反之亦然。

在一些实施方案中，蛋白质包含10至5,000个氨基酸、20-2,000个氨基酸、20-1,000个氨基酸、20-500个氨基酸、20-250个氨基酸、20-200个氨基酸、20-150个氨基酸、20-100个氨基酸、20-40个氨基酸、30-50个氨基酸、40-60个氨基酸、50-70个氨基酸、60-80个氨基酸、70-90个氨基酸、80-100个氨基酸、至少10个氨基酸、至少11个氨基酸、至少12个氨基酸、至少13个氨基酸、至少14个氨基酸、至少15个氨基酸、至少16个氨基酸、至少17个氨基酸、至少18个氨基酸、至少19个氨基酸、至少20个氨基酸、至少21个氨基酸、至少22个氨基酸、至少23个氨基酸、至少24个氨基酸、至少25个氨基酸、至少30个氨基酸、至少35个氨基酸、至少40个氨基酸、至少45个氨基酸、至少50个氨基酸、至少55个氨基酸、至少60个氨基酸、至少65个氨基酸、至少70个氨基酸、至少75个氨基酸、至少80个氨基酸、至少85个氨基酸、至少90个氨基酸、至少95个氨基酸、至少100个氨基酸、至少105个氨基酸、至少110个氨基酸、至少115个氨基酸、至少120个氨基酸、至少125个氨基酸、至少130个氨基酸、至少135个氨基酸、至少140个氨基酸、至少145个氨基酸、至少150个氨基酸、至少155个氨基酸、至少160个氨基酸、至少165个氨基酸、至少170个氨基酸、至少175个氨基酸、至少180个氨基酸、至少185个氨基酸、至少190个氨基酸、至少195个氨基酸、至少200个氨基酸、至少205个氨基酸、至少210个氨基酸、至少215个氨基酸、至少220个氨基酸、至少225个氨基酸、至少230个氨基酸、至少235个氨基酸、至少240个氨基酸、至少245个氨基酸或至少250个氨基酸。在一些实施方案中，蛋白质由20至5,000个氨基酸、20-2,000个氨基酸、20-1,000个氨基酸、20-500个氨基酸、20-250个氨基酸、20-200个氨基酸、20-150个氨基酸、20-100个氨基酸、20-40个氨基酸、30-50个氨基酸、40-60个氨基酸、50-70个氨基酸、60-80个氨基酸、70-90个氨基酸、80-100个氨基酸、至少25个氨基酸、至少30个氨基酸、至少35个氨基酸、至少40个氨基酸、至少2455个氨基酸、至少50个氨基酸、至少55个氨基酸、至少60个氨基酸、至少65个氨基酸、至少70个氨基酸、至少75个氨基酸、至少80个氨基酸、至少85个氨基酸、至少90个氨基酸、至少95个氨基酸、至少100个氨基酸、至少105个氨基酸、至少110个氨基酸、至少115个氨基酸、至少120个氨基酸、至少125个氨基酸、至少130个氨基酸、至少135个氨基酸、至少140个氨基酸、至少145个氨基酸、至少150个氨基酸、至少155个氨基酸、至少160个氨基酸、至少165个氨基酸、至少170个氨基酸、至少175个氨基酸、至少180个氨基酸、至少185个氨基酸、至少190个氨基酸、至少195个氨基酸、至少200个氨基酸、至少205个氨基酸、至少210个氨基酸、至少215个氨基酸、至少220个氨基酸、至少225个氨基酸、至少230个氨基酸、至少235个氨基酸、至少240个氨基酸、至少245个氨基酸或至少250个氨基酸组成。在一些方面，蛋白质或其片段包括至少两个结构域：第一结构域和第二结构域。两个结构域之一可以包括标签结构域，该标签结构域在必要时可以去除。每个结构域可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或大于25个氨基酸长。举例来说，第一结构域可以是18个氨基酸长的相关多肽且第二结构域可以是7个氨基酸长的标签结构域。再举一例，第一结构域可以是17个氨基酸长的相关多肽且第二结构域可以是8个氨基酸长的标签结构域。

在一些实施方案中，本文中选择天然存在的蛋白质的片段且任选地分离。在一些实施方案中，片段包含至少25个氨基酸。在一些实施方案中，片段包含至少50个氨基酸。在一些实施方案中，片段由至少25个氨基酸组成。在一些实施方案中，片段由至少50个氨基酸组成。在一些实施方案中，提供分离的重组蛋白质。在一些实施方案中，蛋白质包含第一多肽序列，且第一多肽序列包含天然存在的蛋白质的至少25或至少50个氨基酸的片段。在一些实施方案中，分离蛋白质。在一些实施方案中，蛋白质是重组的。在一些实施方案中，蛋白质包含第一多肽序列，所述第一多肽序列包含天然存在的蛋白质的至少50个氨基酸的片段。在一些实施方案中，蛋白质是分离的重组蛋白质。在一些实施方案中，本文公开的分离的重组蛋白质以非分离和/或非重组形式提供。

本公开提供了包含与参考分泌蛋白质的氨基酸序列相比，包含改变的氨基酸序列的至少20个氨基酸的序列的工程化蛋白质。在一些实施方案中，工程化蛋白质包含至少25个氨基酸、至少30个氨基酸、至少35个氨基酸、至少40个氨基酸、至少45个氨基酸、至少50个氨基酸、至少60个氨基酸、至少70个氨基酸、至少80个氨基酸、至少85个氨基酸、至少90个氨基酸、至少95个氨基酸或至少100个氨基酸的序列，其与参考分泌蛋白质的氨基酸序列相比包含改变的氨基酸序列。在一些实施方案中，工程化蛋白质包含至少20至30个氨基酸、至少20至40个氨基酸、至少25至50个氨基酸或至少50至100个氨基酸的序列，其与参考分泌蛋白质的氨基酸序列相比包含改变的氨基酸序列。如本文所用，“参考分泌蛋白质”是在相容的微生物中表达时从相容的微生物分泌的蛋白质。“相容的微生物”是包含合成和加工蛋白质以供分泌的必要机构的微生物。参考分泌蛋白质可以是天然存在的蛋白质(即，天然存在于生物体中的蛋白质)或非天然存在的蛋白质(即，未天然存在于生物体中的蛋白质)。天然存在的具体参考分泌蛋白质的相容的微生物将需要包括其中天然存在参考分泌蛋白质的微生物。

参考分泌蛋白质与工程化蛋白质的序列之间的改变可以通过在参考分泌蛋白质与工程化蛋白质之间进行序列比对且鉴别不同的氨基酸位置来界定。在一些实施方案中，在工程化蛋白质中包含改变的氨基酸序列的至少20个氨基酸的序列与参考分泌蛋白质的同源序列至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的同源。在一些实施方案中，工程化蛋白质的氨基酸序列与参考分泌蛋白质至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％同源。

在一些实施方案中，工程化蛋白质包含的工程化蛋白质中存在的必需氨基酸与总氨基酸的比率高于参考分泌蛋白质中存在的必需氨基酸与总氨基酸的比率。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非必需氨基酸残基的至少一个必需氨基酸残基取代。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非支链氨基酸残基的至少一个支链氨基酸残基取代。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非精氨酸(Arg)或非谷氨酰胺(Glu)氨基酸残基的至少一个精氨酸(Arg)或谷氨酰胺(Glu)氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非亮氨酸(Leu)氨基酸残基的至少一个Leu氨基酸残基取代。在一些实施方案中，Leu氨基酸残基取代在Leu频率评分大于0的氨基酸位置上。在一些实施方案中，Leu氨基酸残基取代在Leu频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Leu氨基酸残基取代在支链氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，Leu氨基酸残基取代在支链氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Leu氨基酸残基取代在疏水性氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，Leu氨基酸残基取代在疏水性氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Leu氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。在一些实施方案中，参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

在工程化蛋白质的一些实施方案中，参考分泌蛋白质中至少两个非亮氨酸(Leu)氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代，其中参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5，且其中每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质在位置熵为至少1.5的位置包含参考分泌蛋白质中非Leu氨基酸残基的至少一个Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非Leu氨基酸残基的至少两个Leu氨基酸残基取代，其中独立考虑的每一Leu氨基酸残基取代对参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质在由Leu取代产生的总折叠自由能小于或等于0.5的位置包含参考分泌蛋白质中非Leu氨基酸残基的至少一个Leu氨基酸残基取代。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非Leu氨基酸残基的至少两个Leu氨基酸残基取代，其中独立考虑的每一Leu氨基酸残基取代对参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非缬氨酸(Val)氨基酸残基的至少一个Val氨基酸残基取代。在一些实施方案中，Val氨基酸残基取代在Val频率评分大于0的氨基酸位置上。在一些实施方案中，Val氨基酸残基取代在Val频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Val氨基酸残基取代在支链氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，Val氨基酸残基取代在支链氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Val氨基酸残基取代在疏水性氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，Val氨基酸残基取代在疏水性氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Val氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。在一些实施方案中，参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

在工程化蛋白质的一些实施方案中，参考分泌蛋白质中至少两个非缬氨酸(Val)氨基酸残基被工程化蛋白质中的Val氨基酸残基取代，其中参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5，且其中每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质在位置熵为至少1.5的位置包含参考分泌蛋白质中非Val氨基酸残基的至少一个Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非Val氨基酸残基的至少两个Val氨基酸残基取代，其中独立考虑的每一Val氨基酸残基取代对参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质在由Val取代产生的总折叠自由能小于或等于0.5的位置包含参考分泌蛋白质中非Val氨基酸残基的至少一个Val氨基酸残基取代。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非Val氨基酸残基的至少两个Val氨基酸残基取代，其中独立考虑的每一Val氨基酸残基取代对参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非异亮氨酸(Ile)氨基酸残基的至少一个Ile氨基酸残基取代。在一些实施方案中，Ile氨基酸残基取代在Ile频率评分大于0的氨基酸位置上。在一些实施方案中，Ile氨基酸残基取代在Ile频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Ile氨基酸残基取代在支链氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，Ile氨基酸残基取代在支链氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Ile氨基酸残基取代在疏水性氨基酸频率评分大于0的氨基酸位置上。在一些实施方案中，Ile氨基酸残基取代在疏水性氨基酸频率评分为至少0.1的氨基酸位置上。在一些实施方案中，Ile氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。在一些实施方案中，参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

在工程化蛋白质的一些实施方案中，参考分泌蛋白质中至少两个非异亮氨酸(Ile)氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代，其中参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5，且其中每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质在位置熵为至少1.5的位置包含参考分泌蛋白质中非Ile氨基酸残基的至少一个Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于0.5。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非Ile氨基酸残基的至少两个Ile氨基酸残基取代，其中独立考虑的每一Ile氨基酸残基取代对参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

在一些实施方案中，工程化蛋白质在由Ile取代产生的总折叠自由能小于或等于0.5的位置包含参考分泌蛋白质中非Ile氨基酸残基的至少一个Ile氨基酸残基取代。在一些实施方案中，工程化蛋白质包含参考分泌蛋白质中非Ile氨基酸残基的至少两个Ile氨基酸残基取代，其中独立考虑的每一Ile氨基酸残基取代对参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异的影响小于或等于0.5且每个氨基酸取代的总折叠自由能的主要能量组分不同。

如本文所用，例如“Leu频率评分”等“氨基酸频率评分”是具体的氨基酸或具体类型的氨基酸在同源蛋白质的天然存在的序列中同源位置出现的频率的量度。因此，对于参考分泌蛋白质，如果使用多重序列比对(MSA)鉴别一组同源序列且比对所述序列，那么可以确定MSA中所有序列中每一氨基酸在每一位置出现的频率并将频率评分分配给每一位置的每一氨基酸。或者，氨基酸可以通过类型分组，例如支链氨基酸、必需氨基酸或疏水性氨基酸，并可以基于在每一位置每一类型的任何成员的出现来计算频率评分(本文中称为“氨基酸类型频率评分”)。氨基酸频率评分和氨基酸类型频率评分可以用于鉴别参考分泌蛋白质序列中能够容忍被不同于在参考分泌蛋白质序列中该位置出现的氨基酸的氨基酸取代的氨基酸位置。举例来说，参考序列中具有除Leu以外的氨基酸但具有相对较高Leu频率评分的位置可以被Leu取代，以制备具有增加的Leu含量的工程化蛋白质。

在一些实施方案中，工程化蛋白质在N氨基酸频率评分大于0的位置包含至少一个氨基酸N取代(其中“N”代表任何氨基酸)。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.01的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.02的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.03的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.04的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.05的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.06的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.07的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.08的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.09的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.10的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.11的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.12的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.13的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.14的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.15的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.16的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.17的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.18的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.19的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.20的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.25的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.30的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.35的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.40的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.45的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在N氨基酸频率评分为至少0.50的位置包含至少一个氨基酸N取代。在一些实施方案中，氨基酸N选自Leu、Ile和Val。在一些实施方案中，氨基酸N选自Arg和Glu。在一些实施方案中，氨基酸N选自必需氨基酸。在一些实施方案中，氨基酸N选自疏水性氨基酸。

在一些实施方案中，工程化蛋白质在支链氨基酸频率评分大于0的位置包含至少一个氨基酸N取代(其中“N”代表任何氨基酸)。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.01的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.02的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.03的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.04的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.05的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.06的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.07的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.08的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.09的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.10的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.11的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.12的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.13的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.14的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.15的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.16的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.17的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.18的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.19的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.20的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.25的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.30的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.35的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.40的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.45的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在支链氨基酸频率评分为至少0.50的位置包含至少一个氨基酸N取代。在一些实施方案中，氨基酸N选自Leu、Ile和Val。在一些实施方案中，氨基酸N选自必需氨基酸。在一些实施方案中，氨基酸N选自疏水性氨基酸。

在一些实施方案中，工程化蛋白质包含在必需氨基酸频率评分大于0的位置至少一个氨基酸N取代(其中“N”代表任何必需氨基酸)。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.01的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.02的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.03的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.04的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.05的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.06的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.07的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.08的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.09的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.10的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.11的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.12的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.13的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.14的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.15的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.16的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.17的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.18的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.19的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.20的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.25的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.30的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.35的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.40的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.45的位置包含至少一个氨基酸N取代。在一些实施方案中，工程化蛋白质在必需氨基酸频率评分为至少0.50的位置包含至少一个氨基酸N取代。在一些实施方案中，氨基酸N选自Leu、Ile和Val。在一些实施方案中，氨基酸N选自必需氨基酸。在一些实施方案中，氨基酸N选自疏水性氨基酸。

在一些实施方案中，选择对参考分泌蛋白质进行的氨基酸取代以便对于至少一个取代，参考分泌蛋白质(无取代)与工程化蛋白质之间的总折叠自由能差异小于或等于-0.5、-0.4、-0.3、-.0.2、-0.1、0、0.1、0.2、0.3、0.4或0.5。在一些实施方案中，选择对参考分泌蛋白质进行的氨基酸取代以便使参考分泌蛋白质与工程化蛋白质之间的总折叠自由能差异小于或等于-0.5、-0.4、-0.3、-.0.2、-0.1、0、0.1、0.2、0.3、0.4或0.5。

在一些实施方案中，选择对参考分泌蛋白质进行的氨基酸取代以便对于至少一个取代，位置熵是至少1.5、至少1.6、至少1.7、至少1.8、至少1.9、至少2.0、至少2.1、至少2.2、至少2.3、至少2.4、至少2.5、至少2.6、至少2.7、至少2.8、至少2.9或至少3.0。

在一些实施方案中，参考分泌蛋白质中5至50个非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10至50个非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25至50个非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5至50个非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10至50个非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25至50个非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5至50个非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10至50个非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25至50个非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5至50个非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10至50个非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25至50个非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5至50个非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10至50个非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25至50个非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5％至50％的非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10％至50％的非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25％至50％的非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50％的非必需氨基酸残基被工程化蛋白质中的必需氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5％至50％的非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10％至50％的非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25％至50％的非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50％的非支链氨基酸残基被工程化蛋白质中的支链氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5％至50％的非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10％至50％的非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25％至50％的非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50％的非Leu氨基酸残基被工程化蛋白质中的Leu氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5％至50％的非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10％至50％的非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25％至50％的非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50％的非Val氨基酸残基被工程化蛋白质中的Val氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5％至50％的非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10％至50％的非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25％至50％的非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50％的非Ile氨基酸残基被工程化蛋白质中的Ile氨基酸残基取代。

在一些实施方案中，参考分泌蛋白质中5％至50％的非Arg氨基酸残基被工程化蛋白质中的Arg氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中10％至50％的非Arg氨基酸残基被工程化蛋白质中的Arg氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中25％至50％的非Arg氨基酸残基被工程化蛋白质中的Arg氨基酸残基取代。在一些实施方案中，参考分泌蛋白质中至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50％的非Arg氨基酸残基被工程化蛋白质中的Arg氨基酸残基取代。

在一些实施方案中，工程化蛋白质包含至少一个氨基酸序列，所述氨基酸序列包含至少5、至少10、至少15、至少20、至少25或至少50个氨基酸残基的插入。在一些实施方案中，至少一个氨基酸插入包含至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或100％必需氨基酸。在一些实施方案中，至少一个氨基酸插入包含至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或100％支链氨基酸。在一些实施方案中，至少一个氨基酸插入包含至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或100％疏水性氨基酸。在一些实施方案中，至少一个氨基酸插入包含至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或100％Leu。在一些实施方案中，至少一个氨基酸插入包含至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或100％Ile。在一些实施方案中，至少一个氨基酸插入包含至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或100％Val。

在一些实施方案中，至少一个氨基酸序列插入位于工程化蛋白质的末端。

苯丙酮酸尿症(PKU)是一种常染色体隐性代谢遗传病症，特征为肝酶苯丙氨酸羟化酶(PAH)的基因突变，使得其没有功能。此酶是苯丙氨酸代谢成酪氨酸所必需的。当PAH活性减少时，苯丙氨酸积聚并转变为苯丙酮酸(又名苯基酮)，其在尿液中可检测到。未经治疗的儿童出生时是正常的，但未能获得早期发育标志，发展小头畸形且显示大脑皮层功能逐渐损伤。机能亢进、EEG异常和癫痫以及严重的学习障碍是此后一生中主要的临床问题。还观测到皮肤、毛发、汗液以及尿液的特殊气味(归因于苯乙酸盐累积)；以及色素沉着不足和湿疹的倾向。所有PKU患者必须遵循Phe低的专门饮食。因此，意欲PKU患者使用的工程化蛋白质应包含少量或无Phe残基。此可以通过选择具有极少或无Phe残基的参考分泌蛋白质来进行。或者，参考分泌蛋白质可以含有一个或多个Phe残基且工程化蛋白质中此类Phe残基可以被非Phe残基替换。在一些实施方案中，参考分泌蛋白质序列中存在的Phe残基被例如Tyr等非Phe残基替换。在一些实施方案中，参考分泌蛋白质和/或工程化蛋白质的Phe残基与总氨基酸残基的比率等于或低于5％、4％、3％、2％或1％。在一些实施方案中，参考分泌蛋白质和/或工程化蛋白质包含10个或更少Phe残基、9个或更少Phe残基、8个或更少Phe残基、7个或更少Phe残基、6个或更少Phe残基、5个或更少Phe残基、4个或更少Phe残基、3个或更少Phe残基、2个或更少Phe残基、1个Phe残基或无Phe残基。

精氨酸是条件非必需氨基酸，意指其大部分时间都可以由人体制造，且不需要直接通过饮食获得。营养不良的个体、老年人或具有某些身体病状(例如，败血症)的人可能无法产生足够量的精氨酸，因此需要增加其含有精氨酸的食物的摄入。据信精氨酸具有有益的健康特性，包括减少损伤的恢复时间(特别是骨骼)且降低血压、特别是高风险怀孕(先兆子痫)期间高血压。另外，研究显示饮食补充L-精氨酸有益于增强具有天然存在的胎儿宫内生长迟缓的猪的繁殖性能、增强乳汁喂养的小猪的蛋白质沉积和出生后生长、使链脲佐菌素诱发的糖尿病大鼠中的血浆葡萄糖水平标准化、减少肥胖Zucker糖尿病脂肪(ZDF)大鼠中的脂肪质量，并提高糖尿病大鼠中血管功能。在一些实施方案中，本文公开的工程化蛋白质包含等于或大于3％、等于或大于4％、等于或大于5％、等于或大于6％、等于或大于7％、等于或大于8％、等于或大于9％、等于或大于10％、等于或大于11％或等于或大于12％的工程化蛋白质中精氨酸残基与总氨基酸残基的比率。

可消化性是与营养益处和工程化蛋白质效用有关的参数。在一些实施方案中，筛选本文公开的工程化蛋白质以评估其可消化性。蛋白质的可消化性可以通过本领域中已知的任何适合方法评估。在一些实施方案中，由Moreno等人描述的使用生理学上相关的二相系统的体外胃和十二指肠消化测定用于达成此目的。Moreno等人,“Stability ofthe major allergen Brazil nut 2S albumin(Ber e 1)to physiologicallyrelevant in vitro gastrointestinal digestion.”FEBS Journal,341-352(2005)。简单地说，将实验蛋白质连续暴露于人工胃液(SGF)120分钟，接着转移至模拟的十二指肠流体(SDF)以再消化120分钟。通过十二烷基硫酸钠聚丙烯酰胺凝胶电泳(SDS-PAGE)，针对消化情况，分析在消化的不同阶段(例如，2、5、15、30、60和120分钟)的蛋白质样品。将每一样品(20μL)添加至10μL超纯水和10μL 4×NuPAGE LDS样品缓冲液中并在95℃下加热10分钟。将样品负载(10μL)在15泳道12％聚丙烯酰胺NuPAGE Novex Bis-Tris凝胶上并在200V下跑胶35min，接着使用SimplyBlue Safe Stain染色。蛋白质随着时间推移消失指示测定中蛋白质消化的速率。此分析可以用于评估相对可消化性或评估绝对可消化性。在一些实施方案中，本文公开的工程化蛋白质的可消化性高于乳清蛋白(即，其更快地消化至测定的检测极限以下)。在一些实施方案中，至2分钟、5分钟、15分钟、30分钟、60分钟或120分钟，在测定中工程化蛋白质不可检测。

在一些实施方案中，工程化蛋白质的可消化性通过鉴别和定量蛋白质氨基酸序列中的消化蛋白酶识别位点来评估。在一些实施方案中，工程化蛋白质包含选自胃蛋白酶识别位点、胰蛋白酶识别位点和胰凝乳蛋白酶识别位点的至少一个蛋白酶识别位点。在一些实施方案中，对参考分泌蛋白质氨基酸序列进行至少一个氨基酸突变以添加至少一个蛋白酶识别位点至工程化蛋白质。

如本文所用，“胃蛋白酶识别位点”是多肽序列中实验上证明是被胃蛋白酶裂解的任何位点。在一些实施方案中，其是选自Phe、Trp、Tyr、Leu、Ala、Glu和Gln的氨基酸残基后(即，下游)的肽键，条件是随后残基不是选自Ala、Gly和Val的氨基酸残基。

如本文所用，“胰蛋白酶识别位点”是多肽序列中实验上证明是被胰蛋白酶裂解的任何位点。在一些实施方案中，其是选自Lys或Arg的氨基酸残基后的肽键，条件是随后残基不是脯氨酸。

如本文所用，“胰凝乳蛋白酶识别位点”是多肽序列中实验上证明是被胰凝乳蛋白酶裂解的任何位点。在一些实施方案中，其是选自Phe、Trp、Tyr和Leu的氨基酸残基后的肽键。

与缺乏二硫键下相比，蛋白质中二硫键键合的半胱氨酸残基倾向于降低蛋白质的消化率。因此，具有更少二硫键的蛋白质的可消化性倾向于高于具有更大数目的二硫键的可比较的蛋白质。因此，在一些实施方案中，筛选本文公开的工程化蛋白质以鉴别所存在的半胱氨酸残基数目并允许选择包含相对低数目的半胱氨酸残基的工程化蛋白质。在一些实施方案中，对参考分泌蛋白质氨基酸序列进行至少一个氨基酸替换以去除工程化蛋白质中的至少一个蛋白酶识别位点。在一些实施方案中，工程化蛋白质的Cys残基与总氨基酸残基的比率等于或低于5％、4％、3％、2％或1％。在一些实施方案中，工程化蛋白质包含10个或更少Cys残基、9个或更少Cys残基、8个或更少Cys残基、7个或更少Cys残基、6个或更少Cys残基、5个或更少Cys残基、4个或更少Cys残基、3个或更少Cys残基、2个或更少Cys残基、1个Cys残基或无Cys残基。

在一些实施方案中，工程化蛋白质是可溶的。溶解性可以通过本领域中已知的任何方法测量。在一些实施方案中，溶解性通过离心机浓缩，接着蛋白质浓度测定来检验。根据使用两种方法Coomassie Plus(Bradford)蛋白质测定(Thermo Scientific)和二辛可宁酸(BCA)蛋白质测定(Sigma-Aldrich)的方案，测试20mM HEPES pH 7.5中蛋白质的样品的蛋白质浓度。基于这些测量，将10mg蛋白质添加至Amicon Ultra 3kDa离心滤器(Millipore)。通过在10,000Xg下离心30分钟来浓缩样品。如上使用两种方法Bradford和BCA检查最终的现浓缩的样品的沉淀蛋白质并接着测试蛋白质浓度。

在一些实施方案中，工程化蛋白质具有在生理pH值下至少5g/L、10g/L、20g/L、30g/L、40g/L、50g/L或100g/L的最终溶解度极限。在一些实施方案中，在生理pH值下工程化蛋白质大于50％、大于60％、大于70％、大于80％、大于90％、大于95％、大于96％、大于97％、大于98％、大于99％或大于99.5％可溶，其中在浓度大于5g/L，或10g/L，或20g/L，或30g/L，或40g/L，或50g/L，或100g/L下没有观测到沉淀蛋白质。在一些实施方案中，工程化蛋白质的溶解性高于在检验乳清(12.5g/L；Pelegrine等人,Lebensm.-Wiss.U.-Technol.38(2005)77-80)和大豆(10g/L；Lee等人,JAOCS 80(1)(2003)85-90)溶解度极限的研究中典型地报导的溶解性。

在一些实施方案中，工程化蛋白质显示增强的稳定性。如本文所用，“稳定的”蛋白质是抵抗住改变相关蛋白质的生物物理(例如，溶解性)、生物(例如，可消化性)或组成(例如亮氨酸氨基酸的比例)特性的变化(例如，解折叠、氧化、聚集、水解等)的蛋白质。

可以使用本领域中已知的各种测定测量蛋白质稳定性且本文公开的工程化蛋白质可以具有超过阈值的稳定性。在一些实施方案中，选择热稳定性可与乳清蛋白相当或比其更好的蛋白质。在一些实施方案中，工程化蛋白质样品的稳定性通过在暴露于极端温度后使用尺寸排阻色谱法(SEC)监测聚集物形成来确定。待测试的蛋白质的样品以水中10g/L蛋白质制备，并彻底混合。蛋白质溶液置于90℃下加热块中且在0、1、5、10、30和60分钟后取样品进行SEC分析。

举例来说，SEC分析可以在Superdex 755/150GL柱(GEHealthcare)上使用Agilent 1100HPLC，利用20mM Na₂PO₄和130mMNaCl pH 7的流动相来操作。加热后，样品稀释至2g/L，以10μL注射至柱上。通过在214nm下监测吸光度来检测蛋白质，聚集物表征为尺寸比相关蛋白质大的峰(洗脱更快)。峰面积无总变化指示在热处理期间蛋白质无沉淀。在此测定中乳清蛋白在暴露于90℃时迅速地形成约80％聚集物。在一些实施方案中，本公开的工程化蛋白质显示抗聚集性，显示例如少于80％聚集物、少于10％聚集物或无可检测的聚集物。

对于大部分实施方案，优选的是工程化蛋白质不显示不适当地高的变应原性。因此，在一些实施方案中，评估工程化蛋白质的潜在变应原性。此可以通过本领域中已知的任何适合的方法进行。在一些实施方案中，计算变应原性评分。变应原性评分是基于主要序列的度量，其基于WHO推荐(参见，例如www.fao.org/ag/agn/food/pdf/allergygm.pdf)，以评估蛋白质与任何已知的过敏原的类似程度，主要的假设是靶与已知的过敏原之间的高度同一性百分比可能指示交叉反应性。对于给定蛋白质，通过检验所有可能的邻接80个氨基酸片段和使用利用BLOSUM50取代矩阵、10的空位开放罚分和2的空位延伸罚分的FASTA算法，将每一片段与已知的过敏原序列的数据库局部比对，来发现变应原性评分。任何80个氨基酸窗口与任何过敏原的最高同一性百分比视为相关蛋白质的最后评分。WHO准则建议使用35％同一性截止值。在一些实施方案中，工程化蛋白质具有少于35％的变应原性评分。在一些实施方案中，使用少于35％同一性的截止值。在一些实施方案中，使用30％至35％同一性的截止值。在一些实施方案中，使用25％至30％同一性的截止值。在一些实施方案中，使用20％至25％同一性的截止值。在一些实施方案中，使用15％至20％同一性的截止值。在一些实施方案中，使用10％至15％同一性的截止值。在一些实施方案中，使用5％至10％同一性的截止值。在一些实施方案中，使用0％至5％同一性的截止值。在一些实施方案中，使用大于35％同一性的截止值。在一些实施方案中，使用35％至40％同一性的截止值。在一些实施方案中，使用40％至45％同一性的截止值。在一些实施方案中，使用45％至50％同一性的截止值。在一些实施方案中，使用50％至55％同一性的截止值。在一些实施方案中，使用55％至60％同一性的截止值。在一些实施方案中，使用65％至70％同一性的截止值。在一些实施方案中，使用70％至75％同一性的截止值。在一些实施方案中，使用75％至80％同一性的截止值。

熟练技术人员能够鉴别和使用已知的过敏原的适合数据库来达成此目的。在一些实施方案中，通过从超过一个数据库来源选择蛋白质来制成数据库。在一些实施方案中，常规数据库包含食物过敏研究与资源项目(Food Allergy Research and Resource Program)收集的汇集过敏原列表(http://www.allergenonline.org/)、UNIPROT注解(http://www.uniprot.org/docs/allergen)和过敏原蛋白质的结构数据库(SDAP，http://fermi.utmb.edu/SDAP/sdap_lnk.html)。此数据库包括国际免疫学会联合会(IUIS,http://www.allergen.org/)目前公认的所有过敏原以及尚未官方命名的大量其它过敏原。

在一些实施方案中，针对过敏原数据库，测试工程化蛋白质的不同长度(例如，70、60、50、40、30、20、10、8或6个氨基酸窗口)的所有(或选择的子集)邻接氨基酸窗口且鉴别具有100％同一性、95％或更高同一性、90％或更高同一性、85％或更高同一性、80％或更高同一性、75％或更高同一性、70％或更高同一性、65％或更高同一性、60％或更高同一性、55％或更高同一性或50％或更高同一性匹配的肽序列以用于潜在变应原性的进一步检验。

可以增强工程化蛋白质的效用的一种特征是其电荷(或每个氨基酸电荷)。在一些实施方案中，具有较高电荷的工程化蛋白质可以显示合乎需要的特性，例如增加的溶解性、增加的稳定性、抗聚集性和合乎需要的味道特征。举例来说，显示增强的溶解性的带电工程化蛋白质可以配制成饮料或液体制剂，其包括相对低体积的溶液中的高浓度的工程化蛋白质，因此递送每单位体积大剂量的蛋白质营养。显示增强的溶解性的带电工程化蛋白质可以适用于使用者(例如，运动员)想要在身体活动之前、期间或之后摄入蛋白质的运动饮料或恢复饮料。显示增强的溶解性的带电工程化蛋白质也可以特别适用于受试者(例如，患者或老年人)需要蛋白质营养但不能摄入固体食物或大量液体的临床情况。

已知某些游离氨基酸和游离氨基酸的混合物具有苦或其它令人讨厌的味道。另外，常见蛋白质(例如，乳清和大豆)的水解产物常常具有苦或讨厌的味道。在一些实施方案中，本文中公开和描述的工程化蛋白质不具有苦或其它讨厌的味道。在一些实施方案中，本文中公开和描述的工程化蛋白质与游离氨基酸、游离氨基酸的混合物和/或蛋白质水解物中至少一者相比，具有更可接受的味道。在一些实施方案中，本文中公开和描述的工程化蛋白质具有等于或超过乳清蛋白和乳清蛋白水解产物中至少一者的味道。

已知蛋白质具有覆盖五种确定的味觉的味道：甜、酸、苦、咸和鲜。具体蛋白质的味道(或其缺乏)可以归因于若干因素，包括一级结构、存在带电侧链以及蛋白质的电子和构象特征。在一些实施方案中，本文中公开和描述的工程化蛋白质被设计成具有所需味道(例如，甜、咸、鲜)和/或不具有不想要的味道(例如，苦、酸)。在这种情形下，“设计”包括例如选择体现实现所需味道特性的特征的天然存在的蛋白质以及产生具有所需味道特性的天然存在的蛋白质的突变蛋白。举例来说，工程化蛋白质可以被设计成与例如甜味受体(T1R2-T1R3异二聚体)或鲜味受体(T1R1-T1R3异二聚体、mGluR4和/或mGluR1)等特定味道受体相互作用。此外，工程化蛋白质可以被设计成与例如苦味受体(T2R受体)等其它味道受体不相互作用，或具有减少的相互作用。

本文中公开和描述的工程化蛋白质在摄入时也可以引起口腔中不同的身体感觉，有时称为“口感”。工程化蛋白质的口感可以归因于一种或多种因素，包括一级结构、存在带电侧链以及蛋白质的电子和构象特征。在一些实施方案中，工程化蛋白质在摄入时引起似黄油的或类似脂肪的口感。

在一些实施方案中，工程化蛋白质包含20至5,000个氨基酸、20-2,000个氨基酸、20-1,000个氨基酸、20-500个氨基酸、20-250个氨基酸、20-200个氨基酸、20-150个氨基酸、20-100个氨基酸、20-40个氨基酸、30-50个氨基酸、40-60个氨基酸、50-70个氨基酸、60-80个氨基酸、70-90个氨基酸、80-100个氨基酸、至少25个氨基酸、至少30个氨基酸、至少35个氨基酸、至少40个氨基酸、至少2455个氨基酸、至少50个氨基酸、至少55个氨基酸、至少60个氨基酸、至少65个氨基酸、至少70个氨基酸、至少75个氨基酸、至少80个氨基酸、至少85个氨基酸、至少90个氨基酸、至少95个氨基酸、至少100个氨基酸、至少105个氨基酸、至少110个氨基酸、至少115个氨基酸、至少120个氨基酸、至少125个氨基酸、至少130个氨基酸、至少135个氨基酸、至少140个氨基酸、至少145个氨基酸、至少150个氨基酸、至少155个氨基酸、至少160个氨基酸、至少165个氨基酸、至少170个氨基酸、至少175个氨基酸、至少180个氨基酸、至少185个氨基酸、至少190个氨基酸、至少195个氨基酸、至少200个氨基酸、至少205个氨基酸、至少210个氨基酸、至少215个氨基酸、至少220个氨基酸、至少225个氨基酸、至少230个氨基酸、至少235个氨基酸、至少240个氨基酸、至少245个氨基酸或至少250个氨基酸。在一些实施方案中，工程化蛋白质由20至5,000个氨基酸、20-2,000个氨基酸、20-1,000个氨基酸、20-500个氨基酸、20-250个氨基酸、20-200个氨基酸、20-150个氨基酸、20-100个氨基酸、20-40个氨基酸、30-50个氨基酸、40-60个氨基酸、50-70个氨基酸、60-80个氨基酸、70-90个氨基酸、80-100个氨基酸、至少25个氨基酸、至少30个氨基酸、至少35个氨基酸、至少40个氨基酸、至少2455个氨基酸、至少50个氨基酸、至少55个氨基酸、至少60个氨基酸、至少65个氨基酸、至少70个氨基酸、至少75个氨基酸、至少80个氨基酸、至少85个氨基酸、至少90个氨基酸、至少95个氨基酸、至少100个氨基酸、至少105个氨基酸、至少110个氨基酸、至少115个氨基酸、至少120个氨基酸、至少125个氨基酸、至少130个氨基酸、至少135个氨基酸、至少140个氨基酸、至少145个氨基酸、至少150个氨基酸、至少155个氨基酸、至少160个氨基酸、至少165个氨基酸、至少170个氨基酸、至少175个氨基酸、至少180个氨基酸、至少185个氨基酸、至少190个氨基酸、至少195个氨基酸、至少200个氨基酸、至少205个氨基酸、至少210个氨基酸、至少215个氨基酸、至少220个氨基酸、至少225个氨基酸、至少230个氨基酸、至少235个氨基酸、至少240个氨基酸、至少245个氨基酸或至少250氨基酸组成。

1.鉴别参考分泌蛋白质的方法

不希望受任何理论束缚，拒信修饰参考分泌蛋白质的氨基酸序列以改善蛋白质的至少一种营养特征是一种适用于制备具有适用的营养氨基酸组成的蛋白质的方式。因为参考分泌蛋白质由生物体天然地分泌，所以在一些实施方案中，可以使用此方法产生分泌的具有适用的营养内含物的蛋白质。分泌的营养蛋白质可以尤其适用于某些实施方案，因为分泌可以帮助在某些应用中制造工程化蛋白质。

为此，在一些实施方案中，筛选相关生物体的蛋白质的注解数据库以鉴别特征为分泌的蛋白质。一种替代或其它的方法是筛选相关生物体的蛋白质的序列信息并鉴别包含分泌前导序列的那些蛋白质。一种替代或其它的方法是获得编码相关生物体的蛋白质的cDNA并在功能上筛选那些cDNA以鉴别编码分泌蛋白质的cDNA。通过这些方法中的一种或多种或任何同等方法鉴别的生物体的所得蛋白质集合被称为该生物体的分泌蛋白质组。在一些实施方案中，任何分泌蛋白质用作本公开的方法中的参考分泌蛋白质。

在一些实施方案中，筛选分泌蛋白质以鉴别包含已经用于先前研究以重新工程化蛋白质-蛋白质结合相互作用的结构域和/或折叠的蛋白质。NCBI保守结构域数据库(Marchler-Bauer A.和Bryant,S.H.“CD-Search:protein domain annotations on the fly”.Nuc.Acid.Res.(2004)32:W327-W331)包括此类蛋白质结构域。(Binz,KH和Pluckthun,A.“Engineered proteins as specific binding reagents”.Curr.Op.Biotech.(2005)16:459-469；Gebauer,M.和Skerra,A.“Engineeredprotein scaffolds as next-generation antibody therapeutics”.Curr.Op.Chem.Biol.(2009)13:245-255；Lehtio,J.,Teeri T.T.和Nygren P.A.“Alpha-Amylase Inhibitors Selected From a Combinatorial Library of aCellulose Binding Domain Scaffold”.Proteins:Struct.,Func.,Gene,.(2000)41:316-322；以及Olson CA和Roberts RW.“Design,expression,and stability of a diverse protein library based on the human fibronectintype III domain”.Prot.Sci.(2007)16:476-484.)。因而，数据库可以用以鉴别预期含有具有已知可变的位置或区域的坚固稳定的折叠的蛋白质骨架，其中此类可变位置或区域可以调整以匹配所需整个氨基酸分布。在一些实施方案中，包含此类结构域的天然存在的蛋白质用作参考分泌蛋白质。在一些实施方案中，包含此类结构域的天然存在的蛋白质的一些或所有剩余部分不包括在包含结构域衍生物的工程化蛋白质内。

2.鉴别参考分泌蛋白质中氨基酸位置以在工程化蛋白质修饰的方法

本公开鉴别可以用于鉴别参考分泌蛋白质中被另一氨基酸取代的氨基酸位置的六个因素，例如参考分泌蛋白质序列中氨基酸为非Leu以被Leu氨基酸取代的位置。六个因素是氨基酸可能性(AALike)、氨基酸类型可能性(AATLike)、位置熵(S_pos)、氨基酸类型位置熵(S_AATpos)、相对折叠自由能(ΔΔG_fold)和二级结构同一性(LoopID)。这些因素可以使用下公式3组合以鉴别用于取代的氨基酸位置。

公式3：((α)AALike+(β)AATLike+(γ)Spos+(δ)SAATpos+(ε)ΔΔGfold+(ζ)LoopID)/(α+β+γ+δ+ε+ζ)

在公式3中，系数α、β、γ、δ、ε和ζ是由熟练技术人员选择的标度系数，其指示当将分泌蛋白质中一组位置排序时每一因素的相对重要性。在一些实施方案中，系数中的1个、2个、3个、4个或5个被设定成0。

B.核酸

本文中还提供了编码本文公开的工程化蛋白质的核酸。在一些实施方案中，分离核酸。在一些实施方案中，纯化核酸。在一些实施方案中，核酸是合成的。

在一些实施方案中，核酸包含本文公开的工程化蛋白质的编码序列。在一些实施方案中，核酸由本文公开的工程化蛋白质的编码序列组成。在一些实施方案中，核酸进一步包含可操作地连接于编码序列的表达控制序列。

在核酸的一些实施方案中，核酸包含编码在以上部分A中公开的工程化蛋白质的核酸序列。在核酸的一些实施方案中，核酸由编码在以上部分A中公开的工程化蛋白质的核酸序列组成。

在一些实施方案中，核酸包含至少10个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸、至少500个核苷酸、至少600个核苷酸、至少700个核苷酸、至少800个核苷酸、至少900个核苷酸、至少1,000个核苷酸。在一些实施方案中，营养核酸包含10至100个核苷酸、20至100个核苷酸、10至50个核苷酸或20至40个核苷酸。在一些实施方案中，核酸包含编码营养多肽的开放阅读框的全部或部分。在一些实施方案中，核酸由编码天然存在的蛋白质的片段的开放阅读框组成，其中开放阅读框不编码完整的天然存在的蛋白质。在一些实施方案中，核酸是cDNA。在一些实施方案中，提供包含与天然存在的核酸具有至少50％、60％、70％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％同一性的序列的核酸分子。在一些实施方案中，提供在严格的杂交条件下与至少一种参考核酸杂交的核酸。

C.载体

还提供包括表达载体在内的载体，其包含至少一种本文公开的核酸分子，如本文中进一步描述。在一些实施方案中，载体包含至少一种编码如本文公开的工程化蛋白质的分离的核酸分子。在替代实施方案中，载体包含可操作地连接于一种或多种表达控制序列的此类核酸分子。载体因此可以用于在重组微生物宿主细胞中表达至少一种重组蛋白质。

用于在微生物中表达核酸的适合载体是本领域技术人员众所周知的。用于蓝细菌中的适合载体描述于例如Heidorn等人,“SyntheticBiology in Cyanobacteria:Engineering and Analyzing Novel Functions,”Methods in Enzymology,第497卷,第24章(2011)中。可以如本文公开，用于工程化蓝细菌的示例性复制载体包括pPMQAK1、pSL1211、pFC1、pSB2A、pSCR119/202、pSUN119/202、pRL2697、pRL25C、pRL1050、pSG111M和pPBH201。

例如pJB161等能够接受本文公开的核酸序列的其它载体也可以使用。例如pJB161等载体包含与某些光合微生物内源性的质粒(例如，某些聚球藻属的种的质粒pAQ1、pAQ3和pAQ4)中存在的序列同源的序列。此类载体的实例和其使用方式为本领域中已知且提供于例如Xu等人,“Expression of Genes in Cyanobacteria:Adaptation ofEndogenous Plasmids as Platforms for High-Level Gene Expression inSynechococcus sp.PCC 7002,”第21章,Robert Carpentier(编),“Photosynthesis Research Protocols,”Methods in Molecular Biology,第684卷,2011，其在此并入本文中。pJB161与内源性质粒之间在体内的重组产生从其内源性质粒表达相关基因的工程化微生物。或者，载体可以工程化以与宿主细胞染色体重组，或载体可以工程化以独立于宿主细胞染色体或任何宿主细胞的内源性质粒复制并表达相关基因。

适于重组蛋白质产生的载体的另一个实例是pET系统。此系统已经广泛地表征用于大肠杆菌和其它微生物。此系统中，在强噬菌体T7转录和(任选地)翻译信号控制下靶基因在pET质粒中克隆；通过在宿主细胞中提供T7RNA聚合酶的来源来诱发表达。T7RNA聚合酶具有如此选择性和活性，使得当完全诱发时几乎所有的微生物资源都转变成靶基因表达；在诱发几小时后所需产物可以包含超过50％的总细胞蛋白质。也可以简单地通过降低诱导物的浓度来减弱表达水平。降低表达水平可以增强一些靶蛋白质的可溶产率。在一些实施方案中，此系统也允许维持靶基因处于转录沉默的非诱发状态。

在使用此系统的一些实施方案中，使用不含T7RNA聚合酶基因的宿主克隆靶基因，因此减轻了与因产生对宿主细胞可能有毒性的蛋白质而引起的质粒不稳定性相关的潜在问题。一旦在非表达宿主中建立，靶蛋白质表达可以通过在λpL和pI启动子控制下用λCE6(携带T7RNA聚合酶的噬菌体)感染宿主或者通过在lacUV5控制下将质粒转移至含有T7RNA聚合酶基因的染色体拷贝的表达宿主来引发。在第二种情况下，表达通过添加IPTG或乳糖至细菌培养物或使用自动诱发培养基来诱发。由lac操作子控制但不需要T7RNA聚合酶基因并依赖于大肠杆菌天然的RNA聚合酶的其它质粒系统包括pTrc质粒组(Invitrogen)或pQE质粒组(QIAGEN)。

在其它实施方案中，可以直接克隆至表达宿主中。可使用两种类型T7启动子和抑制基本表达水平的严格性不同的若干宿主，提供巨大的灵活性和最佳化多种靶基因表达的能力。

适用于表达本文中描述的重组基因的启动子包括组成型与诱导型/抑制型启动子。诱导型/抑制型启动子的实例包括镍诱导型启动子(例如，PnrsA、PnrsB；参见例如Lopez-Mauy等人,Cell(2002)第43卷:247-256)和脲抑制型启动子，例如PnirA(描述于例如Qi等人,Applied and Environmental Microbiology(2005)第71卷:5678-5684中)。诱导型/抑制型启动子的其它实例包括PnirA(推动nirA基因表达、被硝酸盐诱发并被脲抑制的启动子)和Psuf(推动sufB基因表达、被铁胁迫诱发的启动子)。

组成型启动子的实例包括Pcpc(推动cpc操纵子的表达的启动子)、Prbc(推动二磷酸核酮糖羧化酶(rubisco)的表达的启动子)、PpsbAII(推动光系统Ⅱ反应中心的D1蛋白质的表达的启动子)、Pcro(推动cro的表达的λ噬菌体启动子)。在其它实施方案中，PaphIl和/或laclq-Ptrc启动子可以用于控制表达。在工程化微生物中表达多个重组基因的情况下，可以通过不同的启动子或通过相同启动子在分开的操纵子中来控制不同的基因，或可以通过单个启动子作为操纵子的一部分来控制两个或更多个基因的表达。

诱导型启动子的其它非限制性实例包括(但不限于)通过外源性蛋白质(例如，T7RNA聚合酶、SP6RNA聚合酶)的表达、通过小分子(例如，IPTG、半乳糖、四环素、类固醇激素、脱落酸)的存在、通过小分子(例如，CO₂、铁、氮气)的缺乏或低浓度、通过金属或金属离子(例如，铜、锌、镉、镍)以及通过环境因素(例如，热、冷、胁迫、光、黑暗)和通过生长期来诱发的启动子。在一些实施方案中，诱导型启动子被紧密地调节，使得在缺乏诱发的情况下，基本上不会通过启动子引发转录。在一些实施方案中，启动子的诱发基本上不会改变通过其它启动子转录。此外，一般而言，诱发诱导型启动子的化合物或条件不是天然地存在于寻求表达的生物体或环境中的。

在一些实施方案中，诱导型启动子通过限制蓝细菌培养物的CO₂供应来诱发。通过非限制性实例，诱导型启动子可以是在CO₂限制条件下上调的集胞藻属PCC 6803的启动子序列，例如cmp基因、ntp基因、ndh基因、sbt基因、chp基因和rbc基因或其变体或片段。

在一些实施方案中，诱导型启动子通过铁缺乏或通过进入稳定生长期来诱发。在一些实施方案中，诱导型启动子可以是在Fe缺乏条件下上调的蓝细菌基因的启动子序列的变体序列，例如isiA，或当培养物进入稳定生长期时，例如isiA、phrA、sigC、sigB和sigH基因，或其变体或片段。

在一些实施方案中，诱导型启动子通过金属或金属离子来诱发。通过非限制性实例，诱导型启动子可以通过铜、锌、镉、汞、镍、金、银、钴和铋或其离子诱发。在一些实施方案中，诱导型启动子通过镍或镍离子诱发。在一些实施方案中，诱导型启动子通过例如Ni²⁺等镍离子诱发。在另一示例性实施方案中，诱导型启动子是来自集胞藻属PCC 6803的镍诱导型启动子。在另一个实施方案中，诱导型启动子可以通过铜或铜离子诱发。在又一个实施方案中，诱导型启动子可以通过锌或锌离子诱发。在又一个实施方案中，诱导型启动子可以通过镉或镉离子诱发。在又一个实施方案中，诱导型启动子可以通过汞或汞离子诱发。在一替代实施方案中，诱导型启动子可以通过金或金离子诱发。在另一替代实施方案中，诱导型启动子可以通过银或银离子诱发。在又一个替代实施方案中，诱导型启动子可以通过钴或钴离子诱发。在又一替代实施方案中，诱导型启动子可以通过铋或铋离子诱发。

在一些实施方案中，启动子通过将包含诱导型启动子的细胞暴露于金属或金属离子来诱发。细胞可以通过添加金属至微生物生长培养基而暴露于金属或金属离子。在某些实施方案中，添加至微生物生长培养基的金属或金属离子可以有效地自培养基回收。在其它实施方案中，在回收后培养基中剩余的金属或金属离子基本上不会阻碍培养基或细菌基因产物的下游加工。

组成型启动子的其它非限制性实例包括来自革兰氏阴性细菌或在革兰氏阴性细菌中繁殖的噬菌体的组成型启动子。举例来说，可以使用编码高度表达的革兰氏阴性基因产物的基因的启动子，例如Lpp、OmpA、rRNA和核糖体蛋白的启动子。或者，可调节的启动子可以用于缺乏该启动子的调节蛋白的菌株中。举例来说，P_lac、P_tac和P_trc可以用作缺乏Lacl的菌株中的组成型启动子。类似地，P22P_R和P_L可以用于缺乏λC2阻抑蛋白的菌株中，且λP_R和P_L可以用于缺乏λC1阻抑蛋白的菌株中。在一个实施方案中，组成型启动子来自于噬菌体。在另一个实施方案中，组成型启动子来自沙门氏菌噬菌体。在又一个实施方案中，组成型启动子来自于噬蓝藻体。在一些实施方案中，组成型启动子是集胞藻属启动子。举例来说，组成型启动子可以是PpsbAll启动子或其变体序列、Prbc启动子或其变体序列、P_cpc启动子或其变体序列以及PrnpB启动子或其变体序列。

D.宿主微生物

还提供经本文公开的核酸分子或载体转化的宿主细胞和其子代。在一些实施方案中，宿主细胞是微生物细胞。在一些实施方案中，宿主细胞将核酸序列携带在载体上，其可以但不一定是自由地复制的载体。在其它实施方案中，核酸已经整合至宿主细胞的基因组中和/或宿主细胞的内源性质粒中。转化的宿主细胞用于例如本文公开的重组工程化蛋白质的产生中。

在一些实施方案中，蛋白质是用于表达其的宿主细胞的内源性蛋白质。也就是说，宿主细胞的细胞基因组包含编码重组蛋白质的开放阅读框。在一些实施方案中，将足够增加蛋白质表达的调节序列插入宿主细胞基因组中且可操作地连接于内源性开放阅读框，使得调节序列推动重组蛋白质从重组核酸过度表达。在一些实施方案中，异源核酸序列与蛋白质的内源性开放阅读框融合并引起包含改变重组蛋白质的细胞运输，例如引导其至细胞器或分泌途径的异源氨基酸序列的蛋白质被合成。在一些实施方案中，编码内源宿主细胞蛋白质的开放阅读框在进一步包含可操作地连接于开放阅读框的调节序列的质粒上引入宿主细胞中。在一些实施方案中，重组宿主细胞表达的重组蛋白质是在相似条件下生长的类似宿主细胞产生的蛋白质的量的至少2倍、至少3倍、至少4倍、至少5倍、至少10倍或至少20倍、至少30倍、至少40倍、至少50倍或至少100倍。

“微生物”包括来自古菌域(Archaea)、细菌域(Bacteria)和真核生物域(Eucarya)的原核和真核微生物物种，后者包括酵母和丝状真菌、原生动物、藻类或更高等原生生物。术语“微生物细胞”和“微生物(microbes)”可与术语微生物(microorganism)互换使用。

多种宿主微生物可以用本文公开的核酸序列转化并在一些实施方案中可以产生本文公开的重组工程化蛋白质。适合的宿主微生物包括自养与异养微生物。在一些应用中，自养微生物使得制造被引入宿主微生物中的重组核酸序列编码的工程化蛋白质所需的化石燃料和/或电力输入减少。反过来，此在一些应用中降低产生工程化蛋白质的成本和/或环境影响和/或与制造例如乳清、蛋和大豆等替代营养蛋白质的成本和/或环境影响相比，降低成本和/或环境影响。举例来说，在一些实施方案中，使用如本文公开的宿主微生物制造本文公开的工程化蛋白质的成本和/或环境影响低于通过加工牛奶制造呈适于人消耗的形式的乳清蛋白的成本和/或环境影响。

光合自养微生物包括真核藻类以及原核蓝细菌、绿色硫细菌、绿色非硫细菌、紫色硫细菌和紫色非硫细菌。

还涵盖极端微生物作为适合的生物体。此类生物体经受得起各种环境参数，例如温度、辐射、压力、重力、真空、干燥、盐度、pH值、氧张力和化学品。它们包括超嗜热微生物，其在等于或超过80℃下生长，例如延胡索酸火叶菌(Pyrolobus fumarii)；嗜热微生物，其在60℃-80℃之间生长，例如蓝聚球藻(Synechococcus lividis)；中温微生物，其在15℃-60℃之间生长；以及嗜冷微生物，其在等于或低于15℃下生长，例如嗜冷菌属(Psychrobacter)和一些昆虫。耐辐射生物体包括耐辐射球菌(Deinococcus radiodurans)。耐压力生物体包括嗜压生物，其耐受130MPa的压力。耐重量生物体包括嗜压微生物。还涵盖耐超重(例如，>1g)、低重(例如，<1g)的生物体。耐真空生物体包括缓步类动物、昆虫、微生物以及种子。耐干燥剂以及脱水生物体包括嗜旱生物，例如盐水卤虫(Artemia salina)；线虫、微生物、真菌以及地衣。耐盐性生物体包括嗜盐动物(例如，2-5M NaCl)盐杆菌科(Halobacteriacea)以及嗜盐杜氏藻(Dunaliella salina)。耐pH值生物体包括嗜碱生物，例如嗜盐嗜碱杆菌属(Natronobacterium)、坚固芽孢杆菌OF4(Bacillus firmus OF4)、螺旋藻属的种(Spirulina spp.)(例如，pH>9)以及嗜酸生物，例如耐热小青藻(Cyanidium caldarium)、古菌属的种(Ferroplasma sp.)(例如，低pH值)。还涵盖无法耐受O₂的厌氧菌，例如詹氏甲烷球菌(Methanococcus jannaschii)；耐受一些O₂的微嗜氧菌，例如梭菌属(Clostridium)，以及需要O₂的需氧菌。耐受纯CO₂的耐气体生物体包括耐热小青藻(cyanidium caldarium)且耐金属生物体包括耐金属生物，例如嗜酸古菌(Ferroplasma acidarmanus)(例如，Cu、As、Cd、Zn)、罗尔斯顿菌属的种(Ralstonia sp.)CH34(例如，Zn、Co、Cd、Hg、Pb)。Gross,Michael.Life on the Edge:Amazing CreaturesThriving in Extreme Environments.New York:Plenum(1998)和Seckbach,J."Search for Life in the Universe with Terrestrial MicrobesWhich Thrive Under Extreme Conditions."Cristiano Batalli Cosmovici,Stuart Bowyer,和Dan Wertheimer编,Astronomical and BiochemicalOrigins and the Search for Life in the Universe,第511页.Milan:Editrice Compositori(1997)。

藻类和蓝细菌包括(但不限于)以下属：刺菊石属(Acanthoceras)、杮粉介壳虫(Acanthococcus)、单细胞蓝藻属(Acaryochloris)、弯杆藻属(Achnanthes)、长曲壳藻属(Achnanthidium)、星状藻属(Actinastrum)、福红藻属(Actinochloris)、福环藻属(Actinocyclus)、辐射鼓藻属(Actinotaenium)、双金藻属(Amphichrysis)、前沟藻属(Amphidinium)、柯克藻属(Amphikrikos)、双肋藻属(Amphipleura)、苗形藻属(Amphiprora)、分须藻属(Amphithrix)、月形藻属(Amphora)、鱼腥藻属(Anabaena)、项圈藻属(Anabaenopsis)、暗额藻属(Aneumastus)、纤维藻属(Ankistrodesmus)、锚藻属(Ankyra)、异菱藻属(Anomoeoneis)、虚幻球藻属(Apatococcus)、束丝藻属(Aphanizomenon)、隐球藻属(Aphanocapsa)、隐毛藻属(Aphanochaete)、隐杆藻属(Aphanothece)、梨囊藻属(Apiocystis)、顶丝藻属(Apistonema)、四棘鼓藻属(Arthrodesmus)、节方宠藻属(Artherospira)、阿柯藻属(Ascochloris)、星杆藻属(Asterionella)、星球藻属(Asterococcus)、奥氏藻属(Audouinella)、浮生直链藻属(Aulacoseira)、杆状藻属(Bacillaria)、巴尔比亚藻属(Balbiania)、似竹鼓藻属(Bambusina)、红毛菜属(Bangia)、贝思藻属(Basichlamys)、串珠藻属(Batrachospermum)、骈胞藻属(Binuclearia)、角藻属(Bitrichia)、盘苔属(Blidingia)、波曲藻属(Botrdiopsis)、气球藻属(Botrydium)、葡萄藻属(Botryococcus)、球葡萄藻属(Botryosphaerella)、咸胞藻属(Brachiomonas)、短螺方宠体属(Brachysira)、短团毛菌属(Brachytrichia)、布瑞藻属(Brebissonia)、毛鞘藻属(Bulbochaete)、杆藻属(Bumilleria)、拟杆藻属(Bumilleriopsis)、美壁藻属(Caloneis)、眉藻属(Calothrix)、马鞍藻属(Campylodiscus)、盒管藻属(Capsosiphon)、四鞭藻属(Carteria)、卡特藻属(Catena)、卡维藻属(Cavinula)、顶刺藻属(Centritractus)、中脊贝属(Centronella)、角藻属(Ceratium)、角毛藻属(Chaetoceros)、红毛藻属(Chaetochloris)、硬毛藻属(Chaetomorpha)、奈毛藻属(Chaetonella)、毛丝藻属(Chaetonema)、盾毛藻属(Chaetopeltis)、胶毛藻属(Chaetophora)、毛球藻属(Chaetosphaeridium)、管胞藻属(Chamaesiphon)、轮藻属(Chara)、卡拉藻属(Characiochloris)、拟小桩藻属(Characiopsis)、小桩藻属(Characium)、轮藻目(Charales)、缘胞藻属(Chilomonas)、厚胞藻属(Chlainomonas)、盖毛藻属(Chlamydoblepharis)、囊毛藻属(Chlamydocapsa)、衣藻属(Chlamydomonas)、单藻属(Chlamydomonopsis)、衣粘藻属(Chlamydomyxa)、奈衣藻属(Chlamydonephris)、艾拉藻属(Chlorangiella)、拟绿囊藻属(Chlorangiopsis)、小球藻属(Chlorella)、绿葡萄藻属(Chlorobotrys)、绿幅藻属(Chlorobrachis)、绿点藻属(Chlorochytrium)、绿球藻属(Chlorococcum)、绿胶藻属(Chlorogloea)、拟绿胶藻属(Chlorogloeopsis)、绿梭藻属(Chlorogonium)、绿带藻属(Chlorolobion)、拟衣藻属(Chloromonas)、绿森藻属(Chlorophysema)、绿藻门(Chlorophyta)、绿胶囊藻属(Chlorosaccus)、背包藻属(Chlorosarcina)、索囊藻(Choricystis)、色植藻属(Chromophyton)、单鞭金藻属(Chromulina)、拟色球藻(Chroococcidiopsis)、蓝球藻属(Chroococcus)、色指藻属(Chroodactylon)、蓝隐藻属(Chroomonas)、色合藻属(Chroothece)、金变形藻属(Chrysamoeba)、金网藻属(Chrysapsis)、金星藻属(Chrysidiastrum)、金囊藻属(Chrysocapsa)、金囊丝藻属(Chrysocapsella)、金克藻属(Chrysochaete)、金色藻属(Chrysochromulina)、金粒藻属(Chrysococcus)、金克瑞藻属(Chrysocrinus)、金脂藻属(Chrysolepidomonas)、金溶藻属(Chrysolykos)、金云藻属(Chrysonebula)、金藻门(Chrysophyta)、金钟藻属(Chrysopyxis)、金囊藻属(Chrysosaccus)、金法藻属(Chrysophaerella)、金环藻属(Chrysostephanosphaera)、毛藻属(Clodophora)、链孢藻属(Clastidium)、拟新月藻属(Closteriopsis)、新月藻属(Closterium)、胶球藻属(Coccomyxa)、卵形藻属(Cocconeis)、气生微细藻属(Coelastrella)、空星藻属(Coelastrum)、腔球藻属(Coelosphaerium)、绿群藻属(Coenochloris)、无胶集球藻属(Coenococcus)、聚囊藻属(Coenocystis)、柄裸藻属(Colacium)、鞘毛藻属(Coleochaete)、科拉藻属(Collodictyon)、康帕藻属(Compsogonopsis)、弯枝藻属(Compsopogon)、结合藻属(Conjugatophyta)、科诺藻属(Conochaete)、柯纳藻属(Coronastrum)、鼓藻属(Cosmarium)、考斯藻属(Cosmioneis)、胶球鼓藻属(Cosmocladium)、克拉特藻属(Crateriportula)、克拉提藻属(Craticula)、发毛针藻属(Crinalium)、十字藻属(Crucigenia)、卵胞藻属(Crucigeniella)、吐奥藻属(Cryptoaulax)、隐藻属(Cryptomonas)、隐藻门(Cryptophyta)、栉水母门(Ctenophora)、蓝二藻门(Cyanodictyon)、蓝奈藻门(Cyanonephron)、蓝载藻(Cyanophora)、蓝藻门(Cyanophyta)、蓝杆藻属(Cyanothece)、蓝汤藻属(Cyanothomonas)、环胞藻属(Cyclonexis)、环冠藻属(Cyclostephanos)、小环藻属(Cyclotella)、筒藻属(Cylindrocapsa)、柱胞鼓藻属(Cylindrocystis)、筒孢藻属(Cylindrospermum)、细柱藻属(Cylindrotheca)、波缘藻属(Cymatopleura)、桥弯藻属(Cymbella)、尼兹藻属(Cymbellonitzschia)、胞甲藻属(Cystodinium)、蓝纤维藻属(Dactylococcopsis)、单板藻属(Debarya)、细齿藻属(Denticula)、真皮藻属(Dermatochrysis)、皮果藻属(Dermocarpa)、果菌属(Dermocarpella)、溢带藻属(Desmatractum)、角丝鼓藻属(Desmidium)、德斯米藻属(Desmococcus)、带线藻属(Desmonema)、德斯莫藻属(Desmosiphon)、长刺藻属(Diacanthos)、迪亚克藻属(Diacronema)、迪亚德藻属(Diadesmis)、等片藻属(Diatoma)、等隔藻属(Diatomella)、双细胞藻属(Dicellula)、双须藻属(Dichothrix)、叉球藻属(Dichotomococcus)、迪克藻属(Dicranochaete)、网绿藻属(Dictyochloris)、球网藻属(Dictyococcus)、胶网藻属(Dictyosphaerium)、泡双吸虫属(Didymocystis)、对囊藻属(Didymogenes)、异形藻属(Didymosphenia)、丝藻属(Dilabifilum)、联同藻属(Dimorphococcus)、锥囊藻属(Dinobryon)、球甲藻属(Dinococcus)、双绿藻属(Diplochloris)、双壁藻属(Diploneis)、双十藻属(Diplostauron)、双带藻属(Distrionella)、基纹鼓藻属(Docidium)、竹枝藻属(Draparnaldia)、杜氏藻属(Dunaliella)、孔壳藻属(Dysmorphococcus)、延胞藻属(Ecballocystis)、结锤藻属(Elakatothrix)、艾乐藻属(Ellerbeckia)、内丝藻属(Encyonema)、浒苔属(Enteromorpha)、内枝藻属(Entocladia)、茧形藻属(Entomoneis)、石囊藻属(Entophysalis)、附金藻属(Epichrysis)、附钟藻属(Epipyxis)、窗纹藻属(Epithemia)、独球藻属(Eremosphaera)、拟凹顶藻属(Euastropsis)、凹顶鼓藻属(Euastrum)、立方藻属(Eucapsis)、真卵形藻属(Eucocconeis)、空球藻属(Eudorina)、裸藻属(Euglena)、裸藻门(Euglenophyta)、短缝藻属(Eunotia)、玛裸藻属(Eustigmatophyta)、双鞭藻属(Eutreptia)、曲解藻属(Fallacia)、费氏藻属(Fischerella)、脆杆藻属(Fragilaria)、法拉藻属(Fragilariforma)、披剌藻属(Franceia)、肋缝藻属(Frustulia)、库克藻属(Curcilla)、双胞藻属(Geminella)、短水绵属(Genicularia)、灰胞藻属(Glaucocystis)、灰色藻门(Glaucophyta)、吉列藻属(Glenodiniopsis)、薄甲藻属(Glenodinium)、粘球藻属(Gloeocapsa)、刺球藻属(Gloeochaete)、克球藻属(Gloeochrysis)、圆球藻属(Gloeococcus)、胶囊藻属(Gloeocystis)、树枝藻属(Gloeodendron)、胶胞藻属(Gloeomonas)、普拉藻属(Gloeoplax)、粘杆藻属(Gloeothece)、胶丝藻属(Gloeotila)、顶孢藻属(Gloeotrichia)、网藻属(Gloiodictyon)、多芒藻属(Golenkinia)、拟多芒藻属(Golenkiniopsis)、孢根藻属(Gomontia)、楔桥弯藻属(Gomphocymbella)、异极藻属(Gomphonema)、索球藻属(Gomphosphaeria)、棒形鼓藻属(Gonatozygon)、格柔藻属(Gongrosia)、格柔藻属(Gongrosira)、角绿藻属(Goniochloris)、盘藻属(Gonium)、膝口藻属(Gonyostomum)、粒绿藻属(Granulochloris)、拟粒囊藻属(Granulocystopsis)、叶片藻属(Groenbladia)、裸甲藻属(Gymnodinium)、溢丝鼓藻属(Gymnozyga)、布纹藻属(Gyrosigma)、红球藻属(Haematococcus)、哈弗藻属(Hafniomonas)、哈拉藻属(Hallassia)、双尖藻属(Hammatoidea)、汉娜藻属(Hannaea)、菱板藻属(Hantzschia)、软管藻属(Hapalosiphon)、哈伯藻属(Haplotaenium)、定鞭藻门(Haptophyta)、哈斯藻属(Haslea)、半沟藻属(Hemidinium)、番茄藻属(Hemitoma)、驾壳藻属(Heribaudiella)、异毛藻属(Heteromastix)、异线藻属(Heterothrix)、黑布藻属(Hibberdia)、胭脂藻属(Hildenbrandia)、隐鞭藻属(Hillea)、单肢蚤(Holopedium)、须藻属(Homoeothrix)、管鞘藻属(Hormanthonema)、皮襟藻属(Hormotila)、分支藻属(Hyalobrachion)、鸟蛤藻属(Hyalocardium)、明盘藻属(Hyalodiscus)、透明棱藻属(Hyalogonium)、圆丝鼓藻属(Hyalotheca)、安姆藻属(Hydrianum)、可可藻属(Hydrococcus)、水鞘藻属(Hydrocoleum)、水条藻属(Hydrocoryne)、水网藻属(Hydrodictyon)、水涟藻属(Hydrosera)、水树藻属(Hydrurus)、蓝枝藻属(Hyella)、膜胞藻属(Hymenomonas)、细绿藻属(Isthmochloron)、约翰藻属(Johannesbaptistia)、肾粒藻属(Juranyiella)、卡拉藻属(Karayevia)、尖目艮藻属(Kathablepharis)、下沟藻属(Katodinium)、金杯藻属(Kephyrion)、角球藻属(Keratococcus)、蹄形藻属(Kirchneriella)、克里藻属(Klebsormidium)、克尔波藻属(Kolbesia)、克里藻属(Koliella)、库玛藻属(Komarekia)、克尔氏藻属(Korshikoviella)、克拉斯藻属(Kraskella)、拉氏藻属(Lagerheimia)、烧瓶藻属(Lagynion)、丽枝藻属(Lamprothamnium)、鱼子菜属(Lemanea)、鳞孔藻属(Lepocinclis)、钩端螺方宠体属(Leptosira)、洛玻球藻属(Lobococcus)、洛玻囊藻属(Lobocystis)、叶衣藻属(Lobomonas)、卢卡藻属(Luticola)、鞘丝藻属(Lyngbya)、马氏藻属(Malleochloris)、鱼鳞藻属(Mallomonas)、芒氏藻属(Mantoniella)、射星藻属(Marssoniella)、马瑞藻属(Martyana)、鞭鞘藻属(Mastigocoleus)、胸隔藻属(Gastogloia)、直链藻属(Melosira)、平裂藻属(Merismopedia)、胸气门(Mesostigma)、中带鼓藻属(Mesotaenium)、微星藻属(Micractinium)、小星藻属(Micrasterias)、微毛藻属(Microchaete)、微鞘藻属(Microcoleus)、微胞藻属(Microcystis)、软壳藻属(Microglena)、微单胞菌属(Micromonas)、微孢藻属(Microspora)、小丛藻属(Microthamnion)、柄球藻属(Mischococcus)、单鞭金藻属(Monochrysis)、蒜头藻属(Monodus)、基质藻属(Monomastix)、单针藻属(Monoraphidium)、礁膜属(Monostroma)、转板藻属(Mougeotia)、拟转板藻属(Mougeotiopsis)、喙藻属(Myochloris)、麦氏藻属(Myromecia)、粘囊藻属(Myxosarcina)、瓶丝藻属(Naegeliella)、微绿球藻属(Nannochloris)、类球藻属(Nautococcus)、舟形藻属(Navicula)、尼氏藻属(Neglectella)、长篦藻属(Neidium)、奈佛藻属(Nephroclamys)、肾形藻属(Nephrocytium)、双奈佛藻属(Nephrodiella)、肾藻属(Nephroselmis)、梭形鼓藻属(Netrium)、丽藻属(Nitella)、拟丽藻属(Nitellopsis)、菱形藻属(Nitzschia)、节球藻属(Nodularia)、念珠藻属(Nostoc)、棕鞭藻属(Ochromonas)、鞘藻属(Oedogonium)、寡藻属(Oligochaetophora)、棘接鼓藻属(Onychonema)、欧氏藻属(Oocardium)、卵胞藻属(Oocystis)、具隙藻属(Opephora)、黄管藻属(Ophiocytium)、角状正链藻(Orthoseira)、颤藻属(Oscillatoria)、奥斯藻属(Oxyneis)、厚枝藻属(Pachycladella)、胶群藻属(Palmella)、掌网藻属(Palmodictyon)、实球藻属(Pnadorina)、盘奴藻属(Pannus)、帕拉藻属(Paralia)、帕克瑞藻属(Pascherina)、泡藻属(Paulschulzia)、盘星藻属(Pediastrum)、柄钟藻属(Pedinella)、单鞭藻属(Pedinomonas)、指藻属(Pedinopera)、海网藻属(Pelagodictyon)、直板藻属(Penium)、袋鞭藻属(Peranema)、拟多甲藻属(Peridiniopsis)、多甲藻属(Peridinium)、残缺藻属(Peronia)、石藻属(Petroneis)、介壳藻属(Phacotus)、扁虫藻属(Phacus)、法斯特藻属(Phaeaster)、褐皮藻属(Phaeodermatium)、褐藻门(Phaeophyta)、法氏藻属(Phaeosphaera)、褐枝藻属(Phaeothamnion)、席藻属(Phormidium)、叶楣藻属(Phycopeltis)、叶绿藻属(Phyllariochloris)、叶卡藻属(Phyllocardium)、叶米藻属(Phyllomitas)、羽纹藻(Pinnularia)、皮托藻属(Pitophora)、平截盘状藻属(Placoneis)、细丝藻属(Planctonema)、浮球藻属(Planktosphaeria)、平面藻属(Planothidium)、织线藻属(Plectonema)、杂球藻属(Pleodorina)、普鲁藻属(Pleurastrum)、宽球藻属(Pleurocapsa)、侧枝藻属(Pleurocladia)、双盘藻属(Pleurodiscus)、斜纹藻属(Pleurosigma)、侧链藻属(Pleurosira)、宽带鼓藻属(Pleurotaenium)、泊斯藻属(Pocillomonas)、普多藻属(Podohedra)、多鞭藻属(Polyblepharides)、多毛藻属(Polychaetophora)、多角藻属(Polyedriella)、多突藻属(Polyedriopsis)、多弓藻属(Polygoniochloris)、多帘藻属(Polyepidomonas)、多塔藻属(Polytaenia)、素衣藻属(Polytoma)、多托藻属(Polytomella)、紫菜藻属(Porphyridium)、染色丝藻属(Posteriochromonas)、帕拉斯藻属(Prasinochloris)、绿枝藻属(Prasinocladus)、帕斯诺藻属(Prasinophyta)、溪菜属(Prasiola)、普客藻门(Prochlorphyta)、普客藻门(Prochlorothrix)、原皮藻属(Protoderma)、原管藻属(Protosiphon)、朴罗藻属(Provasoliella)、定鞭金藻属(Prymnesium)、琴式菱形藻属(Psammodictyon)、沙生藻属(Psammothidium)、伪项圈藻属(Pseudanabaena)、伪伊诺藻属(Pseudenoclonium)、伪四鞭藻属(Psuedocarteria)、伪城藻属(Pseudochate)、伪小桩藻属(Pseudocharacium)、伪胶球藻属(Pseudococcomyxa)、伪胶网藻属(Pseudodictyosphaerium)、伪金杯藻属(Pseudokephyrion)、伪瘤皮藻属(Pseudoncobyrsa)、伪并联藻属(Pseudoquadrigula)、伪球囊藻属(Pseudosphaerocystis)、伪角星鼓藻属(Pseudostaurastrum)、伪十字脆杆藻亚属(Pseudostaurosira)、伪四星藻属(Pseudotetrastrum)、翼膜藻属(Pteromonas)、冲击藻属(Punctastruata)、塔衣藻属(Pyramichlamys)、塔胞藻属(Pyramimonas)、甲藻门(Pyrrophyta)、四毛藻属(Quadrichloris)、四瓣藻属(Quadricoccus)、并联藻属(Quadrigula)、芒球藻属(Radiococcus)、福丝藻属(Radiofilum)、尖头藻属(Raphidiopsis)、瓶式藻属(Raphidocelis)、针丝藻属(Raphidonema)、针胞藻门(Raphidophyta)、培姆藻属(Peimeria)、棒条藻属(Rhabdoderma)、杆单胞菌属(Rhabdomonas)、根枝藻属(Rhizoclonium)、红胞藻属(Rhodomonas)、红藻门(Rhodophyta)、弯楔藻属(Rhoicosphenia)、棒杆藻属(Rhopalodia)、胶须藻属(Rivularia)、罗斯藻属(Rosenvingiella)、罗西藻属(Rossithidium)、皇家藻属(Roya)、栅列藻属(Scenedesmus)、色鞭毛藻属(Scherffelia)、施氏藻属(Schizochlamydella)、裂壁藻属(Schizochlamys)、裂线藻属(Schizomeris)、裂须藻属(Schizothrix)、弓形藻属(Schroederia)、硅藻属(Scolioneis)、螺翼藻属(Scotiella)、思科藻属(Scotiellopsis)、思科菲尔德藻属(Scourfieldia)、双歧藻属(Scytonema)、月芽藻属(Selenastrum)、月绿藻属(Selenochloris)、塞拉藻属(Sellaphora)、塞米藻属(Semiorbis)、褐胞藻属(Siderocelis)、拟铁囊藻属(Diderocystopsis)、迪莫藻属(Dimonsenia)、管线藻属(Siphononema)、斯洛藻属(Sirocladium)、链膝藻属(Sirogonium)、骨条藻属(Skeletonema)、群星藻属(Sorastrum)、斯盆藻属(Spennatozopsis)、斯法藻属(Sphaerellocystis)、拟球藻属(Sphaerellopsis)、斯氏藻属(Sphaerodinium)、环藻属(Sphaeroplea)、瘤接鼓藻属(Sphaerozosma)、剌胞藻属(Spiniferomonas)、水绵属(Spirogyra)、螺带鼓藻属(Spirotaenia)、螺旋藻属(Spirulina)、椎椹藻属(Spondylomorum)、丁页接鼓藻属(Spondylosium)、斯泊藻属(Sporotetras)、斯普藻属(Spumella)、角星鼓藻属(Staurastrum)、叉链藻属(Stauerodesmus)、幅节藻属(Stauroneis)、十字脆杆藻亚属(Staurosira)、斯塔藻属(Staurosirella)、长羽藻属(Stenopterobia)、斯特藻属((Stephanocostis)、冠盘藻属(Stephanodiscus)、冠羽藻属(Stephanoporos)、冠法藻属(Stephanosphaera)、裂丝藻属(Stichococcus)、粘胶藻属(Stichogloea)、毛枝藻属(Stigeoclonium)、真枝藻属(Stigonema)、柄球藻属(Stipitococcus)、斯特克藻属(Stokesiella)、陀螺藻属(Strombomonas)、柄胞藻属(Stylochrysalis)、双柄藻属(Stylodinium)、柱钟藻属(Styloyxis)、绿柄球藻属(Stylosphaeridium)、双菱藻属(Surirella)、赛奇藻属(Sykidion)、束藻属(Symploca)、聚球藻属(Synechococcus)、集胞藻属(Synechocystis)、针杆藻属(Synedra)、聚赭胞藻属(Synochromonas)、合尾滴虫属(Synura)、平板藻属(Tabellaria)、塔布藻属(Tabularia)、泰陵藻属(Teilingia)、切孢藻属(Temnogametum)、裂顶鼓藻属(Tetmemorus)、四球藻属(Tetrachlorella)、四环藻属(Tetracyclus)、四链藻属(Tetradesmus)、四安藻属(Tetraedriella)、四角藻属(Tetraedron)、四塞藻属(Tetraselmis)、四孢藻属(Tetraspora)、四星藻属(Tetrastrum)、海链藻属(Thalassiosira)、丛毛藻属(Thamniochaete)、克洛藻属(Thorakochloris)、拖拉藻属(Thorea)、鸟巢轮藻属(Tolypella)、单歧藻属(Tolypothrix)、颈胞藻属(Trachelomonas)、曲克藻属(Trachydiscus)、曲布藻属(Trebouxia)、替色藻属(Trentepholia)、四刺藻属(Treubaria)、黄丝藻属(Tribonema)、束毛藻属(Trichodesmium)、双曲藻属(Trichodiscus)、小箍藻属(Trochiscia)、盘杆藻属(Tryblionella)、丝藻属(Ulothrix)、辐尾藻属(Uroglena)、尾丝藻属(Uronema)、尾管藻属(Urosolenia)、尾孢藻属(Urospora)、维氏藻属(Uva)、周泡藻属(Vacuolaria)、无节藻属(Vaucheria)、团藻属(Volvox)、维吴藻属(Volvulina)、韦斯藻属(Westella)、网甲藻属(Woloszynskia)、多棘鼓藻属(Xanthidium)、黄藻门(Xanthophyta)、异球藻属(Xenococcus)、双星藻属(Zygnema)、拟双星藻属(Zygnemopsis)和合藻属(Zygonium)。

其它蓝细菌包括以下属的成员：管胞藻属(Chamaesiphon)、蓝球藻属(Chroococcus)、蓝细菌属(Cyanobacterium)、蓝菌属(Cyanobium)、蓝杆菌(Cyanothece)、蓝纤维藻属(Dactylococcopsis)、粘菌属(Gloeobacter)、粘球藻属(Gloeocapsa)、粘杆菌属(Gloeothece)、微胞藻属(Microcystis)、原绿球藻属(Prochlorococcus)、原绿藻属(Prochloron)、聚球藻属(Synechococcus)、集胞藻属(Synechocystis)、蓝囊胞菌属(Cyanocystis)、小皮果蓝细菌属(Dermocarpella)、斯塔尼尔氏菌属(Stanieria)、异球藻属(Xenococcus)、拟色球藻属(Chroococcidiopsis)、粘囊藻属(Myxosarcina)、节旋藻属(Arthrospira)、博氏藻属(Borzia)、发毛针藻属(Crinalium)、盖特藻属(Geitlerinemia)、纤发鞘丝蓝细菌属(Leptolyngbya)、湖丝蓝细菌属(Limnothrix)、林氏藻属(Lyngbya)、微鞘藻属(Microcoleus)、颤藻属(Oscillatoria)、浮丝藻属(Planktothrix)、原绿丝蓝细菌属(Prochiorothrix)、伪项圈藻属(Pseudanabaena)、螺旋藻属(Spirulina)、斯塔尔氏蓝细菌属(Starria)、束藻属(Symploca)、束毛藻属(Trichodesmium)、灰线蓝细菌属(Tychonema)、项圈藻属(Anabaena)、拟项圈藻(Anabaenopsis)、束丝藻属(Aphanizomenon)、蓝螺菌属(Cyanospira)、拟柱孢藻属(Cylindrospermopsis)、筒孢藻属(Cylindrospermum)、节球藻属(Nodularia)、念珠藻属(Nostoc)、伪枝藻属(Scylonema)、眉藻属(Calothrix)、胶须藻属(Rivularia)、单歧藻属(Tolypothrix)、拟绿胶蓝细菌属(Chlorogloeopsis)、费氏藻属(Fischerella)、高腹菌属(Geitieria)、形态属(Iyengariella)、拟珠藻属(Nostochopsis)、真枝藻属(Stigonema)和好热性藻属(Thermosynechococcus)。

绿色非硫细菌包括(但不限于)以下属：绿曲挠菌属(Chloroflexus)、绿丝菌属(Chloronema)、颤绿菌属(Oscillochloris)、螺丝菌属(Heliothrix)、滑柱菌属(Herpetosiphon)、玫瑰弯菌属(Roseiflexus)和热微菌属(Thermomicrobium)。

绿色硫细菌包括(但不限于)以下属：绿菌属(Chlorobium)、绿硫菌属(Clathrochloris)和突柄绿菌属(Prosthecochloris)。

紫色硫细菌包括(但不限于)以下属：异着色菌属(Allochromatium)、着色菌属(Chromatium)、盐着色菌属(Halochromatium)、等着色菌属(Isochromatium)、海洋着色菌属(Marichromatium)、小红卵菌属(Rhodovulum)、热着色菌属(Thermochromatium)、荚硫细菌属(Thiocapsa)、硫红球菌属(Thiorhodococcus)和囊硫细菌属(Thiocystis)。

紫色非硫细菌包括(但不限于)以下属：褐螺菌属(Phaeospirillum)、红浆果菌属(Rhodobaca)、红细菌属(Rhodobacter)、红微菌属(Rhodomicrobium)、红球形菌属(Rhodopila)、红假单胞菌属(Rhodopseudomonas)、红海菌属(Rhodothalassium)、红螺菌属(Rhodospirillum)、罗多菌属(Rodovibrio)和玫瑰螺旋菌属(Roseospira)。

需氧的化能无机营养菌包括(但不限于)硝化细菌，例如硝化杆菌科的种(Nitrobacteraceae sp.)、硝化杆菌属的种(Nitrobacter sp.)、硝化刺菌属的种(Nitrospina sp.)、硝化球菌属的种(Nitrococcus sp.)、硝化螺旋菌属的种(Nitrospira sp.)、亚硝化单胞菌属的种(Nitrosomonassp.)、亚硝化球菌属的种(Nitrosococcus sp.)、亚硝化螺菌属的种(Nitrosospira sp.)、亚硝化叶菌属的种(Nitrosolobus sp.)、亚硝化弧菌属的种(Nitrosovibrio sp.)；无色硫细菌，例如卵硫细菌属的种(Thiovulum sp.)、硫杆菌属的种(Thiobacillus sp.)、硫微螺菌属的种(Thiomicrospira sp.)、球硫细菌属的种(Thiosphaera sp.)、高温毛发菌属的种(Thermothrix sp.)；专性化能无机营养氢细菌，例如氢杆菌属的种(Hydrogenobacter sp.)、铁和锰氧化和/或沉积细菌，例如铁球菌属的种(Siderococcus sp.)和磁性细菌(magnetotactic bacteria)，例如水螺菌属的种(Aquaspirillum sp.)。

古细菌包括(但不限于)产甲烷古细菌，例如甲烷杆菌属的种(Methanobacterium sp.)、甲烷短杆菌属的种(Methanobrevibacter sp.)、甲烷栖热菌属的种(Methanothermus sp.)、甲烷球菌属的种(Methanococcus sp.)、甲烷微生物属的种(Methanomicrobium sp.)、甲烷螺菌属的种(Methanospirillum sp.)、产甲烷菌属的种(Methanogenium sp.)、甲烷八叠球菌属的种(Methanosarcina sp.)、Methanolobus sp.、甲烷丝毛菌属的种(Methanothrix sp.)、拟甲烷球菌属的种(Methanococcoidessp.)、甲烷盘菌属的种(Methanoplanus sp.)；非常耐热的硫代谢菌，例如热变形菌属的种(Thermoproteus sp.)、热网菌属的种(Pyrodictiumsp.)、硫化叶菌属的种(Sulfolobus sp.)、嗜酸菌属的种(Acidianus sp.)和其它微生物，例如枯草杆菌、酿酒酵母、链霉菌属的种(Streptomyces sp.)、雷尔氏菌属的种(Ralstonia sp.)、红球菌属的种(Rhodococcus sp.)、棒状杆菌的种(Corynebacteria sp.)、短杆菌属的种(Brevibacteria sp.)、分枝杆菌种(Mycobacteria sp.)和产油酵母。

其它适合的生物体包括通过如Venter等人的美国专利公布2007/0264688中所描述的合成基因组产生的合成细胞，和如Glass等人的美国专利公布第2007/0269862号中所描述的类细胞系统或合成细胞。

其它适合的生物体包括大肠杆菌、醋酸杆菌、枯草杆菌、酵母和真菌，例如杨氏棱菌(Clostridium ljungdahlii)、热纤梭菌(Clostridiumthermocellum)、产黄青霉、巴斯德毕赤氏酵母、酿酒酵母、粟酒裂殖酵母(Schizosaccharomycespombe)、荧光假单胞菌(Pseudomonas fluorescens)或运动发酵假单胞菌(Zymomonas mobilis)。在一些实施方案中，那些生物体经工程化以固定二氧化碳，而在其它实施方案中，其没有工程化。

E.重组工程化蛋白质的产生

熟练技术人员知道许多适合的方法可用于培养重组细胞以产生(并且任选地分泌)如本文公开的重组工程化蛋白质以及纯化和/或分离表达的工程化蛋白质。被选择用于纯化蛋白质的方法取决于许多变量，包括相关蛋白质的特性、其在细胞内的位置和形式、载体、宿主菌株背景和表达蛋白质的预期应用。培养条件也可以对给定靶蛋白质的溶解性和定位有影响。许多方法可以用于纯化在如本文公开的重组微生物细胞中表达的靶蛋白质，包括不限于离子交换和凝胶过滤。

普遍认为几乎所有分泌的细菌蛋白质和来自其它单细胞宿主的那些蛋白质都被合成为含有被称为信号肽的N端序列的前蛋白质。这些信号肽影响蛋白质的最终目的地和输送其的机制。大部分的信号肽可以基于其移位机制(例如，Sec或Tat介导)和用于从前蛋白质裂解信号肽的信号肽酶类型属于四组中的一组。还提供含有脂蛋白信号肽的N端信号肽。虽然携带这类信号的蛋白质经由Sec移位酶输送，但其肽信号倾向于比正常Sec信号短且其在位于-3至+1位置被称为脂盒(L(AS)(GA)C)的C结构域中含有不同序列基序。+1位置的半胱氨酸在移位后经脂质修饰，因此通过II型信号肽酶裂解信号序列。还提供IV型或前菌毛素(prepilin)信号肽，其中IV型肽酶裂解结构域定位于N与H结构域之间而非其它信号肽中所常见的C结构域。

如本文中提供，信号肽可以附接至含有营养多肽的异源多肽序列(即,不同于衍生或获得信号肽的蛋白质)以产生重组营养多肽序列。或者，如果营养多肽在宿主生物体中天然地分泌，那么其可以足够使用指导分泌的天然信号序列或多种信号序列。在营养多肽的一些实施方案中，附接至信号肽的羧基末端的异源营养多肽序列是天然存在的真核蛋白质、其突变蛋白或衍生物或多肽营养结构域。在多肽的其它实施方案中，附接至信号肽的羧基末端的异源营养多肽序列是天然存在的细胞内蛋白质、其突变蛋白或衍生物或多肽营养结构域。

营养多肽的纯化

还提供了用于从培养基回收分泌营养多肽的方法。在一些实施方案中，分泌营养多肽在指数生长期期间或在指数生长期后(例如，在前固定相或固定相中)从培养基回收。在一些实施方案中，分泌营养多肽在固定相期间从培养基回收。在一些实施方案中，分泌营养多肽在第一时间点从培养基回收，在足够微生物产生和分泌重组营养多肽的条件下继续培养，且在第二时间点从培养基回收重组营养多肽。在一些实施方案中，分泌营养多肽通过连续法从培养基回收。在一些实施方案中，分泌营养多肽通过分批法从培养基回收。在一些实施方案中，分泌营养多肽通过半连续法从培养基回收。在一些实施方案中，分泌营养多肽通过分批馈料法从培养基回收。本领域的技术人员知道许多可用于培养重组细胞的适合方法以产生(和任选地分泌)如本文公开的重组营养多肽以及纯化和/或分离表达的重组多肽。选择用于多肽纯化的方法取决于许多变量，包括相关多肽的特性。本领域中已知各种纯化方法，包括渗滤、沉淀和色谱法。

在一些实施方案中，将肽融合物标签添加至重组蛋白质，使得利用肽融合物标签的多种亲和力纯化方法成为可能。在一些实施方案中，使用亲和力方法能够一步纯化靶蛋白质至近乎均一。纯化可以包括用例如肠激酶、因子Xa、凝血酶或HRV 3C蛋白酶裂解部分或所有融合物标签。在一些实施方案中，在表达的靶蛋白质纯化或活性测量前，进行表达水平、细胞定位和靶蛋白质溶解性的初步分析。靶蛋白质可以在以下部分中的任一者或所有中发现：可溶或不溶细胞质部分、周质或培养基。取决于预定应用，在一些实施方案中，优先定位于包涵体、培养基或周质间隙可能是有利的，以通过相对简单的程序快速纯化。

虽然大肠杆菌广泛被认为是异源蛋白表达的稳固宿主，但还普遍认识到此宿主中许多蛋白质的过度表达易于呈不溶包涵体形式聚集。最常用的援救包涵体形成或者提高蛋白质本身滴度的方法之一是包括与相关蛋白质的氨基末端麦芽糖结合蛋白(MBP)[Austin BP,Nallamsetty S,Waugh DS.Hexahistidine-tagged maltose-binding proteinas a fusion partner for the production of soluble recombinant proteins inEscherichia coli.Methods Mol Biol.2009；498:157-72]或小泛素相关改性剂(SUMO)[Saitoh H,Uwada J,Azusa K.Strategies for the expressionof SUMO-modified target proteins in Escherichia coli.Methods Mol Biol.2009；497:211-21；Malakhov MP,Mattern MR,Malakhova OA,DrinkerM,Weeks SD,Butt TR.SUMO fusions and SUMO-specific protease forefficient expression and purification of proteins.J Struct Funct Genomics.2004；5(1-2):75-86；Panavas T,Sanders C,Butt TR.SUMO fusiontechnology for enhanced protein production in prokaryotic and eukaryoticexpression systems.Methods Mol Biol.2009；497:303-17]融合。此两种蛋白质在大肠杆菌中非常好且呈可溶的形式表达，使得相关蛋白质也以可溶形式有效地产生。相关蛋白质可以通过在相关蛋白质与融合蛋白之间设计位点特异性蛋白酶识别序列(例如烟草蚀刻病毒(TEV)蛋白酶)来裂解[1]。

在一些实施方案中，重组工程化蛋白质最初不准确地折叠或不可溶。熟知多种用于使不溶蛋白再折叠的方法。大部分的方案包括通过离心分离不溶包涵体，接着在变性条件下溶解。接着将蛋白质透析或稀释至发生再折叠的非变性缓冲液中。因为每种蛋白质都具有独特的折叠特性，所以任何给定蛋白质的优选再折叠方案可以通过熟练技术人员凭经验确定。优选的再折叠条件可以例如通过矩阵方法小规模地迅速确定，其中测试例如蛋白质浓度、还原剂、氧化还原处理、二价阳离子等变量。一旦发现优选的浓度，其可以应用于靶蛋白质的较大规模溶解和再折叠。

在一些实施方案中，碱性pH值下CAPS缓冲液与N-月桂酰基肌氨酸组合用以实现包涵体的溶解性，接着在DTT存在下渗析以促进再折叠。取决于靶蛋白质、表达条件和预期应用，从洗涤的包涵体溶解的蛋白质可以>90％均一且可能不需要进一步纯化。使用His·融合蛋白和His·固定金属亲和色谱法，在完全变性条件下纯化(在再折叠前)是可能的。另外，使用6M尿素从包涵体溶解的S·Tag^TM、T7·和Strep·II融合蛋白可以在部分变性条件下通过稀释至2M尿素(S·Tag和T7·Tag)或1M尿素(Strep·Tag II)，接着在适当的树脂上进行色谱法来纯化。再折叠融合蛋白可以在天然条件下使用His·Tag、S·Tag、Strep·Tag II和其它适当的亲和力标签(例如，GST·Tag^TM和T7·Tag)进行亲和力纯化。

在一些实施方案中，本公开的蛋白质在不使用重组产生系统下化学合成。蛋白质合成可以在液相系统中或固相系统中使用本领域中已知的技术进行(参见例如，Atherton,E.,Sheppard,R.C.(1989).SolidPhase peptide synthesis:a practical approach.Oxford,England:IRLPress；Stewart,J.M.,Young,J.D.(1984).Solid phase peptide synthesis(第2版).Rockford:Pierce Chemical Company)。肽化学和合成方法是本领域众所周知的且可以使用本领域中已知的任何方法制备本公开的蛋白质。此类方法的一个非限制性实例是树脂结合肽的合成(包括用于氨基酸脱除保护的方法、用于将肽从树脂裂解和纯化其的方法)。举例来说，可以用于合成肽的经Fmoc保护的氨基酸衍生物是如下推荐的标准品：Fmoc-Ala-OH、Fmoc-Arg(Pbf)-OH、Fmoc-Asn(Trt)-OH、Fmoc-Asp(OtBu)-OH、Fmoc-Cys(Trt)-OH、Fmoc-Gln(Trt)-OH、Fmoc-Glu(OtBu)-OH、Fmoc-Gly-OH、Fmoc-His(Trt)-OH、Fmoc-Ile-OH、Fmoc-Leu-OH、Fmoc-Lys(BOC)-OH、Fmoc-Met-OH、Fmoc-Phe-OH、Fmoc-Pro-OH、Fmoc-Ser(tBu)-OH、Fmoc-Thr(tBu)-OH、Fmoc-Trp(BOC)-OH、Fmoc-Tyr(tBu)-OH和Fmoc-Val-OH(从例如Anaspec、Bachem、Iris Biotech或NovabioChem供应)。例如使用基于Fmoc的化学物质，在来自Protein Technologies的Prelude固相肽合成器(Tucson,Ariz.85714U.S.A.)上进行树脂结合肽合成。用于制备C端羧酸的一种适合树脂是可以从NovabioChem获得的预先负载的低负载王氏树脂(例如低负载fmoc-Thr(tBu)-王氏树脂，LL，0.27mmol/g)。用于合成具有C端酰胺的肽的一适合树脂是可以从Matrix-Innovation获得的PAL-ChemMatrix树脂。N端α氨基用Boc保护。Fmoc脱除保护可以用NMP中20％哌啶进行2×3分钟实现。偶合化学物质是NMP中DIC/HOAt/三甲吡啶。将氨基酸/HOAt溶液(0.3M/0.3M于NMP中，3-10倍摩尔过量)添加到树脂，接着添加相同摩尔等量的DIC(3M于NMP中)，接着添加三甲吡啶(3M于NMP中)。举例来说，每次偶合，对于以下规模反应，使用如下量的0.3M氨基酸/HOAt溶液：规模/毫升，0.05mmol/1.5mL、0.10mmol/3.0mL、0.25mmol/7.5mL。偶合时间是2×30分钟或者1×240分钟。合成后，用DCM洗涤树脂，通过用TFA/TIS/水(95/2.5/2.5)处理2-3小时，接着用二乙醚沉淀将肽从树脂裂解。将沉淀用二乙醚洗涤。将粗肽溶于水与MeCN的适合混合物，例如水/MeCN(4:1)，并通过反相制备型HPLC(Waters Deltaprep 4000或Gilson)在含有C18硅胶的柱上纯化。在含有0.1％TFA的水中用增加梯度的MeCN进行洗脱。通过分析型HPLC或UPLC检查相关洗脱份。将含有纯靶肽的洗脱份混合并在减压下浓缩。分析所得溶液(HPLC、LCMS)并使用化学发光氮特定HPLC检测器(Antek 8060HPLC-CLND)或通过测量280nm下的UV吸收来定量产物。将产物分配到玻璃小瓶中。将小瓶用Millipore玻璃纤维预过滤器盖上。冻干得到呈白色固体状的肽三氟乙酸盐。可以使用LCMS和/或UPLC，例如使用本领域中已知的标准方法检测和表征所得肽。可以在由Waters Acquity UPLC系统和来自Micromass的LCT Premier XE质谱仪组成的设置上进行LCMS。UPLC泵连接至含有以下各者的两个洗脱剂储蓄器：A)含0.1％甲酸的水；和B)含0.1％甲酸的乙腈。在室温下通过注射适当体积的样品(优选地，2-10μl)至用A和B的梯度洗脱的柱上来进行分析。UPLC条件、检测器设置和质谱仪设置是：柱：Waters Acquity UPLC BEH，C-18,1.7μm，2.1mm×50mm。梯度：在4.0分钟(或者8.0分钟)期间在0.4ml/分钟下线性5％-95％乙腈。检测：214nm(从TUV(可调UV检测器)模拟输出)。MS电离模式：API-ES Scan：100-2000amu(或者500-2000amu),步长0.1amu。UPLC方法是众所周知的。可以使用的方法的非限制性实例描述于例如2013年2月28日公布的US 2013/0053310A1的第16-17页。

F.组合物

至少一种本文公开的工程化蛋白质可以与至少一种第二组分组合以形成营养组合物。在一些实施方案中，组合物中氨基酸的唯一来源是至少一种工程化蛋白质。在此类实施方案中，组合物的氨基酸组成与至少一种工程化蛋白质的氨基酸组成相同。在一些实施方案中，所述组合物包含至少一种工程化蛋白质和至少一种第二蛋白质。在一些实施方案中，至少一种第二蛋白质是工程化蛋白质，而在其它实施方案中，至少一种第二蛋白质不是工程化蛋白质。在一些实施方案中，所述组合物包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多种工程化蛋白质。在一些实施方案中，所述组合物包含0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多种非工程化蛋白质。在一些实施方案中，所述组合物包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多种工程化蛋白质，且所述组合物包含0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多种非工程化蛋白质。

在一些实施方案中，如前段中所描述的营养组合物进一步包含至少一种多肽、至少一种肽和至少一种游离氨基酸中至少一者。在一些实施方案中，营养组合物包含至少一种多肽和至少一种肽。在一些实施方案中，营养组合物包含至少一种多肽和至少一种游离氨基酸。在一些实施方案中，营养组合物包含至少一种肽和至少一种游离氨基酸。在一些实施方案中，至少一种多肽、至少一种肽和/或至少一种游离氨基酸包含选自1)支链氨基酸、2)亮氨酸和3)必需氨基酸的氨基酸。在一些实施方案中，至少一种多肽、至少一种肽和/或至少一种游离氨基酸由选自1)支链氨基酸、2)亮氨酸和3)必需氨基酸的氨基酸组成。

通过添加多肽、肽和游离氨基酸中至少一者至营养组合物，可以增加组合物中存在的支链氨基酸、亮氨酸和必需氨基酸中至少一者与总氨基酸的比例。

在一些实施方案中，组合物包含至少一种碳水化合物。“碳水化合物”是指糖或糖的聚合物。术语“糖”、“多糖”、“碳水化合物”和“寡糖”可以互换使用。大部分的碳水化合物是具有许多羟基的醛或酮，通常分子的每个碳原子上一个。碳水化合物一般具有分子式C_nH_2nO_n。碳水化合物可以是单糖、二糖、三糖、寡糖或多糖。最基本的碳水化合物是单糖，例如葡萄糖、蔗糖、半乳糖、甘露糖、核糖、阿拉伯糖、木糖和果糖。二糖是两种接合的单糖。示例性二糖包括蔗糖、麦芽糖、纤维二糖和乳糖。典型地，寡糖包括三至六个单糖单元(例如，棉子糖、水苏糖)，且多糖包括六个或更多个单糖单位。示例性多糖包括淀粉、糖原和纤维素。碳水化合物可以含有改性糖单元，例如其中去除羟基的2’-脱氧核糖、其中羟基经氟置换的2’-氟核糖、或N-乙酰葡糖胺、葡萄糖的含氮形式(例如，2’-氟核糖、脱氧核糖和己糖)。碳水化合物可以呈许多不同的形式存在，例如构象异构体、环状形式、非环状形式、立体异构体、互变异构体、异头物和同分异构体。

在一些实施方案中，组合物包含至少一种脂质。如本文所用，“脂质”包括脂肪、油、甘油三酸酯、胆固醇、磷脂、任何形式的脂肪酸，包括游离脂肪酸。脂肪、油和脂肪酸可以是饱和、不饱和(顺式或反式)或部分不饱和(顺式或反式)的。在一些实施方案中，脂质包含选自以下的至少一种脂肪酸：月桂酸(12:0)、肉豆蔻酸(14:0)、棕榈酸(16:0)、棕榈油酸(16:1)、十七烷酸(17:0)、十七碳烯酸(17:1)、硬脂酸(18:0)、油酸(18:1)、亚油酸(18:2)、亚麻酸(18:3)、十八碳四烯酸(18:4)、花生酸(20:0)、二十烯酸(20:1)、二十碳二烯酸(20:2)、二十碳四烯酸(20:4)、二十碳五烯酸(20:5)(EPA)、二十二烷酸(22:0)、二十二烯酸(22:1)、二十二碳五烯酸(22:5)、二十二碳六烯酸(22:6)(DHA)和二十四酸(24:0)。在一些实施方案中，组合物包含至少一种改性脂质，例如已经通过烹调改性的脂质。

在一些实施方案中，组合物包含至少一种补充矿物质或矿物质来源。矿物质的实例包括不限于：氯化物、钠、钙、铁、铬、铜、碘、锌、镁、锰、钼、磷、钾和硒。任何上述矿物质的适合形式包括可溶矿物盐、微溶矿物盐、不溶矿物盐、螯合矿物质、矿物质复合物、非反应性矿物质(例如羰基矿物质)和还原矿物质和其组合。

在一些实施方案中，组合物包含至少一种补充维生素。至少一种维生素可以是脂溶性或水溶性维生素。适合的维生素包括(但不限于)维生素C、维生素A、维生素E、维生素B12、维生素K、核黄素、烟酸、维生素D、维生素B6、叶酸、吡哆醇、硫胺、泛酸和生物素。上述任一者的适合形式是维生素的盐、维生素的衍生物、具有维生素相同或类似活性的化合物和维生素的代谢物。

在一些实施方案中，组合物包含赋形剂。适合赋形剂的非限制性实例包括缓冲剂、防腐剂、稳定剂、粘合剂、压缩剂、润滑剂、分散增强剂、崩解剂、调味剂、甜味剂和着色剂。

在一些实施方案中，赋形剂是缓冲剂。适合缓冲剂的非限制性实例包括柠檬酸钠、碳酸镁、碳酸氢镁、碳酸钙和碳酸氢钙。

在一些实施方案中，赋形剂包括防腐剂。适合防腐剂的非限制性实例包括抗氧化剂，例如α-生育酚和抗坏血酸盐；和抗菌剂，例如对羟基苯甲酸酯、氯代丁醇和苯酚。

在一些实施方案中，组合物包含粘合剂作为赋形剂。适合粘合剂的非限制性实例包括淀粉、预胶凝淀粉、明胶、聚乙烯吡咯烷酮、纤维素、甲基纤维素、羧甲基纤维素钠、乙基纤维素、聚丙烯酰胺、聚乙烯噁唑烷酮、聚乙烯基醇、C₁₂-C₁₈脂肪酸醇、聚乙二醇、多元醇、糖类、寡糖和其组合。

在一些实施方案中，组合物包含润滑剂作为赋形剂。适合润滑剂的非限制性实例包括硬脂酸镁、硬脂酸钙、硬脂酸锌、氢化植物油、sterotex、聚氧化乙烯单硬脂酸酯、滑石、聚乙二醇、苯甲酸钠、十二烷基硫酸钠、十二烷基硫酸镁和轻质矿物油。

在一些实施方案中，组合物包含分散增强剂作为赋形剂。适合分散剂的非限制性实例包括淀粉、海藻酸、聚乙烯吡咯烷酮、瓜耳豆胶、高岭土、膨润土、精制木纤维素、羟基乙酸淀粉钠、异非晶形硅酸盐和微晶纤维素作为高HLB乳化剂表面活性剂。

在一些实施方案中，组合物包含崩解剂作为赋形剂。在一些实施方案中，崩解剂是非泡腾的崩解剂。适合非泡腾的崩解剂的非限制性实例包括淀粉(例如玉米淀粉、马铃薯淀粉、其预胶凝化和改性淀粉)、甜味剂、粘土(例如膨润土)、微晶纤维素、海藻酸盐、羟基乙酸淀粉钠、树胶(例如琼脂、瓜尔豆、槐豆、梧桐胶、果胶和黄蓍胶)。在一些实施方案中，崩解剂是一种泡腾的崩解剂。适合的泡腾的崩解剂的非限制性实例包括碳酸氢钠与柠檬酸组合，和碳酸氢钠与酒石酸组合。

在一些实施方案中，赋形剂包括调味剂。调味剂可以选自合成的调料油和调味香料；天然油；来自植物、叶子、花和果实的提取物；和其组合。在一些实施方案中，调味剂选自肉桂油；冬青油；胡椒薄荷油；三叶草油；海伊油；茴香油；桉树；香子兰；柑桔油，例如柠檬油、橙油、葡萄和葡萄柚油；和水果香精，包括苹果、桃、梨、草莓、树莓、樱桃、李子、菠萝和杏。

在一些实施方案中，赋形剂包括甜味剂。适合甜味剂的非限制性实例包括葡萄糖(玉米糖浆)、右旋糖、转化糖、果糖和其混合物(当不用作载剂时)；糖精和其各种盐，例如钠盐；二肽甜味剂，例如阿斯巴甜；二氢查耳酮化合物、甘草甜素；甜菊(Stevia Rebaudiana)(甜菊苷)；蔗糖的氯基衍生物，例如三氯半乳蔗糖；和糖醇，例如山梨糖醇、甘露糖醇、木糖醇等。还涵盖氢化淀粉水解产物和合成甜味剂3,6-二氢-6-甲基-1,2,3-氧杂噻嗪-4-酮-2,2-二氧化物，特别是其钾盐(乙酰舒泛钾)以及钠和钙盐。

在一些实施方案中，组合物包含着色剂。适合着色剂的非限制性实例包括食品、药物和化妆品颜料(FD&C)、药物和化妆品颜料(D&C)以及外用药物和化妆品颜料(Ext.D&C)。着色剂可以用作染料或其对应色淀。

制剂中赋形剂或赋形剂的组合的重量分数通常是组合物中蛋白质的总重量的约50％或更少、约45％或更少、约40％或更少、约35％或更少、约30％或更少、约25％或更少、约20％或更少、约15％或更少、约10％或更少、约5％或更少、约2％或更少或约1％或更少。

本文公开的工程化蛋白质和营养组合物可以配制成多种形式并通过许多不同的方式施用。组合物可以经口、直肠或肠胃外以含有通常可接受的载剂、佐剂和媒介物(视需要而定)的制剂施用。如本文所用，术语“肠胃外”包括皮下、静脉内、肌肉内或胸骨内注射和输注技术。在一示例性实施方案中，工程化蛋白质或营养组合物经口施用。

用于经口施用的固体剂型包括胶囊、片剂、囊片、丸剂、糖衣锭、口含锭、粉剂和颗粒。胶囊典型地包含含有工程化蛋白质或组合物的核心材料和囊封核心材料的外壳壁。在一些实施方案中，核心材料包括固体、液体和乳液中至少一者。在一些实施方案中，外壳壁材料包括软明胶、硬明胶和聚合物中至少一者。适合的聚合物包括(但不限于)：纤维素聚合物，例如羟丙基纤维素、羟乙基纤维素、羟丙基甲基纤维素(HPMC)、甲基纤维素、乙基纤维素、醋酸纤维素、邻苯二甲酸醋酸纤维素、偏苯三酸醋酸纤维素、邻苯二甲酸羟丙基甲基纤维素、丁二酸羟丙基甲基纤维素和羧甲基纤维素钠；丙烯酸聚合物和共聚物，例如由丙烯酸、甲基丙烯酸、丙烯酸甲酯、铵基甲基丙烯酸酯、丙烯酸乙酯、甲基丙烯酸甲酯和/或甲基丙烯酸乙酯形成的聚合物和共聚物(例如，以商品名“Eudragit”出售的那些共聚物)；乙烯基聚合物和共聚物，例如聚乙烯基吡咯烷酮、聚乙酸乙烯酯、聚乙酸乙烯酯邻苯二甲酸盐、乙酸乙烯酯巴豆酸共聚物和乙烯-醋酸乙烯酯共聚物；和虫胶(经纯化虫胶)。在一些实施方案中，至少一种聚合物用作味道掩蔽剂。

片剂、丸剂等可以压缩，多重压缩，多重分层，和/或包衣。包衣可以是单次或多次。在一个实施方案中，包衣材料包括从植物、真菌和微生物中至少一者提取的糖、多糖和糖蛋白中至少一者。非限制性实例包括玉米淀粉、小麦淀粉、马铃薯淀粉、木薯淀粉、纤维素、半纤维素、葡聚糖、麦芽糖糊精、环糊精、菊粉、果胶、甘露聚糖、阿拉伯树胶、刺槐豆胶、牧豆树胶、瓜耳豆胶、刺梧桐树胶、印度胶、黄蓍胶、富诺林(funori)、角叉菜胶、琼脂、海藻酸盐、壳聚糖或洁冷胶。在一些实施方案中，包衣材料包含蛋白质。在一些实施方案中，包衣材料包含脂肪和油中至少一者。在一些实施方案中，脂肪和油中至少一者高温熔融。在一些实施方案中，脂肪和油中至少一者经氢化或部分氢化。在一些实施方案中，脂肪和油中至少一者来源于植物。在一些实施方案中，脂肪和油中至少一者包含甘油酯、游离脂肪酸和脂肪酸酯中至少一者。在一些实施方案中，包衣材料包含至少一种可食用蜡。可食用蜡可以来源于动物、昆虫或植物。非限制性实例包括蜂蜡、羊毛脂、杨梅蜡、巴西棕榈蜡和米糠蜡。片剂和丸剂可以另外制备有肠溶衣。

或者，包括本文公开的工程化蛋白质和营养组合物的粉剂或颗粒可以并入食品中。在一些实施方案中，食品是用于经口施用的饮料。适合饮料的非限制性实例包括果汁、水果饮料、人工调味饮料、人工加糖饮料、碳酸饮料、运动员饮料、液体每日产品、牛奶冰淇淋搅合饮料、酒精饮料、含咖啡因饮料、婴儿配方奶粉等。用于经口施用的其它适合方式包括水性和非水性溶液、乳液、悬浮液和从非泡腾颗粒复原的溶液和/或悬浮液，其含有适合溶剂、防腐剂、乳化剂、悬浮剂、稀释剂、甜味剂、着色剂和调味剂中至少一者。

在一些实施方案中，食品是固体食品。固体食品的适合实例包括不限于食品条、小吃条、饼干、核仁巧克力饼、松饼、脆点心、冰淇淋条、冷冻酸奶酪条等。

在一些实施方案中，本文公开的蛋白质和组合物并入治疗食品中。在一些实施方案中，治疗食品是任选地含有一些或所有必需常量营养素和微量营养素的备用食品。在一些实施方案中，本文公开的蛋白质和组合物并入设计成能掺合至存在的膳食中的辅助食品中。在一些实施方案中，补充食品含有一些或所有必需常量营养素和微量营养素。在一些实施方案中，本文公开的蛋白质和组合物与现有的食物掺合或添加至现有的食物中以加强食物的蛋白质营养。实例包括食物原材料(谷物、盐、糖、烹饪用油、人造黄油)、饮料(咖啡、茶、苏打、啤酒、烈性酒、运动员饮料)、小吃、甜食和其它食品。

本文公开的组合物可以用于增加例如肌肉质量、强度和身体机能、生热作用、代谢消耗、饱腹感、线粒体生物发生、重量或脂肪损失和瘦体组成中至少一者的方法中。

制剂可以在制剂中含有每100千卡多达约25g的营养多肽(25g/100kcal)，意指制剂中存在的所有或基本上所有能量均呈营养多肽的形式。更典型地，制剂中存在的能量的约99％、98％、97％、96％、95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％、5％或少于5％呈营养多肽的形式。在其它制剂中，营养多肽以足够提供等于或大于多肽的参考每日摄入值的至少约0.1％的营养益处的量存在。蛋白质的适合的参考每日摄入值是本领域众所周知的。参见例如，Dietary ReferenceIntakes for Energy,Carbohydrate,Fiber,Fat,Fatty Acids,Cholesterol,Protein and Amino Acids,Institute of Medicine of the NationalAcademies,2005,National Academies Press,Washington DC。蛋白质的参考每日摄入值是通过蛋白质和分离的氨基酸提供每日热量的10％-35％的范围。基于年龄的另一参考每日摄入值以每日蛋白质的克数提供：儿童年龄1-3：13g，儿童年龄4-8：19g，儿童年龄9-13：34g，女孩年龄14-18：46，男孩年龄14-18：52，女性年龄19-70+：46，和男性年龄19-70+：56。在其它制剂中，营养多肽以向罹患蛋白质营养不良或特征为蛋白质营养不良的疾病、病症或病状的人受试者足够提供营养益处的量存在。蛋白质营养不良通常是一种产前或儿童期病状。具有足够能量摄入的蛋白质营养不良被称为恶性营养不良病或低白蛋白性营养不良，而所有形式的不足够的能量摄入，包括不足够的蛋白质摄入，被称为消瘦症。营养充分的个体可能由消耗太少的蛋白质或消耗缺乏营养氨基酸的蛋白质而发展肌肉减少症。产前的蛋白质营养不良可以通过向怀孕母亲施用本文中描述的营养多肽来预防、治疗或减少，且新生儿的蛋白质营养不良可以通过向哺乳母亲施用本文中描述的营养多肽来预防、治疗或减少。成年人中，蛋白质营养不良通常是继发于癌症、慢性肾脏疾病出现，且通常在老年人中出现。另外，蛋白质营养不良可能是慢性或急性的。急性蛋白质营养不良的实例在例如败血症等急性病或疾病期间或在例如手术、热损伤(例如灼伤)或导致基本组织重塑的类似事件等外伤性损伤恢复期间发生。其它能由本文中描述的方法和组合物治疗的急性病包括肌肉减少症、恶病质、糖尿病、胰岛素抗性和肥胖症。

制剂可以含有在由人受试者消耗时足以提供饱腹感的量的营养多肽，意指受试者饥饿或进食的欲望减少或不存在。此类制剂一般比同等热量的富含碳水化合物的食物具有更高的饱腹感指数。

制剂可以含有基于营养多肽的浓度(例如，，基于重量/重量)的量的营养多肽，使得营养多肽占制剂重量的多达100％，意指制剂中存在的所有或基本上所有物质都呈营养多肽形式。更典型地，制剂中存在的重量的约99％、98％、97％、96％、95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％、5％或少于5％呈营养多肽的形式。在一些实施方案中，制剂含有10mg、100mg、500mg、750mg、1g、2g、3g、4g、5g、6g、7g、8g、9、10g、15g、20g、25g、30g、35g、40g、45g、50g、60g、70g、80g、90g、100g或大于100g营养多肽。

优选地，本文中提供的制剂基本上不含非食用产品。非食用产品常常在现有技术的重组蛋白质的制剂中发现，由酵母、细菌、藻类、昆虫、哺乳动物或其它表达系统产生。示例性非食用产品包括表面活性剂、聚乙烯醇、丙二醇、聚乙酸乙烯酯、聚乙烯吡咯烷酮、非食用多元酸或多元醇、脂肪醇、磺酸烷基苯甲基酯、烷基葡糖苷或对羟基苯甲酸甲酯。

在一些方面，所提供的制剂含有其它物质，例如促味剂、营养碳水化合物和/或营养脂质。另外，制剂可以包括膨胀剂、调质剂和填充剂。

在优选的实施方案中，本文中提供的营养多肽是分离的和/或基本上纯化的。本文中提供的营养多肽和组合物和制剂基本上不含非蛋白质组分。此类非蛋白质组分一般存在于例如乳清、酪蛋白、蛋和大豆制剂等蛋白质制剂中，其含有大量的与多肽复合的碳水化合物和脂质且导致胃肠道中蛋白质消化延迟和不完全。此类非蛋白质组分也可以包括DNA。因此，营养多肽、组合物和制剂特征在于，与食物来源的多肽和多肽混合物相比可消化率提高和变应原性降低。在一些实施方案中，可消化率提高意指当被消耗或以其它方式施用至人受试者的胃肠道时消化速率更快。在一替代实施方案中，可消化率提高意指当被消耗或以其它方式施用至人受试者的胃肠道时消化速率更慢，例如在人罹患蛋白质吸收能力受损的情况下。此外，这些制剂和组合物特征在于基于给定单位时间，从一段时间和/或消化产品更可再生的可消化率。在某些实施方案中，相对于参考多肽或参考多肽混合物，营养多肽的脂质和/或碳水化合物和任选地一种或多种降低可消化性和/或增加变应原性的其它物质减少至少10％，例如减少20％、30％、40％、50％、60％、70％、80％、90％、95％、99％或大于99％。在某些实施方案中，营养制剂含有营养碳水化合物和/或营养脂质，其针对可消化性和/或降低的变应原性来选择。

本文公开的组合物可以用于增加例如肌肉质量、强度和身体机能、生热作用、代谢消耗、饱腹感、线粒体生物产生、重量或脂肪损失和瘦体组成中至少一者的方法中。

G.使用方法

在一些实施方案中，将本文公开的蛋白质和组合物施用至患者或使用者(有时统称为“受试者”)。如本文所用，“施用”和“施药”涵盖其中一个人指导另一个人以某种方式和/或为达成某种目的来消耗蛋白质或组合物的实施方案，以及使用者独立于从第二个人接收的任何指令或随其而变，以某种方式和/或为达成某种目的来使用蛋白质或组合物的情况。其中一个人指导另一个人以某种方式和/或为达成某种目的来消耗蛋白质或组合物的实施方案的非限制性实例包括当医师为患者规定行为和/或治疗过程时，当训练员建议使用者(例如运动员)遵循具体的行为和/或治疗过程时，以及当制造商、分销商或营销者例如通过结合产品出售或销售一起提供的广告或包装或其它材料上的标记向最终使用者推荐使用情况时。

在一些实施方案中，蛋白质或组合物以一种剂型提供。在一些实施方案中，剂型被设计用于施用至少一种本文公开的蛋白质，其中施用的蛋白质的总量选自0.1g至1g、1g至5g、2g至10g、5g至15g、10g至20g、15g至25g、20g至40g、25-50g和30-60g。在一些实施方案中，剂型被设计用于施用至少一种本文公开的蛋白质，其中施用的蛋白质的总量选自约0.1g、0.1g-1g、1g、2g、3g、4g、5g、6g、7g、8g、9g、10g、15g、20g、25g、30g、35g、40g、45g、50g、55g、60g、65g、70g、75g、80g、85g、90g、95g和100g。

在一些实施方案中，剂型被设计用于施用至少一种本文公开的蛋白质，其中施用的必需氨基酸的总量选自0.1g至1g、1g至5g、2g至10g、5g至15g、10g至20g和1-30g。在一些实施方案中，剂型被设计用于施用至少一种本文公开的蛋白质，其中施用的蛋白质的总量选自约0.1g、0.1-1g、1g、2g、3g、4g、5g、6g、7g、8g、9g、10g、15g、20g、25g、30g、35g、40g、45g、50g、55g、60g、65g、70g、75g、80g、85g、90g、95g和100g。

在一些实施方案中，蛋白质或组合物以一天0.1g至1g、一天1g至5g、一天2g至10g、一天5g至15g、一天10g至20g、一天15g至30g、一天20g至40g、一天25g至50g、一天40g至80g、一天50g至100g或更高的速率消耗。

在受试者摄入的总蛋白质的一些实施方案中，在用餐期期间至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或约100％的受试者摄入的总蛋白质由根据本公开的至少一种蛋白质组成。在受试者摄入的总蛋白质的一些实施方案中，在用餐期期间5％至100％的受试者摄入的总蛋白质、5％至90％的受试者摄入的总蛋白质、5％至80％的受试者摄入的总蛋白质、5％至70％的受试者摄入的总蛋白质、5％至60％的受试者摄入的总蛋白质、5％至50％的受试者摄入的总蛋白质、5％至40％的受试者摄入的总蛋白质、5％至30％的受试者摄入的总蛋白质、5％至20％的受试者摄入的总蛋白质、5％至10％的受试者摄入的总蛋白质、10％至100％的受试者摄入的总蛋白质、10％至100％的受试者摄入的总蛋白质、20％至100％的受试者摄入的总蛋白质、30％至100％的受试者摄入的总蛋白质、40％至100％的受试者摄入的总蛋白质、50％至100％的受试者摄入的总蛋白质、60％至100％的受试者摄入的总蛋白质、70％至100％的受试者摄入的总蛋白质、80％至100％的受试者摄入的总蛋白质或90％至100％的受试者摄入的总蛋白质由根据本公开的至少一种蛋白质组成。在一些实施方案中，在用餐期期间，至少一种本公开的蛋白质占受试者热量摄入的至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％或至少50％。

在一些实施方案中，至少一种根据本公开的蛋白质包括至少2种本公开的蛋白质、至少3种本公开的蛋白质、至少4种本公开的蛋白质、至少5种本公开的蛋白质、至少6种本公开的蛋白质、至少7种本公开的蛋白质、至少8种本公开的蛋白质、至少9种本公开的蛋白质、至少10种本公开的蛋白质或更多种。

在一些实施方案中，用餐期是1餐、2餐、3餐、至少1天、至少2天、至少3天、至少4天、至少5天、至少6天、至少1周、至少2周、至少3周、至少4周、至少1个月、至少2个月、至少3个月、至少4个月、至少5个月、至少6个月或至少1年。在一些实施方案中，用餐期为1天至1周、1周至4周、1个月至3个月、3个月至6个月或6个月至1年。

临床研究提供了蛋白质放置肌肉蛋白质因年老或卧床休息而损失的证据。具体地说，研究已经显示，在长期卧床休息期间蛋白质补充增加肌肉分数合成速率(FSR)，在长期卧床休息期间维持腿部质量和强度，增加瘦体重，改善步态和平衡的功能量度，且可以用作因不动或长期卧床休息而处于肌肉减少症风险下的个体切实可行的介入。参见例如，Paddon-Jones D等人,J Clin Endocrinol Metab 2004,89:4351-4358；Ferrando,A等人Clinical Nutrition 20091-6；KatsanosC等人Am J Physiol Endocrinol Metab.2006,291:381-387。

关于运动员中增加肌肉蛋白质合成代谢的研究已经显示在运动后提供的蛋白质促进肌肉过度生长至大于单独运动所实现的过度生长的程度。也已经显示运动后提供的蛋白质支持蛋白质合成，而不会使蛋白质分解有任何增加，导致净的正蛋白质平衡和肌肉质量增加。虽然肌肉蛋白质合成似乎以剂量反应方式对必需氨基酸补充起反应，但不是所有的蛋白质在建立肌肉上是都同等的。举例来说，氨基酸亮氨酸是刺激肌肉蛋白质合成的一个重要因素。参见例如，Borscheim E等人Am J Physiol Endocrinol Metab 2002,283:E648-E657；BorsheimE等人Clin Nutr.2008,27:189-95；Esmarck B等人J Physiol 2001,535:301-311；Moore D等人Am J Clin Nutr 2009,89:161-8。

在另一方面，本公开提供了维持或增加受试者中肌肉质量、肌肉强度和功能性能中至少一者的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物。在一些实施方案中，受试者是年老、病情危急和罹患蛋白质-能量营养不良症中的至少一者。在一些实施方案中，受试者配合运动，消耗足够量的本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物。在一些实施方案中，本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物被受试者通过口腔、肠或肠胃外途径消耗。在一些实施方案中，本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物被受试者通过口腔途径消耗。在一些实施方案中，本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物被受试者通过肠途径消耗。

在另一方面，本公开提供了维持或实现受试者中合乎需要的体重指数的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物。在一些实施方案中，受试者是年老、病情危急和罹患蛋白质-能量营养不良症中的至少一者。在一些实施方案中，受试者配合运动，消耗足够量的本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物。在一些实施方案中，本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物被受试者通过口腔、肠或肠胃外途径消耗。

在另一方面，本公开提供了向患有蛋白质-能量营养不良症的受试者提供蛋白质的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物。在一些实施方案中，本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物被受试者通过口腔、肠或肠胃外途径消耗。

已经提出癌症患者和其它罹患恶病质的患者中对必需氨基酸补充的需要。小鼠中的饮食研究已经显示通过必需氨基酸的饮食介入，患有恶病质癌症的小鼠具有存活和功能益处。除癌症以外，必需氨基酸补充也已经在罹患有运动困难的其它疾病且因此罹患肌肉退化，例如慢性阻塞性肺病、慢性心力衰竭、HIV和其它疾病病况的患者中显示例如提高肌肉功能和增肌等益处。

研究已经显示特定氨基酸在管理恶病质中具有优势。认为饮食中相对较高含量的BCAA和Leu在恶病质中通过信号传导增加翻译、增强胰岛素释放和抑制蛋白质降解，促进总蛋白合成，而具有积极作用。因此，消耗增加的饮食BCAA(一般)和/或Leu(具体)将必定有助于减少或逆转恶病质的影响。因为氮平衡在对抗恶病质的根本原因中是重要的，所以认为消耗增加的饮食谷氨酰胺和/或精氨酸将必定有助于减少或逆转恶病质的影响。参见例如，Op den Kamp C,Langen R,Haegens A,Schols A.“Muscle atrophy in cachexia:candietary protein tip the balance？”Current Opinion in Clinical Nutritionand Metabolic Care 2009,12:611-616；Poon RT-P,Yu W-C,Fan S-T等人,“Long-term oral branched chain amino acids in patients undergoingchemoembolization for hepatocellular carcinoma:a randomized trial.”Aliment Pharmacol Ther 2004；19:779-788；Tayek JA,Bistrian BR,HehirDJ,Martin R,Moldawer LL,Blackburn GL.“Improved protein kineticsand albumin synthesis by branched chain amino acid-enriched totalparenteral nutrition in cancer cachexia.”Cancer.1986；58:147-57；Xi P,Jiang Z,Zheng C,Lin Y,Wu G“Regulation of protein metabolism byglutamine:implications for nutrition and health.”Front Biosci.2011年1月1日；16:578-97。

因此，本文中还提供了治疗受试者的恶病质的方法。在一些实施方案中，对于患有恶病质的受试者来说，本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物的足够量是使得此人所摄入的本公开的蛋白质的量满足或超过代谢需要(其常常升高)的量。每日1.5g/kg体重的蛋白质摄入量或15％-20％的总热量摄入似乎是患有恶病质之人的适当目标。在一些实施方案中，受试者消耗的所有蛋白质均为根据本公开的蛋白质。在一些实施方案中，根据本公开的蛋白质与蛋白质和/或游离氨基酸的其它来源组合以提供受试者的总蛋白质摄入量。在一些实施方案中，受试者是年老、病情危急和罹患蛋白质-能量营养不良症中的至少一者。在一些实施方案中，受试者罹患使运动困难，因此引起肌肉退化的疾病，例如慢性阻塞性肺病、慢性心力衰竭、HIV、癌症和其它疾病病况。在一些实施方案中，受试者配合运动，消耗根据本公开的蛋白质、根据本公开的组合物或通过根据本公开的方法制备的组合物。在一些实施方案中，根据本公开的蛋白质、根据本公开的组合物或通过根据本公开方法制备的组合物被受试者通过口腔、肠或肠胃外途径消耗。

肌肉减少症是骨骼肌肉质量(典型地在25岁后每年损失0.5-1％)、品质和强度与年老相关联的退化损失。肌肉减少症是脆弱综合症的组分。老年肌肉减少症欧洲工作组(EWGSOP)已经为年龄相关的肌肉减少症开发了切实可行的临床定义和一致诊断标准。为诊断肌肉减少症，工作组已经建议使用低肌肉质量与低肌肉功能的存在(强度或性能)。肌肉减少症特征首先在于肌肉萎缩(肌肉尺寸下降)以及肌肉组织“质量”下降，这些由如脂肪替换肌肉纤维、纤维化增加、肌肉代谢改变、氧化应激和神经肌肉接头退化等因素引起。组合起来这些改变导致肌肉功能逐渐损失且最终虚弱。虚弱是常见的老人综合症，其体现了老年人中高风险的健康与功能极大下降。虚弱原因可以包括肌肉减少症、骨质疏松症和肌无力。肌无力又名肌肉疲劳，(或“没有力气”)是指不能用骨骼肌来发力。虚弱常常跟随着肌肉萎缩和活动下降，例如在因疾病而长期卧床后。肌无力还会因肌肉减少症而逐渐发作。

在肌肉减少症或虚弱在受试者中出现后，本公开的蛋白质可用于治疗肌肉减少症或虚弱，或用于预防肌肉减少症或虚弱在作为风险群组一员的受试者中发作。在一些实施方案中，受试者消耗的所有蛋白质都是根据本公开的蛋白质。在一些实施方案中，根据本公开的蛋白质与蛋白质和/或游离氨基酸的其它来源组合以提供受试者的总蛋白质摄入量。在一些实施方案中，受试者是年老、病情危急和罹患蛋白质-能量营养不良症中的至少一者。在一些实施方案中，受试者配合运动，消耗根据本公开的蛋白质、根据本公开的组合物或通过根据本公开的方法制备的组合物。在一些实施方案中，根据本公开的蛋白质、根据本公开的组合物或通过根据本公开方法制备的组合物被受试者通过口腔、肠或肠胃外途径消耗。

肥胖症是与一大群共病相关联的多因素病症，包括高血压、2型糖尿病、血脂异常、冠状动脉性心脏病、中风、癌症(例如，子宫内膜癌、乳癌和结肠癌)、骨关节炎、睡眠呼吸暂停和呼吸问题。被定义为体重指数>30kg/m2的肥胖症的发生率在美国从15％(1976-1980)显著增加至33％(2003-2004)，且其继续增长。虽然促进肥胖症的机制是复杂的且涉及行为组分与激素、遗传和代谢过程的相互作用，但肥胖症主要被视为是一种依赖于生活方式的病状，其具有2个主要原因：过度的能量摄入和不足的身体活动。关于能量摄入，有证据说明饮食中蛋白质的比例适当增加，同时控制总能量摄入，可以改善身体结构，促进脂肪损失，且在重量减轻后改善体重的维持。认为与饮食蛋白质增加相关联的积极结果主要归因于与饱腹感增加、能量效率降低和/或生热作用增加、对身体结构(特别瘦肌肉质量)的积极作用以及血糖控制增强相关联的较低能量摄入。

与碳水化合物或脂肪的等热量摄入相比，饮食蛋白质更有效地增加膳食后能量消耗(参见例如，Dauncey M,Bingham S.“Dependence of24h energy expenditure in man on composition of the nutrient intake.”BrJ Nutr 1983,50:1-13；Karst H等人“Diet-induced thermogenesis in man:thermic effects of single proteins,carbohydrates and fats depending ontheir energy amount.”Ann Nutr Metab.1984,28:245-52；Tappy L等人“Thermic effect of infused amino acids in healthy humans and in subjectswith insulin resistance.”Am J Clin Nutr 1993,57(6):912-6)。此特性连同其它特性(诱发饱腹感；保存瘦体重)一起使得蛋白质成为在管理重量时指导的饮食的一种有吸引力的组分。由此类饮食引起的能量消耗增加可以部分地归因于如下事实：消化和代谢蛋白质的能量成本高于其它热量来源。包括蛋白质合成在内的蛋白质更新是一个耗能的过程。另外，高蛋白饮食也可以上调肝和棕色脂肪中的解偶联蛋白质，其绝对与能量消耗的增加相关。已经推理，不同的蛋白质对能量消耗可能具有独特的作用。

研究表明蛋白质、特别是具有高EAA和/或BCAA含量的蛋白质的摄入导致对生热作用和能量消耗的不同作用(参见例如，MikkelsenP.等人“Effect of fat-reduced diets on 24h energy expenditure:comparisons between animal protein,vegetable protein and carbohydrate.”Am J Clin Nutr 2000,72:1135-41；Acheson K.等人“Protein choicestargeting thermogenesis and metabolism.”Am J Clin Nutr 2011,93:525-34；Alfenas R.等人“Effects of protein quality on appetite andenergy metabolism in normal weight subjects”Arg Bras EndocrinolMetabol 2010,54(1):45-51；Lorenzen J.等人“The effect of milkproteins on appetite regulation and diet-induced thermogenesis.”J ClinNutr 201266(5):622-7)。另外，L-酪氨酸已经被确定为是在生热作用中起作用的氨基酸(参见例如，Belza A.等人“The beta-adrenergicantagonist propranolol partly abolishes thermogenic response to bioactivefood ingredients.”Metabolism 2009,58(8):1137-44)。进一步研究表明亮氨酸和精氨酸补充似乎通过将底物引导至瘦体重而非脂肪组织来改变能量代谢(Dulloo A.“The search for compounds that stimulatethermogenesis in obesity management:from pharmaceuticals tofunctional food ingredients.”Obes Rev 201112:866-83)。

总起来说，文献表明不同的蛋白质类型导致对生热作用的不同作用。因为认为富含EAA、BCAA和/或Tyr、Arg和Leu中至少一者的蛋白质或肽对生热作用具有刺激作用，且因为认为生热作用的刺激导致对重量管理的积极作用，所以本公开也提供可用于刺激生热作用和/或一般对重量管理产生积极作用的产品和方法。

更具体地说，本公开提供了增加受试者中生热作用的方法。在一些实施方案中，所述方法包括向所述受试者提供足够量的本公开的蛋白质、本公开的组合物或通过本公开的方法制备的组合物。在一些实施方案中，受试者肥胖。在一些实施方案中，受试者配合运动，消耗根据本公开的蛋白质、根据本公开的组合物或通过根据本公开的方法制备的组合物。在一些实施方案中，根据本公开的蛋白质、根据本公开的组合物或通过根据本公开方法制备的组合物被受试者通过口腔、肠或肠胃外途径消耗。

在基础水平下，出现过重病状的理由归因于能量摄入与能量消耗之间的不平衡。尝试在任何特定的时刻(饱食)和进食的时刻(饱腹感)减少食物已经成为近来研究的主要焦点。由于在用餐期间感觉满足且在用餐后感觉饱而减少的热量摄入由内部和外部信号的复杂相互作用产生。各种营养研究已经证明例如能量密度、含量、质地和味道等食物特性的变化影响饱食与饱腹感。

存在三种传递能量的常量营养物：脂肪、碳水化合物和蛋白质。一克蛋白质或碳水化合物提供4卡路里，而一克脂肪提供9卡路里。蛋白质一般比碳水化合物或脂肪在更大的程度上增加饱腹感，并且因此可以促进热量摄入的减少。然而，存在相当多的证据指示诱发饱腹感的蛋白质物质类型(参见例如，W.L.Hall等人,“Casein and wheyexert different effects on plasma amino acid profiles,gastrointestinalhormone secretion and appetite.”Br J Nutr.2003年2月,89(2):239-48；R.Abou-Samra等人,“Effect of different protein sources on satiation andshort-term satiety when consumed as a starter.”Nutr J.2011年12月23日,10:139；T.Akhavan等人,“Effect of premeal consumption of wheyprotein and its hydrolysate on food intake and postmeal glycemia andinsulin responses in young adults.”Am J Clin Nutr.2010年4月,91(4):966-75,Epub 2010年2月17日；MA Veldhorst“Dose-dependentsatiating effect of whey relative to casein or soy”Physiol Behav.2009年3月23日,96(4-5):675-82)。证据指示富含亮氨酸的蛋白质特别有效地诱发饱腹感(参见例如，Fromentin G等人“Peripheral and centralmechanisms involved in the control of food intake by dietary amino acidsand proteins.”Nutr Res Rev 201225:29-39)。

由于饮食蛋白质在诱发饱腹感中发挥作用，所以本文公开的工程化蛋白质和营养组合物可以用于诱发例如人等哺乳动物中的饱腹感反应。在一些实施方案中，工程化蛋白质的支链氨基酸残基与总氨基酸残基的比率等于或大于乳清蛋白、卵蛋白和大豆蛋白质中至少一者中存在的支链氨基酸残基与总氨基酸残基的比率。

在一些实施方案中，将至少一种本公开的工程化蛋白质或营养组合物并入受试者的饮食中具有至少一种选自以下的作用：诱发餐后饱腹感(包括通过抑制饥饿)、诱发生热作用、减少血糖反应、正面影响能量消耗和瘦体重、减少由进食过多所引起的重量增加和降低能量摄入。在一些实施方案中，将至少一种本公开的工程化蛋白质或营养组合物并入受试者的饮食中具有至少一种选自以下的作用：体脂肪较大损失、瘦组织较少损失、更佳的脂质型态和改善葡萄糖耐量和胰岛素敏感性。

在一些实施方案中，受试者以一天0.1g至1g、一天1g至5g、一天2g至10g、一天5g至15g、一天10g至20g、一天15g至30g、一天20g至40g、一天25g至50g、一天40g至80g、一天50g至100g或更高的速率消耗工程化蛋白质。在一些实施方案中，在1餐、1天、2天、3天、4天、5天、1周、2周、3周、1个月、1-3个月、2-6个月、6-12个月或更长时期期间内工程化蛋白质占受试者热量摄入的至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％或至少50％。

实施例

本文中描述的技术和方案的实例可见于Remington'sPharmaceutical Sciences,第16版,Osol,A.(编),1980中。

以下是用于进行本发明的特定实施方案的实施例。实施例仅仅是出于说明的目的而提供，且不欲以任何方式限制本发明的范围。努力确保关于使用的数字(例如，量、温度等)的准确性，但当然应允许一些实验误差和偏差。

除非另外指明，否则本发明的实施将采用在本领域的技能内的蛋白质化学、生物化学、重组DNA技术和药理学的常规方法。此类技术在文献中充分说明。参见例如，T.E.Creighton,Proteins:Structuresand Molecular Properties(W.H.Freeman and Company,1993)；A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,当前版本)；Sambrook等人,Molecular Cloning:A Laboratory Manual(第2版,1989)；MethodsIn Enzymology(S.Colowick和N.Kaplan编,Academic Press,Inc.)；Remington's Pharmaceutical Sciences,第18版(Easton,Pennsylvania:Mack Publishing Company,1990)；Carey和Sundberg Advanced OrganicChemistry第3版(Plenum Press)第A和B卷(1992)。

实施例1：构建蛋白质文库

在如UniProt数据库所定义的针对所选微生物的注解蛋白质组中鉴别参考分泌蛋白质。具体地说，鉴别已经观测到和/或被注解为存在于各种细胞质膜外部的蛋白质。此程序应用于枝顶孢属、曲霉属、金孢霉属、棒状杆菌属、镰刀菌属、青霉属、巴斯德毕赤氏酵母、根霉属、集胞藻属、聚球藻属、栓菌属和木霉属的所有种以及枯草杆菌、大肠杆菌和酿酒酵母，以建立蛋白质文库。来自每一属(种)的所选择的蛋白质使用其UniProt ID列在附录A中。

蛋白质和蛋白质片段的非限制性实例提供于以下实施例中。

实施例2：用于工程化的参考分泌蛋白质的选择

NCBI保守结构域数据库(Marchler-Bauer A.和Bryant,S.H.“CD-Search:protein domain annotations on the fly”.Nuc.Acid.Res.(2004)32:W327-W331)包括用于先前研究中以重新工程化蛋白质-蛋白质结合相互作用的蛋白质结构域和/或折叠(Binz,KH和Pluckthun,A.“Engineered proteins as specific binding reagents”.Curr.Op.Biotech.(2005)16:459-469；Gebauer,M.和Skerra,A.“Engineered proteinscaffolds as next-generation antibody therapeutics”.Curr.Op.Chem.Biol.(2009)13:245-255；Lehtio,J.,Teeri T.T.和Nygren P.A.“Alpha-AmylaseInhibitors Selected From a Combinatorial Library of a Cellulose BindingDomain Scaffold”.Proteins:Struct.,Func.,Gene,.(2000)41:316-322；以及Olson CA和Roberts RW.“Design,expression,and stability of adiverse protein library based on the human fibronectin type III domain”.Prot.Sci.(2007)16:476-484)。因而，数据库可以用于鉴别预期含有具有已知可变的位置或区域的坚固稳定的折叠的蛋白质骨架，其中此类可变位置或区域可以调整以匹配所需整个氨基酸分布。

在此实验中，针对此分析所选择的折叠/结构域为：锚蛋白重复序列、富含亮氨酸重复序列、三十四肽重复序列、犰狳重复序列、纤连蛋白III型结构域、类脂质运载蛋白结构域、扭结菌素、纤维素结合结构域、碳水化合物结合结构域、蛋白Z折叠、PDZ结构域、SH3结构域、SH2结构域、WW结构域、硫氧还原蛋白、亮氨酸拉链、植物同源结构域、tudor结构域和疏水蛋白。

包括每种类型折叠/结构域的代表性蛋白质呈现于附录B中。

为鉴别相信或已知由属于曲霉属、木霉属、青霉属、金孢霉属、栓菌属和匍枝根霉真菌属的种分泌的蛋白质中的候选折叠/结构域，如NCBI Blast工具包v2.2.26+(Marchler-Bauer2004,Altschul1997)中执行，使用反向位置特异性blast(rpsblast)算法鉴别可能的保守结构域。以下默认参数用以针对附录A中列出的那些属筛选分泌蛋白质组蛋白：-11的空位开放罚分、-1的空位延伸罚分、1的e值截止和BLOSUM62评分矩阵。

使用此程序，鉴别包含相关折叠/结构域中至少一者的蛋白质。当使用RPSblast算法搜索序列数据库时，命中由折叠/结构域以及最佳匹配该折叠/结构域的序列范围定义。确定这些序列书挡常常不覆盖折叠的整个范围，因此检查蛋白质序列且通过参考晶体结构来扩展或减少结构域，晶体结构通常提供折叠开始和/或结束的更清晰图。

四个表格列出包含纤维素结合结构域、碳水化合物结合模块、纤连蛋白III型结构域和疏水蛋白的所鉴别的蛋白质。

纤维素结合结构域：

碳水化合物结合模块：

纤连蛋白III型结构域：

疏水蛋白：

实施例3：鉴别参考分泌蛋白质中用于取代的氨基酸位置-方法

参考分泌蛋白质中用于经营养氨基酸取代的位置通过分析位置氨基酸可能性、位置熵、突变对相对折叠自由能的影响和二级结构类型来鉴别。

位置氨基酸可能性

对于给定查询蛋白质序列，同源蛋白质通过将查询与非冗余蛋白质的NCBI文库进行局部序列比对来鉴别。使用来自NCBI工具包v.2.2.26+(Altschul S.F.,Gish W.,Miller W.,Myers E.W.和Lipman D.J.“Basic Local Alignment Search Tool”.J.Mol.Biol.(1990)215:403-410)的blastp程序，使用1的e值截止、-11的空位开放罚分、-1的空位延伸罚分和BLOSUM62评分矩阵，进行初始局部比对。使用如Discovery Studio v3.1(Accelrys Software Inc.,Discovery StudioModeling Environment,3.1版,San Diego:Accelrys Software Inc.,2012)中所执行的Align123算法，进行所得文库的多重序列比对。使用DSC算法用权重为1指定残基二级结构(King R.D.,Sternberg M.J.E.“Identification and application of the concepts important for accurateand reliable protein secondary structure prediction”.Prot.Sci.(1996)5:2298-2310)。使用Smith和Waterman算法，利用-10的空位开放罚分和-0.1的空位延伸罚分以及BLOSUM30评分矩阵进行成对比对。高阶比对使用BLOSUM评分矩阵设置、-10的空位开放罚分、-0.5的空位延伸罚分和40％的比对延迟同一性截止值(延迟分歧参数)。

鉴别局部比对期望值小于1的所有蛋白质(75至1000个独特命中)且比对以产生多重序列比对(MSA)。用于每一MSA的蛋白质呈现于附录C中。

自此MSA，使用MATLAB 2012a软件计算在蛋白质序列中的每一位置观测到每一氨基酸(或一组氨基酸的成员)的机率。对于给定位置，任何给定氨基酸(或氨基酸组)的可能性等于在MSA中跨越所有序列观测到该氨基酸(氨基酸组)的机率。自此数据，产生所述蛋白质的预期对每一给定氨基酸取代耐受的位置的排序列表。接着分析排序表以评估实现营养氨基酸含量给定增加所需的取代数目。

在本文公开的实施例中，检验参考蛋白序列中Leu对非Leu氨基酸的取代。也就是说，参考蛋白中的非Leu氨基酸经Leu氨基酸替换。如本领域的技术人员将了解，此方法可以广泛地应用于任何氨基酸或氨基酸组(例如，必需氨基酸或支链氨基酸或特定支链氨基酸Ile或Val)。

排序表可以用于产生参考蛋白的工程化型式，其中出现在Leu可能性评分至少为给定阈值的位置的一个或多个非Leu残基经Leu氨基酸取代。在以下呈现的实施例中，检验所有可能的阈值且结果用图形呈现。为了产生对应于Leu可能性阈值为0.6的参考蛋白的工程化型式，举例来说，鉴别参考蛋白中Leu可能性评分为至少0.6的非Leu氨基酸，并经Leu替换以产生包含增加数目的Leu氨基酸的工程化蛋白质序列。

不希望束缚于任何特定的理论，据信参考蛋白中不具有Leu氨基酸但对应于同源蛋白质中的Leu氨基酸的位置很可能耐受非Leu氨基酸经Leu氨基酸替换。或者，可以如上所述计算参考蛋白中每一氨基酸位置的支链氨基酸(BCAA)可能性评分，接着可以鉴别参考蛋白中不具有Leu氨基酸但对应于同源蛋白质中任何BCAA的特定出现频率的位置并经Leu替换。另一策略为如上所述，计算参考蛋白中每一氨基酸位置的疏水性氨基酸可能性评分(其中疏水性氨基酸由Ala、Met、Ile、Leu和Val组成)，接着可以鉴别参考蛋白中不具有Leu氨基酸但对应于同源蛋白质中任何疏水性氨基酸的特定出现频率的位置并经Leu替换。

位置熵

多重序列比对也用于计算使用完整氨基酸字母表的给定参考氨基酸序列中每一氨基酸位置的熵，AA＝[A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V]：

S＝-Σ_j∈AAp_jlnp_j

其中p_j是在该位置看到氨基酸j的机率。使用上文所示的等式，使用MATLAB2012a中执行的内部密码，计算每一位置的熵。此为氨基酸分布的扩展的量度。高度可变的位置将具有大的熵(一个位置最大的熵对应于同等可能的每一氨基酸，产生2.996的熵)且高度保守的位置将具有接近于0的熵。

接着基于计算的熵将蛋白质中的每一氨基酸残基排序，以发现可能耐受多种取代的位置。对于所需氨基酸富集，确定所需突变的数目以及最不可能突变的机率以达到以重量计的给定氨基酸分数或营养含量(例如，必需氨基酸含量或支链氨基酸含量)。

在此方法的一个变型中，重复相同的分析，但代替使用完整氨基酸字母表来计算位置熵，而是将氨基酸基于生理化学特性如下分组：疏水性[A、V、I、L、M]、芳香族[F、Y、W]、极性[S、T、N、Q]、带电[R、H、K、D、E]和未分类[G、P、C]。如上所述，接着基于计算的熵将蛋白质中的每一氨基酸残基排序，以发现可能耐受多种取代的位置。对于所需氨基酸富集，确定所需突变的数目以及最不可能突变的机率以达到以重量计的给定氨基酸分数或营养含量(例如，必需氨基酸含量或支链氨基酸含量)。使用此生理化学字母表，p_j现对应于在位置j看到每一氨基酸类型(疏水性、芳香族、极性、带电或未分类)的机率。这些氨基酸类型(AAType)机率是看到该类型的每一氨基酸的机率之和。位置熵的等式保持相同，不过理论最大值现在是ln(5)≈1.6。

相对折叠自由能

不希望束缚于任何特定的理论，据信根据本文中描述的方法工程化的给定分泌蛋白质将继续被分泌，只要其具有功能性分泌前导序列并在突变后维持稳定类似的结构折叠即可。因此，为了分析为改进营养特性而对参考分泌蛋白质进行的氨基酸取代对相对折叠自由能的影响，基于已知的结构同源物的结构构建蛋白质的所有原子结构模型。使用Discovery Studio v3.1(Accelrys Software Inc.,Discovery StudioModeling Environment,3.1版,San Diego:Accelrys Software Inc.,2012)进行所有结构模型和自由能计算。可能的话，从蛋白质数据库获得蛋白质结构模型(H.M.Berman,K.Henrick,H.Nakamura.“Announcingthe worldwide Protein Data Bank Nature Structural Biology”.Nat.Struct.Biol.(2003)10:98)。如果无法在蛋白质数据库中获得蛋白质模型，那么使用如Discovery Studio v3.1(Accelrys Software Inc.,DiscoveryStudio Modeling Environment,3.1版,San Diego:Accelrys Software Inc.,2012)中执行的同源建模软件MODELLER(Eswar,N.；Eramian,D.；Webb,B.；Shen,M.Y.；Sali,A.“Protein structure modeling withMODELLER”.Methods Mol.Biol.(2008)426:145-159)，使用最近可用结构同源物来构建模型。所有能量都用CHARMM软件包(Brooks,B.R.；Brooks,C.L.3rd；Mackerell,A.D.Jr.；Nilsson,L.；Petrella,R.J.；Roux,B.；Won,Y.；Archontis,G.；Bartels,C.；Boresch,S.；Caflisch,A.；Caves,L.；Cui,Q.；Dinner,A.R.；Feig,M.；Fischer,S.；Gao,J.；Hodoscek,M.；Im,W.；Kuczera,K.；Lazaridis,T.；Ma,J.；Ovchinnikov,V.；Paci,E.；Pastor,R.W.；Post,C.B.；Pu,J.Z.；Schaefer,M.；Tidor,B.；Venable,R.M.；Woodcock,H.L.；Wu,X.；Yang,W.；York,D.M.；Karplus,M.“CHARMM:the biomolecular simulation program”.J.Comput.Chem.(2009)30:1545-1614)和CHARMm极性氢力场，如Discovery Studiov3.1(Accelrys2012)中执行，使用一般化天生静电模型(Spassov V.Z.,Yan L.,和Szalma S.“Introducing an Implicit Membrane in GeneralizedBorn/Solvent Accessibility Continuum Solvent Models”.J.Phys.Chem.B.(2002)106:8726-8738)和经验构型熵模型(Abagyan R.和Totrov M.“Biased Probability Monte Carlo Conformational Searches andElectrostatic Calculations for Peptides and Proteins”.J.Mol.Biol.(1994)235:983-1002)计算。

对于每个位置，计算所有可能的单一氨基酸突变相对于野生型折叠自由能的折叠自由能(ΔΔG_fold)。接着基于预期的对折叠稳定性的影响，将每一氨基酸取代排序。还将每一ΔΔG_fold分解成来自范德华力(van der Waals)、静电和热力学熵自由能改变的影响。在所有可能的突变组合缺乏具有ΔΔGfold的情况下，知道每一突变如何影响每一自由能组分提供了一种使用计算机预测减少可能误差的方式。当选择大量突变用于制备单个蛋白质时，一个考虑因素为最小化ΔΔG_fold，然而在一些情况下，具有ΔΔG_fold可比较的变化的多种突变可用。假定计算机模型中可能不完全，对于给定蛋白质来说，计算的能量改变的一个组分可能比另一组分更具有预示性。因而，通过以不同的方式选择影响自由能变化的组合，增加发现突变体成功的组合的可能性。

二级结构类型

假定给定蛋白质的结构模型，使用DSC算法(King R.D.,Sternberg M.J.E.“Identification and application of the conceptsimportant for accurate and reliable protein secondary structureprediction”.Prot.Sci.(1996)5:2298-2310)鉴别环残基，因为这些残基不是任何特定主链氢键合模式的一部分(即缺少二级结构)并常常显示显著的结构可变性(Shehu,A.；Kavraki,L.E.Modeling Structures andMotions of Loops in Protein Molecules.Entropy 2012,14,252-290.)。另外，这些位点常常是蛋白质-蛋白质或蛋白质-配体相互作用中功能可变性的来源(Lehtio,J.,Teeri T.T.,和Nygren P.A.“Alpha-AmylaseInhibitors Selected From a Combinatorial Library of a Cellulose BindingDomain Scaffold”.Proteins:Struct.,Func.,Gene,.(2000)41:316-322；Bloom L.和Calabro V.“FN3:a new protein scaffold reaches the clinic”.Drug Disc.Today(14):949:955；Hackel B.J.,Kapila A.,和Wittrup K.D.“Picomolar Affinity Fibronectin Domains Engineered Utilizing LoopLength Diversity,Recursive Mutagenesis,and Loop Shuffling”.J.Mol.Biol.(2008)381:1238-1252；和Olson CA和Roberts RW.“Design,expression,and stability of a diverse protein library based on the humanfibronectin type III domain”.Prot.Sci.(2007)16:476-484)，且在不显著地影响稳定性下这些残基的定点诱变可以引起结合特异性的变化。因而，这些位置的一级和三级结构可塑性使得其处于序列变化以提高营养含量的高优先级位置。

实施例4：鉴别黑曲霉葡糖淀粉酶蛋白质(SEQ ID NO:1)中用于取代的氨基酸位置

来自黑曲霉的葡糖淀粉酶(SEQ ID NO:1)含有7.4重量％的Leu、17.4重量％的支链氨基酸和42.2重量％的必需氨基酸。

图1A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:1中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:1中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图1B的顶图和底图呈现Leu可能性评分为0至0.3的数据的全貌图(即，图1A中显示的图表的左边部分)。

重复此分析，但代替计算Leu可能性来鉴别用于突变的氨基酸位置，而是计算BCAA可能性(图1C)和疏水性氨基酸可能性(图1D)且鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

接着使用位置熵代替氨基酸可能性来重复相同的分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图2A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图2B中。

计算相对于SEQ ID NO:1中野生型折叠自由能，SEQ ID NO:1中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。接着基于预期的对折叠稳定性的影响，将每一氨基酸取代排序。结果示于图3A中，顶图。将每一ΔΔG_fold分解成来自范德华力、静电和热力学熵自由能改变的影响(图3A，三个图中较低者)。假定预测导致有利的折叠自由能(ΔΔG_fold<0)的所有突变，21％由VDW能改变驱动，76％由静电能改变驱动，且3％由熵自由能改变驱动。因而，虽然预测大部分突变通过有利的vdw改变提高稳定性，但许多是由静电改变驱动，且平稳的保护方法将包括选择提高vdw以及静电学的突变体。

对于SEQ ID NO:1中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表1中。

实施例5：鉴别黑曲霉内切-β-1,4-葡聚糖酶蛋白质(SEQ ID NO:2)中用于取代的氨基酸位置

来自黑曲霉的内切-β-1,4-葡聚糖酶(SEQ ID NO:2)含有6.2重量％的Leu、16.5重量％的支链氨基酸和45.6重量％的必需氨基酸。

图4A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:2中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:2中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图4B的顶图和底图呈现图4A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是使用MSA数据中的BCAA可能性和疏水性氨基酸可能性以鉴别氨基酸位置，接着在鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。结果呈现于图4C(BCAA机率)和图4D(位置熵)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复相同的分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图5A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图5B中。

还计算相对于SEQ ID NO:2中野生型折叠自由能，SEQ ID NO:2中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果展示于图6中。

对于SEQ ID NO:2中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果展示于附录D中表2中。

实施例5：鉴别黑曲霉1,4-β-D-葡聚糖纤维二糖水解酶蛋白质(SEQ ID NO:3)中用于取代的氨基酸位置

来自黑曲霉的1,4-β-D-葡聚糖纤维二糖水解酶(SEQ ID NO:3)含有5.5重量％的Leu、13.1重量％的支链氨基酸和37.7重量％的必需氨基酸。

图7A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:3中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:3中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图7B的顶图和底图呈现图7A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性和疏水性氨基酸可能性以鉴别氨基酸位置，接着在鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。结果呈现于图7C(BCAA可能性)和图7D(疏水性氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复相同分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图8A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图8B中。

还计算相对于SEQ ID NO:3中野生型折叠自由能，SEQ ID NO:3中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果示于图9中。

对于SEQ ID NO:3中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果示于附录D中表3中。

实施例6：鉴别黑曲霉内切-1,4-β-木聚糖酶蛋白质(SEQ ID NO:4)中用于取代的氨基酸位置

来自黑曲霉的内切-1,4-β-木聚糖酶(SEQ ID NO:4)含有2.2重量％的Leu、12.6重量％的支链氨基酸和37.4重量％的必需氨基酸。

图10A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:4中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:4中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数展示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图10B的顶图和底图呈现图10A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性和疏水性氨基酸可能性以鉴别氨基酸位置，接着在鉴别的位置上用Leu氨基酸替换每个非Leu氨基酸。结果呈现于图10C(BCAA可能性)和图10D(疏水性氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复相同的分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图11A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图11B中。

还计算相对于SEQ ID NO:4中野生型折叠自由能，SEQ ID NO:4中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图12中。

对于SEQ ID NO:4中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表4中。

实施例7：鉴别黑曲霉纤维素结合结构域1蛋白质(SEQ ID NO:5)中用于取代的氨基酸位置

来自黑曲霉的纤维素结合结构域(SEQ ID NO:5)含有3.0重量％的Leu、5.6重量％的支链氨基酸和23.8重量％的必需氨基酸。

图13A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:5中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:5中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何需要的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图13B的顶图和底图呈现图13A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性和疏水性氨基酸可能性以鉴别氨基酸位置，接着在鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。结果呈现于图13C(BCAA可能性)和图13D(疏水性氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复相同的分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图14A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图14B中。

还计算相对于SEQ ID NO:5中野生型折叠自由能，SEQ ID NO:5中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的作用，将位置排序。结果显示于图15中。

对于SEQ ID NO:5中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表5中。

实施例8：鉴别黑曲霉碳水化合物结合模块20蛋白质(SEQ IDNO:6)中用于取代的氨基酸位置

来自黑曲霉的碳水化合物结合模块20蛋白质(SEQ ID NO:6)含有5.7重量％的Leu、17.2重量％的支链氨基酸和44.6重量％的必需氨基酸。

图16A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:6中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:6中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图16B的顶图和底图呈现图16A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性和疏水性氨基酸可能性以鉴别氨基酸位置，并在鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。结果呈现于图16C(BCAA可能性)和图16D(疏水性氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

非Leu残基经Leu残基替换增加了参考分泌蛋白质的Leu含量以及BCAA和EAA含量。一种同时增加BCAA和EAA含量的替代方式为增加参考分泌蛋白质的Val或Ile含量。为了产生包含增加的Val或Ile含量的工程化蛋白质，基于Val可能性或Ile可能性鉴别碳水化合物结合模块20蛋白质中的氨基酸位置。图17A分析通过替换在使用0至1的不同的Ile可能性阈值鉴别的氨基酸位置出现的所有非Ile氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:6中Ile、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:6中Ile可能性评分为至少0.6的每个氨基酸位置并用Ile氨基酸替换出现在那些位置之一的所有非Ile氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Ile替换后蛋白质中Ile、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Ile可能性评分的每个氨基酸位置被Ile氨基酸占据时对蛋白质进行的Ile替换的总数。图17B的顶图和底图呈现图17A中显示的图左端(对于0至0.3的Ile可能性评分)的全貌图。

图17C和17D呈现Val替换的对应分析。图17C分析通过替换在使用0至1的不同的Val可能性阈值鉴别的氨基酸位置出现的所有非Val氨基酸产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:6中Val、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:X中Val可能性评分为至少0.6的每个氨基酸位置并用Val氨基酸替换出现在那些位置之一的所有非Val氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Val替换后蛋白质中Val、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Val可能性评分的每个氨基酸位置被Val氨基酸占据时对蛋白质进行的Val替换的总数。图17D的顶图和底图呈现图17C中显示的图左端(对于0至0.3的Ile可能性评分)的全貌图。

对于一些使用，可能需要增加工程化分泌蛋白质中非BCAA的比例且在一些情况下，需要增加非EAA的比例。精氨酸是条件非必需氨基酸，意指大部分时间其可以由人体制造，且不需要直接通过饮食获得。已知氨基酸精氨酸具有大量的健康益处。参见Wu等人“Arginine metabolism and nutrition in growth health,and disease”.Amino Acids(2009)37:153-168.和Wu,G.“Functional Amino Acids inGrowth,Reproduction,and Health”Adv.Nutr.(2010)1:31-37。一种类似方法用于增加碳水化合物结合模块20蛋白质的Arg含量。图18A分析通过替换在使用0至1的不同的Arg可能性阈值鉴别的氨基酸位置出现的所有非Arg氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:6中Arg、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:6中Arg可能性评分为至少0.6的每个氨基酸位置并用Arg氨基酸替换出现在那些位置之一的所有非Arg氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Arg替换后蛋白质中Arg、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Arg可能性评分的每个氨基酸位置被Arg氨基酸占据时对蛋白质进行的Arg替换的总数。图18B的顶图和底图呈现图18A中显示的图左端(对于0至0.3的Arg可能性评分)的全貌图。

重复此分析，但代替评估Arg可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的正电荷氨基酸(R、K、H)可能性和带电氨基酸(R、K、H、D、E)可能性以鉴别氨基酸位置，接着在鉴别的位置上的每个非Arg氨基酸经Arg氨基酸替换。结果呈现于图18C(正电荷氨基酸可能性)和图18D(带电氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Arg氨基酸经Arg替换。

使用位置熵代替原始的氨基酸可能性来重复Leu替换分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图19A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图19B中。

还计算相对于SEQ ID NO:6中野生型折叠自由能，SEQ ID NO:6中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图20中。

以下列表呈现由范德华力(vdw)、静电(elec)和熵自由能改变驱动的预测对相对折叠自由能具有有利的影响的至亮氨酸、缬氨酸、异亮氨酸或精氨酸突变的百分比：

Leu：75.0％vdw，11.3％elec，13.7％熵自由能；

Val：45.1％vdw，21.0％elec，33.9％熵自由能；

Ile：72.0％vdw，12.0％elec，16.0％熵自由能；以及

Arg：86.3％vdw，10.0％elec，3.7％熵自由能。

有趣地注意到，对于任何给定氨基酸突变以及在不同氨基酸的突变之间，存在显著程度的主要自由能组分的变化性。虽然大部分的突变因vdw折叠能提高而为有利的，但预测不低数目的突变因静电和熵自由能而为有利的，特别是在缬氨酸情况下。此表明当设法通过有区别地影响折叠组分的相对自由能而使较高缬氨酸浓度最佳时可使用更多策略。在此情况下，假定存在于每一氨基酸侧链中的可旋转的键的数目(Leu＝2，Val＝1，Ile＝2，Arg＝4)，熵自由能对整个相对折叠自由能的贡献的重要性与所预期一致。高度灵活的氨基酸经不太灵活的氨基酸替换导致熵折叠自由能有利地相对变化。

还计算相对于SEQ ID NO:6中野生型折叠自由能，SEQ ID NO:6中非Ile基酸至Ile的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的作用，将位置排序。结果显示于图21中。

还计算相对于SEQ ID NO:6中野生型折叠自由能，SEQ ID NO:6中非Val基酸至Val的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图22中。

还计算相对于SEQ ID NO:6中野生型折叠自由能，SEQ ID NO:6中非Arg基酸至Arg的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图23中。

对于SEQ ID NO:6中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表6A中。

对于SEQ ID NO:6中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Ile可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Ile取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Ile取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Ile取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Ile取代)。结果显示于附录D中表6B中。

对于SEQ ID NO:6中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Val可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Val取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Val取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Val取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Val取代)。结果显示于附录D中表6C中。

对于SEQ ID NO:6中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Arg可能性、阳性AA可能性、带电AA可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Arg取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfold VDW)(用于经Arg取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Arg取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Arg取代)。结果显示于附录D中表6D中。

实施例9：鉴别黑曲霉葡糖苷酶纤连蛋白III型结构域蛋白质(SEQ ID NO:7)中用于取代的氨基酸位置

来自黑曲霉的葡糖苷酶纤连蛋白III型结构域(SEQ ID NO:7)含有9.9重量％的Leu、21.5重量％的支链氨基酸和44.5重量％的必需氨基酸。

图24A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:7中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:7中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图24B的顶图和底图呈现图24A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性和疏水性氨基酸可能性以鉴别氨基酸位置，且在鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。结果呈现于图24C(BCAA可能性)和图24D(疏水性氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复相同的分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图25A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图25B中。

还计算相对于SEQ ID NO:7中野生型折叠自由能，SEQ ID NO:7中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图26中。

对于SEQ ID NO:7中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表7中。

实施例10：鉴别里氏木霉疏水蛋白I蛋白质(SEQ ID NO:8)中用于取代的氨基酸位置

来自里氏木霉的疏水蛋白I蛋白质(SEQ ID NO:8)含有10.5重量％的Leu、22.5重量％的支链氨基酸和35.2重量％的必需氨基酸。

图27A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:8中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:8中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图27B的顶图和底图呈现图27A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性及疏水性氨基酸可能性以鉴别氨基酸位置，接着在鉴别的位置上的每个非Leu氨基酸经Leu氨基酸替换。结果呈现于图27C(BCAA可能性)和图27D(疏水性氨基酸可能性)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复相同的分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图28A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图28B中。

还计算相对于SEQ ID NO:8中野生型折叠自由能，SEQ ID NO:X中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图29中。

对于SEQ ID NO:8中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表8中。

实施例11：鉴别里氏木霉疏水蛋白II蛋白质(SEQ ID NO:9)中用于取代的氨基酸位置

来自里氏木霉的疏水蛋白II蛋白质(SEQ ID NO:9)含有11.0重量％的Leu、25.6重量％的支链氨基酸和49.2重量％的必需氨基酸。

图30A分析通过替换在使用0至1的不同的Leu可能性阈值鉴别的氨基酸位置出现的所有非Leu氨基酸所产生的工程化蛋白质的氨基酸含量(以重量计)。确切地说，显示SEQ ID NO:9中Leu、BCAA和EAA的重量分数。在顶图中，用于氨基酸替换的可能性阈值呈现在X轴上。因此，例如X轴上的值0.6表示通过鉴别SEQ ID NO:9中Leu可能性评分为至少0.6的每个氨基酸位置并用Leu氨基酸替换出现在那些位置之一的所有非Leu氨基酸而产生的工程化蛋白质序列。在顶图中，在进行任何必需的Leu替换后蛋白质中Leu、BCAA和EAA以重量计的分数显示在Y轴上。在底图中，Y轴指示当工程化蛋白质中在X轴上具有给定Leu可能性评分的每个氨基酸位置被Leu氨基酸占据时对蛋白质进行的Leu替换的总数。图30B的顶图和底图呈现图30A中显示的图左端(对于0至0.3的Leu可能性评分)的全貌图。

重复此分析，但代替评估Leu可能性来鉴别用于突变的氨基酸位置，而是测量MSA数据中的BCAA可能性及疏水性氨基酸可能性以鉴别氨基酸位置，接着在鉴别的位置上用Leu氨基酸替换每个非Leu氨基酸。结果呈现于图30C(BCAA可能性)和图30D(位置熵)中。正如所料，此两种不太严格的筛选导致在每一可能性截止下更多非Leu氨基酸经Leu替换。

使用位置熵代替原始的氨基酸可能性来重复分析，以将用于经Leu取代的氨基酸位置排序。当使用每一位置上每一氨基酸的频率计算位置熵时所获得的结果呈现于图31A中，且当使用每一位置上氨基酸类型的频率计算位置熵时所获得的结果呈现于图31B中。

还计算相对于SEQ ID NO:9中野生型折叠自由能，SEQ ID NO:9中非Leu氨基酸至Leu的所有可能的单一氨基酸突变的折叠自由能(ΔΔG_fold)。对于每个氨基酸取代，基于预期的对折叠稳定性的影响，将位置排序。结果显示于图32中。

对于SEQ ID NO:9中的每个氨基酸，计算loop ID(1＝环；0＝非环)、Leu可能性、BCAA可能性、EAA可能性、疏水性氨基酸可能性、氨基酸位置熵、氨基酸类型位置熵、总折叠自由能(ΔΔG_fold)(用于经Leu取代)、范德华力自由能改变对总折叠自由能的影响(ΔΔGfoldVDW)(用于经Leu取代)、静电自由能改变对总折叠自由能的影响(ΔΔGfold Elec)(用于经Leu取代)和热力学熵自由能改变对总折叠自由能的影响(ΔΔGfold熵)(用于经Leu取代)。结果显示于附录D中表9中。

实施例12：氨基酸选择算法

对位置氨基酸可能性、位置熵、突变对相对折叠自由能的影响和二级结构类型的分析可以组合以筛选和鉴别参考分泌蛋白质中突变成例如Leu等更营养的氨基酸类型的氨基酸。实际上，选择和排序程序是一个多对象优化问题。多个不同的对象可以通过使用如下这些因素设计工程化蛋白质来获得：高氨基酸可能性(AALike)、高氨基酸类型可能性(AATLike)、高位置熵(S_pos)、高氨基酸类型位置熵(S_AATpos)、低相对折叠自由能(ΔΔG_fold)和二级结构同一性(LoopID)。还可能同时选择最大化所有对象或对象子集的位置。为此，构建基于个别对象评分对每一突变评分的合计目标函数。当将给定蛋白质的可能突变位点排序时，为了直接比较两种目标函数和/或给它们增添控制的加权，通过将最小值移至0且将所有值用最大值标准化来将值分布映射至范围[0-1]。注意到在ΔΔG_fold情况下，最小值映射至1(因为负值是有利的)且最大值界定为1，作为限制对ΔΔG_fold<1的位置的考虑的截止值。除所有单一目标函数之外，十一种示例性合计目标函数是：

(1) - - - \frac{1}{2} A A l i k e + \frac{1}{2} {ΔΔG}_{f o l d}

(2) - - - \frac{1}{2} A A T l i k e + \frac{1}{2} {ΔΔG}_{f o l d}

(3) - - - \frac{1}{3} A A l i k e + \frac{1}{3} A A T l i k e \frac{1}{3} {ΔΔG}_{f o l d}

(4) - - - \frac{1}{2} S_{p o s} + \frac{1}{2} {ΔΔG}_{f o l d}

(5) - - - \frac{1}{2} S_{A A T p o s} + \frac{1}{2} {ΔΔG}_{f o l d}

(6) - - - \frac{1}{2} L o o p I D + \frac{1}{2} {ΔΔG}_{f o l d}

(7) - - - \frac{1}{3} A A l i k e + \frac{1}{3} {ΔΔG}_{f o l d} + \frac{1}{3} L o o p I D

(8) - - - \frac{1}{4} A A l i k e + \frac{1}{4} A A T l i k e + \frac{1}{4} {ΔΔG}_{f o l d} + \frac{1}{4} L o o p I D

(9) - - - \frac{1}{3} A A T l i k e + \frac{1}{3} {ΔΔG}_{f o l d} + \frac{1}{3} L o o p I D

(10) - - - \frac{1}{3} S_{p o s} + \frac{1}{3} {ΔΔG}_{f o l d} + \frac{1}{3} L o o p I D

(11) - - - \frac{1}{3} S_{A A T p o s} + \frac{1}{3} {ΔΔG}_{f o l d} + \frac{1}{3} L o o p I D

前六个函数选择对折叠稳定性和高氨基酸可能性[(1)、(2)和(3)]、高位置熵[(4)和(5)]具有有利的作用的位置，或者是在结构上塑性环位置(6)。第七至第十一个目标函数选择具有有利的相对折叠能和高氨基酸可能性[(7)、(8)和(9)]或者位置熵[(10)和(11)]的环位置。为了使分泌蛋白质富含特定的氨基酸，选择根据所需目标函数1-11高度排序的顶部位置组且使那些氨基酸突变以产生工程化蛋白质。

以下是纤维素结合结构域1(CBD1)(SEQ ID NO:5)突变的示例序列，根据目标函数3使用亮氨酸作为目标氨基酸和支链氨基酸作为氨基酸类型将所有36个位置排序：

\frac{1}{3} L e u l i k e + \frac{1}{3} B C A A l i k e + \frac{1}{3} {ΔΔG}_{f o l d} .

如上所述将所有值再映射至常见范围[0,1]并根据合计目标函数排序，得出表10中所呈现的排序列表(排除ΔΔG_fold>1kcal/mol或具有涉及分子内二硫键的半胱氨酸残基的所有那些位置)。

表10

注意到最高命中位置36已经是亮氨酸，因此无需在此位点进行突变。因此，为了增加亮氨酸浓度至约11％(原生序列是约3％亮氨酸)，需要3个突变且此分析建议位置E28、A4和G6。所得工程化蛋白质具有SEQ ID NO:10的序列。

为了增加亮氨酸浓度至约22％，需要7个突变，且此分析建议位置E28、A4、G6、V20、A30、Y27和T26。所得工程化蛋白质具有SEQ ID NO:11的序列。

为了增加亮氨酸浓度至约31％，需要10个突变，且此分析建议位置E28、A4、G6、V20、A30、Y27、T26、N29、T24和T18。所得工程化蛋白质具有SEQ ID NO:12的序列。

最后，为了增加亮氨酸浓度至约42％，需要14个突变，且此分析建议位置E28、A4、G6、V20、A30、Y27、T26、N29、T24、T18、Q7、A1、Y31和Y32。所得工程化蛋白质具有SEQ ID NO:13的序列。

表11、12和13显示当如上定义使用亮氨酸作为目标氨基酸、支链氨基酸作为氨基酸类型和目标函数1至11时发现的同等排序列表。为了增加亮氨酸浓度至约11％，可以从表11、12和13中的位置列表中选择在CBD1中非亮氨酸(SEQ ID NO:5)的最高3个位置。因此，为了选择具有有利的相对折叠自由能和高氨基酸可能性的位置，使用目标函数1、2或3排序是适当的。因此，为了选择具有有利的相对折叠自由能和高位置熵或环状位置的位置，使用目标函数4、5或6排序将为适当的。为了选择具有有利的相对折叠自由能和高氨基酸可能性或位置熵的位置，分别使用目标函数7、8或9排序或目标函数10或11排序将为适当的。

表11：CBD1的其它目标函数排序(1-4)

表12：CBD1的其它目标函数排序(5-8)

表13：CBD1的其它目标函数排序(9-11)

实施例13.来自枯草杆菌的工程化分泌蛋白质的选择和设计

为了证明针对富集氨基酸含量的分泌多肽的工程化，选择一种已知高水平分泌蛋白质的微生物枯草杆菌。鉴别出SEQID-45001是枯草杆菌中的一种主要分泌蛋白质。使用SEQID-45001的序列保守和晶体结构数据，鉴别每一蛋白质内预测对突变耐受且不负面影响蛋白质的结构稳定性和/或宿主生物体分泌蛋白质的能力的邻接区域。

分析结构蛋白质数据库登录1UA7中报导的SEQID-45001的二级结构。鉴别蛋白质序列内不是α-螺旋或β-折叠的一部分的19个环状区域。这些环状区域通过以下氨基酸残基界定：73-76、130-133、147-152、157-161、189-192、222-227、239-244、283-286、291-298、305-308、318-323、336-340、356-360、365-368、387-392、417-421、428-432、437-442和464-466。少于4个氨基酸长的环状区域不考虑进行突变。

还考虑在进化空间上的序列保守来鉴别负责工程化同时维持结构稳定性和分泌能力的位置。在同源序列家族内不太保守的位置是固有可变的，且在不影响活性下可能更易于突变，其本质上依赖于结构。为了找到不太保守的位置，从含有包括SEQID-45001催化结构域的31个蛋白质序列的NCBI保守结构域数据库下载pfam00128的比对(Marchler-Bauer A.,Zheng C.,Chitsaz F.,Derbyshire M.K.,Geer L.Y.,Geer R.C.,Gonzales N.R.,Gwadz M.,Hurwitz D.I.,Lanczycki C.J.,Lu F.,Lu S.,Marchler G.H.,Song J.S.,Thanki N.,Yamashita R.A.,Zhang D.,和S.H.Bryant.Nucleic Acids Res.(2013)41:D348-52)。还使用SEQID-45001进行NCBI蛋白质参考序列数据库的PSI-BLAST搜索(Pruitt K.D.,Tatusova T.,和D.R.Maglott.Nucleic Acids Res.(2005)33:D501-504)，并获得与SEQID-45001同源的500个序列。在两种情况下，使用BLOSUM62位置特异性评分矩阵、-11的空位罚分、-1的空位延伸罚分和0.005的比对纳入e值截止进行单个迭代(Altschul S.F.,Nucleic Acids Res.(1997)25:3389-3402)。所有蛋白质序列对比都用以产生对作为PSI-BLAST搜索的一部分的每一询问序列特异的位置特异性评分矩阵(PSSM)。从PSSM，通过计数与每一环内每一位置正PSSM评分相关联的不同氨基酸的数目以及每一位置的必需氨基酸取代的PSSM评分总和与平均值，鉴别假定对突变耐受的区域。此外，由从每一PSI-BLAST搜索获得的多重序列比对，计算每一位置的氨基酸熵，如下定义

S_{j} = - \underset{i &Element; A A}{Σ} p_{i} {lnp}_{i}

其中S_j为位置j的熵且p_i是位置j上观测到氨基酸i的机率。

使用突变耐受性的这些量度，鉴别预期对突变成必需氨基酸具有耐受性的四个环状区域。为了使鉴别的区域富含必需氨基酸，使用其中任何选择的位置可以是F、I、L、V或M(表示Z)或R、K、T、I或M(表示X)的组合密码子文库。在选择用于突变成必需氨基酸的每一环状区域，取决于其疏水性残基的相对耐受性(基于其相应的PSSM值)，每一可变位置指定为Z或X。对疏水性残基耐受的位置指定为Z且使用密码子NTN进行基因编码。对亲水性残基更耐受的位置指定为X且使用密码子ANR进行基因编码。注意在SEQID-45001所鉴别可变区(147-153)之一中，甘氨酸残基插入环中心中以求增强此区域的构象灵活性。对于SEQID-45001，所鉴别区域的序列概述于以下表中：

起始残基#	起点	简并
			148	YAAI	XXGXX
240	NTSA	ZXXZ
			291	SHYASD	XZYXXZ
389	QPEE	XPZZ

X＝NTN，编码F、L、I、M、V

Z＝ANR，编码I、M、T、K、R

文库设计和构建

基于可变区的鉴别，如图33中所说明，设计可以扩增每一可变区的引物。举例来说，如果存在四个可变区，那么需要四对引物来产生四个可变片段。在步骤1中，使用pES1205作为模板，其含有与N末端AmyQ信号肽融合且在pGrac启动子下游的SEQID-45001。pES1205是载体pHT43(MoBiTec)的衍生物，含有编码来自枯草杆菌的amyE基因的1905bp DNA片段(减去编码AmyE信号肽的初始93bp)加C端1X FLAG标签。amyE::1XFL:AG序列与pHT43上编码的SamyQ序列同框克隆。对于片段1、2、3、4，正向引物ID-45053、引物ID-45054、引物ID-45055和引物ID-45056在可变区前含有25个碱基的恒定序列，接着为简并序列，表示可变区，和在可变区下游的25个碱基的恒定序列。对于片段1、2、3，分别反向引物引物ID-45061、引物ID-45062和引物ID-45063在下一可变区的上游含有25个碱基的反向互补序列。对于片段4，反向引物引物ID-45064在离可变区4任意距离处含有25个碱基的反向互补序列。四个分开的PCR扩增使用Phusion DNA聚合酶(New England Biolabs,Beverly,MA)和制造商推荐的反应参数进行。作为分开的反应，分别使用PES1205作为模板和引物对引物ID-45057与引物ID-45061、引物ID-45058与引物ID-45062、引物ID-45059与引物ID-45063和引物ID-45060与引物ID-45064产生四个野生型片段WT-frag-1、WT-frag-2、WT-frag-3和WT-frag-4。所有PCR片段都进行凝胶纯化。在步骤2中，设置两个分开的PCR反应。第一PCR反应含有等摩尔比率的片段1和2作为模板和引物ID-45057和引物ID-45062作为引物。第二PCR反应含有等摩尔比率的片段3和4和引物ID-45059和引物ID-45064作为引物。在两个反应中，相应的野生型片段以存在于每一可变片段中的文库成员的摩尔比添加。片段5和6进行凝胶纯化并在步骤3中以等摩尔比率用作模板。用于PCR反应中的引物包括引物ID-45057和引物ID-45064。使用pES1205和引物对引物ID-45065和引物ID-45066产生载体PCR产物。片段7与载体PCR产物都进行凝胶纯化，且使用Gibson Assembly Master Mix(New England Biolabs,Beverly,MA)一起克隆并根据制造商的说明书转化至克隆宿主大肠杆菌Turbo(New England Biolabs)中。对50个菌落进行测序以确定文库的多样性。接着使琼脂板上的菌落悬浮在LB培养基中并收获用于质粒纯化。以类似的方式，产生SEQID-45001的9种特定变体，其在突变设计中鉴别的每个可变位置上经9个特定氨基酸F、L、I、M、V、T、K、R、W改变。特定变体引物通过名字中的单字母氨基酸缩写表示。所有引物列于以下表引物ID中。

枯草杆菌菌株构建

枯草杆菌菌株WB800N(MoBiTec,Germany)用作此研究的表达宿主。WB800N是充分研究的菌株(枯草杆菌168)的衍生物，且其已经通过缺失编码8种细胞外蛋白酶(nprE、aprE、epr、bpr、mpr、nprB、vpr和wprA)的基因来工程化以减少分泌蛋白质的蛋白酶降解。枯草杆菌转化根据制造商的说明书进行。将用于SEQID-45001变体构建体的约5μg文库转化至WB800N中并在37℃下通过涂铺在含有5.0μg/ml氯胺苯醇(Cm5)的LB琼脂上来选择单一菌落。对于9种特定变体，将约1μg特定SEQID-45001变体转化至WB800N中并在37℃下通过涂铺在含有5.0μg/ml氯胺苯醇(Cm5)的LB琼脂上来选择单一菌落。

枯草杆菌文库筛选

枯草杆菌SEQID-45001文库的约800个个别转化株用以在深孔区块(96方孔)中接种具有Cm5的2X-MAL培养基(20g/l NaCl、20g/l胰蛋白胨和10g/l酵母提取物、75g/l麦芽糖)的个别1ml培养物。除文库菌株之外，含有具有AmyE的质粒和SamyQ前导肽的菌株作为阳性对照接种且含有质粒但没有相关基因的菌株作为阴性对照接种。培养物区块用多孔粘合板密封物覆盖并在微表达腔室(Glas-Col,TerreHaute,IN)中在37℃和880rpm下孵育过夜。过夜培养物用以在深孔区块中接种新鲜的2X-MAL Cm5培养物至开始OD600＝0.1。

表达培养物在37℃、880rpm下孵育，直至OD600＝1.0(约4小时)，此时通过添加1mM最终浓度的异丙基β-D-1-硫代半乳糖苷(IPTG)并继续孵育4小时来诱发培养物。4小时后，测量每一培养物的细胞密度(OD600)并通过离心(3000rpm，10分钟，室温)收获细胞。离心后，将培养物上清液小心地去除并转移至新的区块且细胞沉淀在-80℃下冷冻。为了确定分泌蛋白质的水平，培养物上清液的0.5ml等分试样首先通过0.45μm过滤器、接着0.22μm过滤器过滤。接着通过芯片电泳系统测定滤液以确定相关分泌蛋白质(POI)的水平并与基础构建体的分泌水平比较。简单地说，通过添加2μl样品至7μl样品缓冲液，在95C下加热5分钟，接着添加35μl水来制备样品。使用HT Low MW Protein Express试剂盒或HT ProteinExpress试剂盒(遵循制造商的方案)完成分析。针对分子量测定(kDa)和定量(ng/μl)，蛋白质阶梯运行每12个样品。证明命中#3分泌的电泳图谱的一个实例连同阴性对照和阶梯一起显示于图34(A)中。使用此方法从文库筛选的SEQID-45001的23种不同变体的分泌的一个实例显示于图34(B)中。

命中编号11和27通过相关凝胶条带的LC/MS/MS确认。将所选命中与含有5％β-巯基乙醇的Invitrogen LDS样品缓冲液混合，煮沸并负载在10％Bis-Tris凝胶(Life Technologies)上。跑电泳后，使用SimplyBlue^TM SafeStain(Life Technologies)使凝胶染色，并切除所需条带且提交供分析。洗涤凝胶条带，还原并烷基化，接着用胰蛋白酶消化4小时，接着用甲酸淬灭。接着通过nanoLC/MS/MS，使用与ThermoFisher Q Exactive接合的WatersNanoAcquity HPLC系统分析消化物。将肽负载在捕获柱上并在75μm分析柱上以350nL/min洗脱；两个柱都用Jupiter Proteo树脂(Phenomenex)填充。质谱仪以数据相关的模式操作，其中MS和MS/MS在Orbitrap中分别在70,000FWHM分辨率和17,500FWHM分辨率下进行。选择十五种最丰富的离子用于MS/MS。使用Mascot针对附有相关变体蛋白质序列的相关宿主数据库搜索所得肽数据。

稀释的过夜培养物用作含有Cm5的LB肉汤培养物的接种物。这些培养物在37C下生长，直至其到达对数期。将这些培养物的等分试样与甘油(20％最终浓度)混合并在-80℃下冷冻。接着使用Instagene矩阵(Biorad,USA)纯化最高30个命中并使用引物ID-45103CTTGAAATTGGAAGGGAGATTC和引物ID-45104GTATAAACTTTTCAGTTGCAGAC扩增，且使用相同的引物测序以鉴别SEQID-45001变体序列。

枯草杆菌分泌文库分析

分析SEQID-45001的所有分泌变体(SEQID 45002-45028)以确定相对于存在于初始基因文库中的预期位置特异性偏好，存在于分泌变体中的氨基酸中是否存在任何位置特异性偏好。为此，针对每一位置的每个氨基酸，进行精确的二项检验，以确定观测数目的每一氨基酸碰巧显著(p<0.05)大于或小于预期的可能性。表13a显示此单尾检验的p值，其中那些突出显示的要素的p值<0.05。注意除了全部显著高于预期的野生型值以外，所有其它显著的不同氨基酸频率都小于预期。预期位置特异性氨基酸偏好显示于表13b中，且通过在已经构建文库并转化至大肠杆菌中后对47个随机选择的变体测序来发现。假设所有设计成X的位置有效地从L、I、V、F和M密码子的相同分布取样(即，对于所有X位置，不存在位置特异性氨基酸偏好)。因而，合计跨越位置的每一氨基酸的观测到的计数以确定所有X位置的预期氨基酸可能性。对于所有设计成Z的位置，进行类似的假设。如表13a中可见，除在每一位置上对野生型序列的强烈偏好之外，存在观测到显著小于预期的大量不同的氨基酸，指示与分泌文库中该位置上的那些氨基酸不同的偏好。此数据提供了关于设计在每一位置上具有特定突变的合理设计的特定变体的另外信息。举例来说，为了使分泌变体富含亮氨酸，位置241和291可能是不太希望的选择。或者，为了使分泌变体富含缬氨酸，位置149、241、242、291、294、295和389可能是不太希望的选择。

表13a：评估SEQID-450001的分泌变体中位置特异性氨基酸偏好的单尾二项检验p值

表13b：构建的SEQID-450001文库中位置特异性预期氨基酸可能性

特定变体的枯草杆菌表达测试

枯草杆菌表达菌株的三个分开的菌落用以在深孔区块(96方孔)中接种1ml具有Cm5的2X-MAL培养基(20g/l NaCl、20g/l胰蛋白胨和10g/l酵母提取物、75g/l麦芽糖)。培养物区块用多孔粘合板密封物覆盖并在微表达腔室(Glas-Col,Terre Haute,IN)中在37℃和880rpm下孵育过夜。过夜培养物用以在深孔区块中接种新鲜的2X-MALCm5培养物至开始OD600＝0.1。这些表达培养物在37℃、880rpm下孵育，直至OD600＝1.0(约4小时)，此时通过添加0.1M最终浓度的异丙基β-D-1-硫代半乳糖苷(IPTG)并继续孵育4小时来诱发培养物。4小时后，测量每一培养物的细胞密度(OD600)并通过离心(3000rpm，10分钟，室温)收获细胞。离心后，将培养物上清液小心地去除并转移至新的区块且细胞沉淀在-80℃下冷冻。为了确定分泌蛋白质的水平，培养物上清液的0.5ml等分试样首先通过0.45μm过滤器、接着0.22μm过滤器过滤。接着通过芯片电泳测定滤液以确定相关分泌蛋白质(POI)的水平。简单地说，通过添加2μl样品至7μl样品缓冲液，在95C下加热5分钟，接着添加35μl水制备样品。使用HT低MW Protein Express试剂盒或HT Protein Express试剂盒(遵循制造商的方案)完成分析。针对分子量测定(kDa)和定量(ng/μl)，蛋白质阶梯运行每12个样品。富含甲硫氨酸、苏氨酸、赖氨酸和组氨酸的SEQID-45001的变体的分泌的一个实例显示于图34(B)中。

SEQID-45025、SEQID-45026、SEQID-45027和SEQID-45028通过相关凝胶条带的LC/MS/MS确认。将所选命中与含有5％β-巯基乙醇的Invitrogen LDS样品缓冲液混合，煮沸并负载在 10％Bis-Tris凝胶(Life Technologies)上。运行后，使用SimplyBlue^TM SafeStain(Life Technologies)使凝胶染色，并切除所需条带且提交供分析。洗涤凝胶条带，还原并烷基化，接着用胰蛋白酶消化4小时，接着用甲酸淬灭。接着通过nano LC/MS/MS，使用与ThermoFisher Q Exactive接合的Waters NanoAcquity HPLC系统分析消化物。将肽负载在捕获柱上并在75μm分析柱上在350nL/min下洗脱；两个柱都用Jupiter Proteo树脂(Phenomenex)填充。质谱仪以数据相关的模式操作，其中MS和MS/MS在Orbitrap中分别在70,000FWHM分辨率和17,500FWHM分辨率下进行。选择十五种最丰富的离子用于MS/MS。使用Mascot针对附有相关变异蛋白质序列的相关宿主数据库搜索所得肽数据。

实施例14.来自黑曲霉的工程化分泌蛋白质的选择和设计

为了证明针对富集氨基酸含量的分泌多肽的工程化，选择一种已知以工业规模分泌蛋白质的微生物，即黑曲霉。鉴别出分泌多肽SEQID-45029是野生型黑曲霉中一种主要分泌蛋白质。使用SEQID-45029的序列保守和晶体结构数据，鉴别每一蛋白质内预测能够耐受突变且不负面影响蛋白质的结构稳定性和/或宿主生物体分泌蛋白质的能力的邻接区域。

分析如结构蛋白质数据库3EQA中报导的SEQID-45029的二级结构。鉴别蛋白质序列内不是α-螺旋或β-折叠的一部分的13个环状区域。这些环状区域通过以下氨基酸残基界定：48-76、114-125、131-148、195-209、253-268、280-286、309-312、318-333、364-370、380-390、417-438、455-461、467-486。少于4个氨基酸长的环状区域不考虑进行突变。

还考虑在进化空间上的序列保守来鉴别易于工程化同时维持分泌能力的位置。在同源序列家族内不太保守的位置是固有可变的，且在不影响活性下更易于进行突变，其本质上依赖于结构。为了找到不太保守的位置，使用SEQID-45029进行NCBI蛋白质参考序列数据库(Pruitt K.D.,Tatusova T.,和D.R.Maglott.Nucleic Acids Res.(2005)33:D501-504)的PSI-BLAST搜索，并获得与SEQID-45029同源的500个序列。在两种情况下，使用BLOSUM62位置特异性评分矩阵、-11的空位罚分、-1的空位延伸罚分和0.005的比对纳入e值截止进行单个迭代(Altschul S.F.,Gish W.,Miller W.,Myers E.W.,和D.J.Lipman.J.Mol.Biol.(1990)215:403-410；Madden T.L.,Tatusov R.L.,和Zhang,J.,Meth.Enzymol.(1996)266:131-141；Altschul S.F.,Madden T.L.,A.A.,Zhang J.,Zhang Z.,Miller W.,和Lipman D.J.NucleicAcids Res.(1997)25:3389-3402)。所有蛋白质序列对比都用以产生对作为PSI-BLAST搜索的一部分的每一询问序列特定的位置特异性评分矩阵(PSSM)。从PSSM，通过计数与每一环内每一位置正PSSM评分相关联的不同氨基酸的数目以及每一位置的必需氨基酸取代的PSSM评分之和与平均值，鉴别假定对突变耐受的区域。此外，从每一PSI-BLAST搜索获得的多重序列比对，计算每一位置的氨基酸熵，如下定义

S_{j} = - \underset{i &Element; A A}{Σ} p_{i} {lnp}_{i}

其中S_j为位置j的熵且p_i是位置j上观测到氨基酸i的机率。

使用突变耐受性的这些量度，鉴别预期对突变成必需氨基酸具有耐受性的四个环状区域。为了使鉴别的区域富含必需氨基酸，使用其中任何选择的位置可以是F、I、L、V或M(表示Z)或R、K、T、I或M(表示X)的组合密码子文库。在选择用于突变成必需氨基酸的每一环状区域中，每一可变位置指定为Z或X，这取决于其疏水性残基的相对耐受性(基于其相应的PSSM值)。对疏水性残基耐受的位置指定为Z且使用密码子NTN进行基因编码。对亲水性的性残基更耐受的位置指定为X且使用密码子ANR进行基因编码。对于SEQID-45029，所鉴别区域的序列概述于以下表中。

起始残基#	起点	简并
			121	DLSSGA	ZLZZGZ
320	SDSE	ZZXZ
			429	SDGEQ	XZGXX
474	AATSA	XXTSX

X＝NTN，编码F、L、I、M、V

Z＝ANR，编码I、M、T、K、R

文库设计和构建

基于可变区的鉴别，如图33中所说明，设计可以扩增每一可变区的引物。举例来说，如果存在四个可变区，那么需要四对引物来产生四个可变片段。在步骤1中，使用pES1962(从Ghent UniversityBCCM/LMBP中获得的LMBP2236的衍生物，HIL6经3X FLAG标签替换)作为模板，其在glaA启动子下含有SEQID-45029，具有C末端3X FLAG标签，接着为构巢曲霉TrpC终止子。对于片段1、2、3、4，正向引物ID-45105、引物ID-45106、引物ID-45107和引物ID-45108在可变区前含有25个碱基的恒定序列，接着为简并序列，表示可变区和在可变区下游的25个碱基的恒定序列。对于片段1、2、3，分别反向引物引物ID-45113、引物ID-45114和引物ID-45115在下一可变区的上游含有25个碱基的反向互补序列。对于片段4，反向引物引物ID-45116在离可变区4任意距离处含有25个碱基的反向互补序列。四个分开的PCR扩增使用Phusion DNA聚合酶(New EnglandBiolabs,Beverly,MA)使用所推荐的制造商方案进行。作为分开的反应，分别使用PES1205PES1962作为模板和引物对引物ID-45109与引物ID-45113、引物ID-45110与引物ID-45114、引物ID-45111与引物ID-45115和引物ID-45112与引物ID-45116产生四个野生型片段WT-frag-1、WT-frag-2、WT-frag-3和WT-frag-4。所有片段都进行凝胶纯化。在步骤2中，设置两个分开的PCR反应。第一PCR反应含有等摩尔比率的片段1和2作为模板和引物ID-45109和引物ID-45114作为引物。第二PCR反应含有等摩尔比率的片段3和4和引物ID-45111和引物ID-45116作为引物。在两个反应中，相应的野生型片段以存在于每一可变片段中的文库成员的摩尔比添加。片段5和6进行凝胶纯化并在步骤3中以等摩尔比率用作模板。用于PCR反应中的引物包括引物ID-45109和引物ID-45116。使用pES1205pES1962和引物对引物ID-45117和引物ID-45118产生载体PCR产物。片段7与载体PCR产物都进行凝胶纯化，且使用Gibson Assembly MasterMix(New England Biolabs,Beverly,MA)一起克隆并根据制造商的说明书转化至克隆宿主大肠杆菌Turbo(New England Biolabs)中。对50个菌落进行测序以测定文库的多样性。接着使琼脂板上的菌落悬浮在LB培养基中并收获用于质粒纯化。以类似的方式，产生SEQID-45029的9种特定变体，其在突变设计中鉴别的每个可变位置上经9个特定氨基酸F、L、I、M、V、T、K、R、W改变。特定变体引物由名字中的单字母氨基酸缩写表示。所有引物列于以下表引物ID1中。

黑曲霉菌株构建

黑曲霉MGG029的ΔaamA、pyrE衍生物(Conesa等人,Applied andEnvironmental Microbiology,2000)用于本研究中。使用标准原生质体转化法，表达载体与编码来自黑曲霉的标记物pyrE的载体共转化(Punt等人,Methods in Enzymology,1992)。原生质体用5μg表达载体和1μg编码pyrE的载体转化。在补充有1.2M山梨糖醇的基本培养基(1.5％细菌琼脂、10g/l葡萄糖、4g/l硝酸钠、20ml/l盐溶液(含有26.2g/l氯化钾和74.8g/l磷酸二氢钾pH 5.5)和1ml/l金属溶液(含有20g/l硫酸锌七水合物(ZnSO4-7H2O)、11g/l硼酸(H3BO3)、5g/l氯化锰(II)四水合物(MnCl2-4H2O)、5g/l硫酸铁(II)七水合物(FeSO4-7H2O)、1.7g/l氯化钴(II)六水合物(CoCl2-6H2O)、1.6g/l硫酸铜(II)五水合物(CuSO4-5H2O)、1.5g/l钼酸钠二水合物(NaMoO4-2H2O)和5.0g/l EDTA二钠盐二水合物(Na2EDTA-2H2O)pH 6.5))上选择转化株。在30C下孵育板4天，直至大部分菌落具有可见分生孢子。

黑曲霉表达测试

使用无菌牙签从个别菌落挑选分生孢子，并直接在用40mMMES调至pH 7并补充有SigmaFast蛋白酶抑制剂混合液EDTA-Free(1tab/100mL，SigmaAldrich)的800μL完全培养基(5.0g/l酵母提取物、2.0g/l酪蛋白氨基酸、10g/l麦芽糖、4g/l硝酸钠、20ml/l盐溶液(含有26.2g/l氯化钾和74.8g/l磷酸二氢钾pH 5.5)和1ml/l金属溶液(含有20g/l硫酸锌七水合物(ZnSO4-7H2O)、11g/l硼酸(H3BO3)、5g/l氯化锰(II)四水合物(MnCl2-4H2O)、5g/l硫酸铁(II)七水合物(FeSO4-7H2O)、1.7g/l氯化钴(II)六水合物(CoCl2-6H2O)、1.6g/l硫酸铜(II)五水合物(CuSO4-5H2O)、1.5g/l钼酸钠二水合物(NaMoO4-2H2O)和5.0g/l EDTA二钠盐二水合物(Na2EDTA-2H2O)pH 6.51)、1ml/l维生素溶液(含有100mg/l盐酸吡哆醇、150mg/l盐酸硫胺、750mg/l 4-氨基苯甲酸、2.5g/l烟酸、2.5g/l核黄素、20g/l氯化胆碱和30mg/l生物素))中在96孔方底深孔区块中接种。培养物区块用多孔粘合板密封物覆盖并在微表达腔室(Glas-Col,Terre Haute,IN)中在30℃和1000rpm震荡下孵育48小时。生长期后，培养物上清液的500μl等分试样首先通过25μm/0.45μm双阶段过滤器、接着0.22μm过滤器过滤。接着测定滤液以确定相关分泌蛋白质的水平。

黑曲霉测序分析

从96深孔区块的个别孔收获真菌组织，并用细尖端凝胶负载移液管端吸出剩余上清液。使用ZR真菌/细菌DNA Miniprep试剂盒(Zymo Research)提取DNA。约5ng基因组DNA用作PCR的模板，使用引物ID-45155(GAGAGCCTGAGCTTCATC)和引物ID-45156(CACCAACGATCTTATATCCAGATTC)，以扩增整个表达盒。使用Zymoclean Gel DNA回收试剂盒(Zymo Research)纯化PCR反应，并对引物ID-45155、引物ID-45156和引物ID-45157(AGCAGAGCTAACCCGC)测序。在随机化基因座上显示多态性的基因组DNA制剂亚克隆至pCRBluntII TOPO(Life Technologies)中并用引物ID-45155、引物ID-45156和引物ID-45157对15个菌落进行测序。

抗FLAG斑点印迹分析

使用斑点印迹法定量细胞外蛋白质。将110μl 0.2μm过滤的样品与110μl 8.0M盐酸胍、0.1M磷酸钠(变性缓冲液)混合以允许标准化的蛋白结合和确保标签暴露。氨基末端FLAG-BAP^TM融合蛋白(Sigma)的标准曲线在与样品相同的基质中制备，始于2μg，2X连续稀释至0.0313μg。将Invitrogen 0.45μm硝化纤维膜在1X PBS缓冲液中预湿5分钟，接着负载至Bio-Rad斑点印迹设备上。将300μl PBS抽真空，直至进一步润湿膜。接着，将200μl 1:1样品:变性缓冲混合物负载于每一孔中并允许靠重力流过斑点印迹设备30分钟。接着，在所有孔上通过真空进行300μl PBS洗涤，接着负载300μl Millipore Blok CHNoise Cancelling试剂并孵育60分钟。阻断后，将膜用300μl 1X PBS+0.1％Tween 20洗涤。接着，通过添加2.4μl Sigma MonoclonalANTI-M2-过氧物酶(HRP)抗体至12ml Millipore Blok CHNoise Cancelling试剂(1:5000稀释)来制备抗体溶液。将100μl所得抗体溶液添加至每一孔中并允许靠重力孵育30分钟。抗体孵育后，通过真空用300μl 1X PBS+0.1％Tween 20进行三次后期洗涤。洗涤后，去除硝化纤维膜并置于试剂托盘中。添加20ml Millipore LuminataClassico Western HRP底物并允许孵育1分钟。孵育后，将膜置于GelDoc^TM XR+系统(Bio-rad)的成像托盘中并使用化学发光方案成像。图35显示证明黑曲霉中SEQID-45029变体的分泌的抗FLAG斑点印迹的一个实例。

通过LC/MS/MS鉴别蛋白质

分泌变体的蛋白质序列通过相关凝胶条带的LC/MS/MS进一步确认。将所选命中与含有5％β-巯基乙醇的Invitrogen LDS样品缓冲液混合，煮沸并负载在10％Bis-Tris凝胶(LifeTechnologies)上。跑电泳后，使用SimplyBlue^TM SafeStain(LifeTechnologies)使凝胶染色，并切除所需条带且提交供分析。洗涤凝胶条带，还原并烷基化，接着用胰蛋白酶消化4小时，接着用甲酸淬灭。接着通过nano LC/MS/MS，使用与ThermoFisher Q Exactive接合的Waters NanoAcquity HPLC系统分析消化物。将肽负载在捕获柱上并在75μm分析柱上以350nL/min洗脱；两个柱都用Jupiter Proteo树脂(Phenomenex)填充。质谱仪以数据相关的模式操作，其中MS和MS/MS在Orbitrap中分别在70,000FWHM分辨率和17,500FWHM分辨率下进行。选择十五种最丰富的离子用于MS/MS。使用Mascot针对附有相关变体蛋白质序列的相关宿主数据库搜索所得肽数据。

结果

将黑曲霉菌株用八种特定的SEQID-45029变体(pES2009、pES2010、pES2012、pES2013、pES2014、pES2015、pES2016、pES2017、pES1962)转化。在基本培养基板上选择初级转化株并将来自约十个个别菌落的分生孢子接种至含有完全培养基的96深孔区块中。孵育培养物48小时，接着利用抗FLAG斑点印迹分析来测定上清液的相关蛋白质。对于特定的变体，只有使用编码野生型SEQID-45029的pES1962和编码聚赖氨酸取代的SEQID-45029序列的pES2016的转化在上清液中给出FLAG信号(图35A、B)。

将黑曲霉菌株(参见方法)用SEQID-45029表达载体文库(参见表1)转化。在基本培养基板上选择初级转化体并将来自43个个别菌落的分生孢子接种(一式两份)至含有完全培养基的96深孔区块中。孵育培养物48小时，接着利用抗FLAG斑点印迹分析来测定上清液的相关蛋白质。凝胶18和27的上清液分析给出上清液中以上背景FLAG信号(图35C、D)。

自分离株18和27分离DNA并扩增SEQID-45029表达盒。将PCR产物完全测序以鉴别在细胞中发现的特定DNA序列。分离株18和27的DNA序列展示在所有四个可变位置的多态性，指示每一分离株具有多个不同的表达载体。将PCR产物亚克隆至pCRBlutII TOPO载体中，转化至大肠杆菌中，并对15个亚克隆测序以确定表达载体的多样性(图36)。对于分离株18，鉴别没有与野生型序列相同的可变区的11个独特的表达盒。分离株18-1和18-3含有跨越外显子3和外显子4的相同247个碱基对缺失。对于分离株27，鉴别12个独特的表达盒，其中之一为27-14，其与可变位置2、3和4的野生型序列相同但不同于可变位置1中的野生型序列。15个分离株中大量独特的表达盒表明每一初级分离株具有多个(例如，超过1个，例如2、3、4、5、6、7、8、9、10、11、12、13、14、15或超过15个)整合事件或每一分离株不是克隆菌落且含有多个初级转化株。这些表达盒中的一或多者可在斑点印迹上促进阳性FLAG信号。上清液的质谱分析或所有鉴别的表达盒的再转化用以鉴别容易分泌哪些氨基酸增强突变体。

实施例15.

15A.经工程化以增加消化蛋白酶裂解位点的来自杆菌的分泌蛋白质

工程化分泌变体SEQID-45009、SEQID-45014和SEQID-45027都富集消化蛋白酶的识别位点。通过添加蛋白水解作用的位点，多肽将进一步分解成更小的肽以继续进行蛋白水解，直至其被肠吸收。蛋白质消化中三种关键的蛋白酶是胃蛋白酶、胰蛋白酶和胰凝乳蛋白酶。胃蛋白酶识别位点是选自Phe、Trp、Tyr、Leu、Ala、Glu和Gln的氨基酸残基后(即，下游)的多肽序列中的任何位点，条件为随后残基不是选自Ala、Gly和Val的氨基酸残基。胰蛋白酶识别位点是选自Lys或Arg的氨基酸残基后的多肽序列中的任何位点，条件为随后残基不是脯氨酸。胰凝乳蛋白酶识别位点是选自Phe、Trp、Tyr和Leu的氨基酸残基后的多肽序列中的任何位点。

使SEQID-45009富集4.7％至5.3％精氨酸，精氨酸含量增加13.8％，因此使多肽富集胰蛋白酶的裂解位点。使SEQID-45014富集5.5％至6.3％亮氨酸，亮氨酸含量增加14.3％，因此使多肽富集胃蛋白酶和胰凝乳蛋白酶的裂解位点。使SEQID-45027富含6.2％至8.0％赖氨酸，赖氨酸含量增加28.9％，因此使多肽富集胰蛋白酶的裂解位点。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

工程化分泌变体的可消化性可以经由体外模拟消化测定与电泳、HPLC和LC-MS/MS分析组合来测量。体外消化系统具有用以模拟多肽分解成生物可用的肽和氨基酸同时通过胃与肠的历史(Kopf-Bolanz,K.A.等人,The Journal of nutrition 2012；142:245-250,Hur,S.J.等人,Food Chemistry 2011；125:1-12)。可消化性还预示可能过敏原性序列，因为多肽对消化蛋白酶的抗性可以引起肠吸收和敏化(Astwood等人,Nature Biotechnology 1996；14:1269-1273)。

为了测量可消化性，首先在37℃下在2g/L浓度下用模拟胃液(0.03M NaCl，用HCl滴定至pH 1.5，最终胃蛋白酶:多肽比率为1:20w/w)处理多肽。在时间点从反应取样并通过添加0.2M Na2CO3淬灭。在模拟胃液中120分钟后，剩余反应物与模拟肠液(15mM甘氨脱氧胆酸钠、15mM牛磺胆酸、18.4mM CaCl2、50mM MES pH 6.5，最终胰岛素:胰凝乳蛋白酶:底物比率为1:4:400w/w)50:50混合并用NaOH中和至pH 6.5。在时间点从反应取样并通过添加胰蛋白酶/胰凝乳蛋白酶抑制剂溶液淬灭，直至120分钟。接着可以通过芯片电泳、反相HPLC和LC-MS/MS分析取样时间点。

芯片电泳(Labchip GX II)用以评估完整蛋白质的消化速率(半衰期)。使用HT低MW Protein Express试剂盒(遵循制造商方案)分析样品。每12个样品负载蛋白质阶梯用于分子量测定(kDa)和定量。将每个时间点多肽的浓度(如果检测的话)绘图以计算消化半衰期并表示蛋白质消化的速度。通过增加蛋白酶识别位点，完整蛋白质更可能具有暴露的裂解序列，从而增加完整蛋白质的蛋白水解的起始步骤。

为了通过反相HPLC分析消化，将样品用邻苯二醛(OPA)自动衍生化并通过RP-HPLC与UV-Vis和荧光检测根据Agilent应用说明并行分析(Henderson等人“Rapid,Accurate,Sensitive,and ReproducibleHPLC Analysis of Amino Acids”Agilent(2000))。通过与标准氨基酸和肽混合物比较，检测和定量氨基酸和小的肽。消化样品中氨基酸的量表示蛋白质消化成小的生物可用的组分的效率。通过增加更多的蛋白酶裂解位点，更多的酰胺键断裂且增加蛋白质分解成氨基酸的效率。

为了通过LC-MS/MS分析消化肽，样品pH值用三氟乙酸(TFA)调至pH3并使用HLB固相萃取滤筒(Waters)萃取肽。接着将洗脱肽负载在柱上并通过nano LC/MS/MS分析。针对适当的数据库使用Mascot搜索数据以鉴别肽。使用此方法，可以检测到对消化有抗性的大肽。通过增加对消化有抗性的蛋白酶识别位点至序列空间，多肽可以更彻底地分解成小的肽和氨基酸。

经工程化以增加必需氨基酸含量的来自杆菌的分泌蛋白质

必需氨基酸包括组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、苏氨酸、色氨酸和缬氨酸。因为其碳骨架不是通过身体重新合成以满足代谢需求，所以其必须作为食物来摄入。工程化分泌多肽SEQID-45009、SEQID-45010、SEQID-45014、SEQID-45024、SEQID-45025、SEQID-45026、SEQID-45028和SEQID-45027与野生型相比必需氨基酸含量增加1.1％-2.5％。特别地，SEQID-45014使野生型的必需氨基酸含量从42.1％增加至43.7％，增加3.8％。此外，所有这些变体都含有整套所有必需氨基酸。施用这些营养多肽可以提供受试者饮食中缺乏或量不充足的必需氨基酸，从而治疗或预防必需氨基酸不足。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加PDCAAS(蛋白质消化率校正的氨基酸评分)的来自杆菌的分泌蛋白质

PDCAAS为从1990年营养标示与教育法(Nutrition Labeling andEducation Act of 1990(NLEA))发布的美国食品和药物管理局(US-FDA)标签条例在声明蛋白质含量的质量时所要求。所述方法由粮食及农业组织/世界卫生组织(FAO/WHO)在1991年描述和推荐使用(FAO/WHO.Protein Quality Evaluation；Report of a Joint FAO/WHOExpert Consultation,United Nations；Rome,Italy,1991)。PDCAAS是蛋白质质量的量度，其是基于通过评估限制氨基酸相对于参考蛋白的经真实粪便可消化性百分比标准化的比率的人的氨基酸需求和其消化氨基酸的能力。突变变体SEQID-45009、SEQID-45010、SEQID-45024和SEQID-45026与野生型相比具有升高的PDCAAS评分，尤其对于SEQID-45009，其PDCAAS评分从0.92增加至1.04，增加13％。具有较高PDCAAS评分的多肽能够提供优良比率的递送至身体的重要氨基酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加赖氨酸含量的来自杆菌的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45027具有富集的赖氨酸含量。在SEQID-45027中，赖氨酸从6.2％增加至8.0％，赖氨酸含量增加28.9％。通过使分泌蛋白质富集赖氨酸，已经增加无法合成的必需氨基酸的含量且已经添加对生长和健康具有额外效用的重要氨基酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加甲硫氨酸含量的来自杆菌的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45010和SEQID-45026具有富集的甲硫氨酸含量。在SEQID-45010中，甲硫氨酸从1.9％增加至2.4％，甲硫氨酸含量增加29.3％。在SEQID-45026中，甲硫氨酸从1.9％增加至3.5％，甲硫氨酸含量增加89.0％。通过使分泌蛋白质富集甲硫氨酸，已经增加无法合成的必需氨基酸的含量且已经添加对生长和健康具有额外效用的重要氨基酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加组氨酸含量的来自杆菌的分泌蛋白质

突变变体SEQID-45028与野生型相比，组氨酸氨基酸含量从3.1％增加至4.9％，组氨酸增加55％。通过使分泌蛋白质富集组氨酸，已经增加无法合成的必需氨基酸的含量且已经添加对生长和健康具有额外效用的重要氨基酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加精氨酸含量的来自杆菌的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45009和SEQID-45010具有富集的精氨酸含量。在SEQID-45009中，精氨酸从4.7％增加至5.3％，精氨酸含量增加13.8％。在SEQID-45010中，精氨酸从4.7％增加至5.3％，精氨酸含量增加13.7％。通过使分泌蛋白质富集精氨酸，已经添加对生长和健康具有效用的重要的非必需氨基酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加苏氨酸含量的来自杆菌的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45025具有富集的苏氨酸含量。在SEQID-45025中，苏氨酸从6.9％增加至8.2％，苏氨酸含量增加18.6％。通过使分泌蛋白质富集苏氨酸，已经增加无法合成的必需氨基酸的含量且已经添加对生长和健康具有额外效用的重要氨基酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加BCAA含量的来自杆菌的分泌蛋白质

证明SEQID-45009、SEQID-45010、SEQID-45014、SEQID-45024变体容易分泌并相对于野生型SEQID-45001，含有增加的支链氨基酸。SEQID-45009、SEQID-45010、SEQID-45014、SEQID-45024相对于野生型SEQID-45001含有增加7.2％、6.4％、9.7％和8.1％的支链氨基酸。通过使分泌蛋白质富集BCAA，已经增加必需氨基酸的含量和氨基酸的重要家族。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

已经显示支链氨基酸通过在人肌肉休息时增加蛋白质合成速率和降低蛋白质降解速率，对蛋白质代谢具有合成作用。另外，显示BCAA在耐力训练后恢复期间对人肌肉具有合成作用。这些作用通过mTOR的磷酸化和70-kD S6蛋白激酶(p70-kD S6)的依序活化以及真核起始因子4E-结合蛋白1介导。P70-kD S6因其在调节细胞周期进展、细胞大小和细胞存活方面的作用而众所周知。P70-kD S6回应于有丝分裂原刺激的活化使核蛋白体生物合成上调并增强细胞的翻译能力(W-L An等人,Am J Pathol.2003年8月；163(2):591-607；E.Blomstrand等人,J.Nutr.2006年1月136:269S-273S)。真核起始因子4E-结合蛋白1是将40S核蛋白体亚单位募集至mRNA5’末端的多亚单位复合物的限制性组分。p70S6激酶的活化和随后核糖体蛋白S6的磷酸化与特定mRNA的翻译增强有关。

在四头肌肌阻力训练期间和一段时间后给予受试者的BCAA显示mTOR、p70S6激酶增加，且在训练后的恢复时期发现S6磷酸化。然而，BCAA对Akt或糖原合酶激酶3(GSK-3)没有此类作用。没有摄入BCAA的训练导致p70S6激酶的部分磷酸化，而不使该酶活化，使得Akt磷酸化降低且GSK-3无变化。BCAA输注也以与Akt无关的方式在受试者休息时增加p70S6激酶磷酸化。此外已知亮氨酸是以细胞特异性方式刺激mTOR1磷酸化的初级信号传导分子。此调节细胞蛋白质更新(自体吞噬)并将跨越组织将类胰岛素生长信号整合至蛋白质合成开始。此生物学已经与骨骼肌中瘦组织质量的生物起源、肥胖症和胰岛素抗性的疾病病况中的代谢变换以及衰老直接相关。

经工程化以增加亮氨酸含量的来自杆菌的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45009、SEQID-45010、SEQID-45014和SEQID-45024具有富集的亮氨酸含量。在SEQID-45009中，亮氨酸从5.5％增加至6.1％，亮氨酸含量增加11.3％。在SEQID-45010中，亮氨酸从5.5％增加至6.0％，亮氨酸含量增加8.3％。在SEQID-45014中，亮氨酸从5.5％增加至6.3％，亮氨酸含量增加14.3％。在SEQID-45024中，亮氨酸从5.5％增加至5.8％，亮氨酸含量增加5.6％。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加异亮氨酸含量的来自杆菌的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45009、SEQID-45010和SEQID-45014具有富集的亮氨酸含量。在SEQID-45009中，亮氨酸从5.5％增加至6.1％，亮氨酸含量增加11.3％。在SEQID-45010中，亮氨酸从5.5％增加至6.0％，亮氨酸含量增加8.3％。在SEQID-45014中，亮氨酸从5.5％增加至6.3％，亮氨酸含量增加14.3％。在SEQID-45024中，亮氨酸从5.5％增加至5.8％，亮氨酸含量增加5.6％。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以增加缬氨酸含量的来自杆菌的分泌蛋白质

证明SEQID-45009、SEQID-45010、SEQID-45014、SEQID-45024变体容易分泌并相对于野生型SEQID-45001，含有增加的缬氨酸。SEQID-45009、SEQID-45010、SEQID-45014、SEQID-45024相对于野生型SEQID-45001含有增加15.6％、9.1％、9.2％和25.5％的缬氨酸。野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分在表15A中列出。

经工程化以降低活性的来自杆菌的分泌蛋白质

在一些情况下，工程化分泌蛋白质是酶或具有酶活性。因为活性对于营养质量来说不一定是重要的，所以可能需要使酶活性失活或减小。预测SEQID-45001的活性位点是残基D217和E249，这些残基是位于催化结构域中心的酸性残基。为了产生不含酶活性且富集对营养和健康来说是重要的氨基酸的多肽，可以使那两个位点突变以破坏SEQID-45001的催化活性。因为SEQID-45001中的D217和E249可以充当亲核基团和质子供体或接受体以与其配体形成氢键，所以可以使两个残基突变成丙氨酸或必需氨基酸来破坏活性。丙氨酸、苯丙氨酸、亮氨酸、异亮氨酸、缬氨酸和甲硫氨酸的侧链中缺乏氧或氮原子，并且无法充当配体的亲核基团或质子供体。苏氨酸、赖氨酸和精氨酸在生理pH值下的电荷以及其尺寸和形状不同于谷氨酸和天冬氨酸。

表15A.野生型SEQID-45001和变体的氨基酸含量和PDCAAS评分。

经工程化以增加消化蛋白酶裂解位点的来自曲霉属的分泌蛋白质

使工程化分泌变体SEQID-45052富集消化蛋白酶的识别位点。通过增加蛋白水解作用的位点，多肽将进一步分解成更小的肽以继续进行蛋白水解，直至其被肠吸收。蛋白质消化中三种关键的蛋白酶是胃蛋白酶、胰蛋白酶和胰凝乳蛋白酶。胃蛋白酶识别位点是选自Phe、Trp、Tyr、Leu、Ala、Glu和Gln的氨基酸残基后(即下游)的多肽序列中的任何位点，条件为随后残基不是选自Ala、Gly和Val的氨基酸残基。胰蛋白酶识别位点是选自Lys或Arg的氨基酸残基后的多肽序列中的任何位点，条件为随后残基不是脯氨酸。胰凝乳蛋白酶识别位点是选自Phe、Trp、Tyr和Leu的氨基酸残基后的多肽序列中的任何位点。使SEQID-45052富集3.0％至5.8％赖氨酸，赖氨酸含量增加92.4％，因此使多肽富集胰蛋白酶的裂解位点。野生型SEQID-45029和变体的氨基酸含量和PDCAAS评分在表15B中列出。如上文(经工程化以增加消化蛋白酶裂解位点的来自杆菌的分泌蛋白质)中所描述，工程化分泌变体的可消化性可以经由体外模拟消化测定与电泳、HPLC和LC-MS/MS分析组合来测量。

经工程化以增加必需氨基酸含量的来自曲霉属的分泌蛋白质

必需氨基酸包括组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、苏氨酸、色氨酸和缬氨酸。因为其碳骨架不是通过身体重新合成以满足代谢需求，所以其必须作为食物来摄入。工程化分泌多肽SEQID-45029使野生型的必需氨基酸含量从41.9％增加至44.4％，增加6.0％。此外，此变体含有整套所有必需氨基酸。施用这些营养多肽可以提供受试者饮食中缺乏或量不充足的必需氨基酸，从而治疗或预防必需氨基酸不足。野生型SEQID-45029和变体的氨基酸含量和PDCAAS评分在表15B中列出。

氨基酸用于正常细胞功能性，且通过改变单个氨基酸的可用性驱动的代谢变换可以影响全身的稳衡和发育。另外，氨基酸用作信号传导分子和用于维持、生长、复制、免疫性的关键代谢途径的调节剂。存在不带电的tRNA如何变构上活化GCN2，导致与脂肪形成、蛋白质合成以及真核生物中的许多生物合成途径相关的转录因子(以下论述的SREBP-1c、eIF2a和GCN4p)的下游磷酸化的机械论理解。缺少必需氨基酸的饮食在引入饮食后的几分钟内显著触发此信号传导(Hao等人,science 2005)。已经在体内展示通过STREBP-1c的信号传导通过抑制与脂肪形成相关的基因对动员脂质存储具有极大作用。已经显示STREBP-1c特别作用于肝的脂质合成，以及能够引起肝脂质沉着症表型以及增加内脏脂肪质量(Knebel,B.等人Liver-SpecificExpression of Transcriptionally Active SREBP-1c Is Associated withFatty Liver and Increased Visceral Fat Mass.PLoS,2012)。通过其作用于GCN2而对必需氨基酸的剥夺对SREBP-1c有影响且减少肝重量(和脂肪肝表型)、脂肪组织重量、胆固醇/甘油三酸酯含量和食物摄入的生理量度。推动脂肪质量降低同时维持瘦质量提供了在例如肥胖症、糖尿病和心血管健康领域中的治疗机会。

经工程化以增加PDCAAS(蛋白质消化率校正的氨基酸评分)的来自曲霉属的分泌蛋白质

PDCAAS由从1990年营养标示与教育法(NLEA)发布的美国食品和药物管理局(US-FDA)标签条例在声明蛋白含量的质量时所要求。所述方法由粮食及农业组织/世界卫生组织(FAO/WHO)在1991年描述和推荐使用(FAO/WHO.Protein Quality Evaluation；Report of a JointFAO/WHO Expert Consultation,United Nations；Rome,Italy,1991)。PDCAAS是蛋白质质量的量度，其是基于通过评估限制氨基酸相对于参考蛋白的经真实粪便可消化性百分比标准化的比率的人的氨基酸需求和其消化氨基酸的能力。突变体SEQID-45052与野生型相比，具有升高的PDCAAS评分，从0.67增加至0.78，增加了16％。野生型SEQID-45029和变体的氨基酸含量和PDCAAS评分在表15B中列出。具有较高PDCAAS评分的多肽能够提供优良比率的递送至身体的重要氨基酸。

经工程化以增加赖氨酸含量的来自曲霉属的分泌蛋白质

当与野生型蛋白质相比时，工程化分泌变体SEQID-45052具有富集的赖氨酸含量。在SEQID-45052中，赖氨酸从3.0％增加至5.8％，赖氨酸含量增加92.4％。通过使分泌蛋白质富集赖氨酸，已经增加无法合成的必需氨基酸的含量且已经添加对生长和健康具有额外效用的重要氨基酸。野生型SEQID-45029和变体的氨基酸含量和PDCAAS评分在表15B中列出。

经工程化以降低活性的来自曲霉属的分泌蛋白质

在一些情况下，工程化分泌蛋白质是酶或具有酶活性。因为活性对于营养质量来说不一定是重要的，所以可能需要使酶活性失活或减小。预测SEQID-45029的活性位点是残基D200和E203，这些残基都是位于催化结构域中心的酸性残基。为了产生不含酶活性的营养多肽，可以使那两个位点突变以破坏SEQID-45029的催化活性。因为SEQID-45029中的D200和E203可以充当亲核基团和质子供体或接受体以与其配体形成氢键，所以可以使两个残基突变成丙氨酸或必需氨基酸来破坏活性。丙氨酸、苯丙氨酸、亮氨酸、异亮氨酸、缬氨酸和甲硫氨酸的侧链中缺乏氧或氮原子，并且无法充当配体的亲核基团或质子供体。在生理pH值下苏氨酸、赖氨酸和精氨酸的电荷与其尺寸和形状不同于谷氨酸和天冬氨酸。

非正式序列表

表SEQID

附录A

枝顶孢属分泌蛋白质组

曲霉属分泌蛋白质组

枯草杆菌分泌蛋白质组

金孢霉属分泌蛋白质组

棒状杆菌属分泌蛋白质组

大肠杆菌分泌蛋白质组

镰刀菌属分泌蛋白质组

青霉属分泌蛋白质组

巴斯德毕赤氏酵母分泌蛋白质组

根霉属分泌蛋白质组

酿酒酵母分泌蛋白质组

聚球藻属分泌蛋白质组

集胞藻属分泌蛋白质组

栓菌属分泌蛋白质组

木霉属分泌蛋白质组

附录B

锚蛋白重复序列：

富含亮氨酸重复序列：

三十四肽重复序列：

犰狳重复序列：

纤连蛋白III型结构域：

类脂质运载蛋白结构域：

扭结菌素：

纤维素结合结构域：

碳水化合物结合结构域：

蛋白Z折叠：

PDZ结构域：

SH3结构域：

SH2结构域：

WW结构域：

硫氧还原蛋白：

亮氨酸拉链：

植物同源结构域：

Tudor结构域：

疏水蛋白：

附录C

MSA序列ID：所有鉴别编号都是NCBI蛋白质GenBank数据库中鉴别特定序列的GI编号。

葡糖苷酶纤连蛋白III型结构域(黑曲霉)

疏水蛋白1(里氏木霉)

疏水蛋白2(里氏木霉)

碳水化合物结合模块20(黑曲霉)

纤维素结合结构域1(黑曲霉)

1，4-β-D-葡聚糖纤维二糖水解酶(黑曲霉)

葡糖淀粉酶(黑曲霉)

内切-1，4-β-木聚糖酶A(黑曲霉)

内切-β-1，4-葡聚糖酶(黑曲霉)

β-葡糖苷酶(黑曲霉)

附录D

表1：(SEQ ID NO:1)

表2：(SEQ ID NO:2)

表3：(SEQ ID NO:3)

表4：(SEQ ID NO:4)

表5：(SEQ ID NO:5)

表6A：(SEQ ID NO:6)

表6B：(SEQ ID NO:6)

表6C：(SEQ ID NO:6)

表6D：(SEQ ID NO:6)

表7：(SEQ ID NO:7)

表8：(SEQ ID NO:8)

表9：(SEQ ID NO:9)

Claims

1.一种包含分离的营养多肽的制剂，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率，其中所述营养多肽以营养量存在于所述制剂中，且其中所述制剂基本上不含非食用产品。

2.如权利要求1所述的制剂，其中所述一种或多种必需氨基酸以营养量存在于所述制剂中。

3.如权利要求1所述的制剂，其中所述营养多肽的总必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中所述总必需氨基酸与总氨基酸的比率。

4.如权利要求1所述的制剂，其中所述营养多肽的单一必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中所述单一必需氨基酸与总氨基酸的比率。

5.如权利要求1所述的制剂，其中所述营养多肽的两种必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中所述两种必需氨基酸与总氨基酸的比率。

6.如权利要求1所述的制剂，其中所述参考分泌蛋白质包含分泌酶多肽。

7.如权利要求6所述的制剂，其中所述分离的营养多肽能够降低所述分泌酶多肽的主要酶活性水平。

8.如权利要求1所述的制剂，其中所述分离的营养多肽基本上从宿主细胞纯化。

9.如权利要求1所述的制剂，其中所述营养多肽的溶解性在pH7下超过约10g/l。

10.如权利要求1所述的制剂，其中所述营养多肽的溶解性超过所述参考分泌蛋白质的溶解性。

11.如权利要求1所述的制剂，其中所述营养多肽的可消化性具有小于六十分钟的模拟胃消化半衰期。

12.如权利要求1所述的制剂，其中所述营养多肽的可消化性超过所述参考分泌蛋白质的可消化性。

13.如权利要求1所述的制剂，其中所述营养多肽的热稳定性超过所述参考分泌蛋白质的热稳定性。

14.如权利要求1所述的制剂，其中所述营养多肽具有-20或更低的计算溶剂化评分。

15.如权利要求1所述的制剂，其中所述营养多肽具有0.75或更低的计算聚集评分。

16.如权利要求1所述的制剂，其中所述营养多肽的溶解性和可消化性超过所述参考分泌蛋白质的溶解性和可消化性。

17.如权利要求1所述的制剂，其中所述营养多肽具有小于约50％的与已知过敏原的同源性。

18.如权利要求1所述的制剂，其中所述参考分泌蛋白质是i)选自通过以下UniProt登录号鉴别的蛋白质的蛋白质：Q4WBW4,Q99034,A1DBP9,Q8NJP6,A1CU44,B0Y8K2,Q4WM08,Q0CMT2,Q8NK02,A1DNL0,A1CCN4,B0XWL3,Q4WFK4,A2QYR9,Q0CFP1,Q5B2E8,A1DJQ7,A1C4H2,B0Y9G4,B8MXJ7,Q4WBU0,Q96WQ9,A2R5N0,Q2US83,Q0CEU4,Q5BCX8,A1DBS6,Q9HE18,O14405,P62694,Q06886,P13860,Q9P8P3,P62695,P07987,A1C8U0,B0Y9E7,B8NIV9,Q4WBS1,Q2U2I3,Q5AR04,A1DBV1,B0YEK2,B8N7Z0,A4DA70,A2R2S6,Q2UI87,Q0CVX4,Q5AX28,A1D9S3,A1CC12,B0Y2K1,Q4WW45,Q5AQZ4,Q99024,P29026,P29027,P69328,P69327,P36914,P23176,P22832,A2QHE1,A1CR85,B0XPE1,B8NRX2,Q4WJJ3,P87076,A2RAL4,Q2UUD6,D0VKF5,Q0CTD7,Q5B5S8,A1D451,B8NJF4,A2QPK4,Q2UNR0,Q5AUW5,B0Y7Q8,B8NP65,Q4WMU3,Q2UN12,Q0CI67,Q5B6C6,A1DMR8,B8NMR5,Q2U325,Q0CUC1,Q5B0F4,A1DC16,A1CUR8,B0XM94,B8NPL7,Q4WL79,Q2U9M7,Q5B6C7,A1DPG0,A1CA51,B0Y3M6,B8NDE2,Q4WU49,A2R989,Q2U8Y5,Q0CAF5,Q5BB53,A1DFA8,B0Y8M8,Q4WLY1,Q5AV15,A1DNN8,Q5BA18,B0YB65,Q4WGT3,Q0CEF3,Q5B9F2,A1DCV5,B0XPB8,B8N5S6,Q4WR62,A5ABF5,Q2UDK7,Q0C7L4,Q5AWD4,A1D122,Q5B681,Q5BG51,A1CCL9,Q0CB82,Q5ATH9,Q4AEG8,B0XP71,B8MYV0,Q4WRB0,A2QA27,O00089,Q2UR38,Q0CMH8,Q5BAS1,P29026,P29027,P48827,A1CIA7,B0Y708,P35211,B8N106,P28296,P12547,Q00208,A1CWF3,P52750,P52754,P79073,P52755,P41746或P28346，ii)SEQID-45001；iii)SEQID-45029；或iv)至少50个氨基酸长的i)、ii)或iii)的片段。

19.如权利要求1-18中任一项所述的制剂，其以每1kg制剂至少100g的浓度包含至少1.0g营养多肽。

20.如权利要求1-18中任一项所述的制剂，其中所述制剂作为液体、半液体或凝胶以不大于约500ml的体积存在，或作为固体或半固体以不大于约200g的质量存在。

21.如权利要求1所述的制剂，其中所述营养多肽在重组生物体中产生。

22.如权利要求1所述的制剂，其中所述营养多肽由包含编码所述营养多肽的重组核酸序列的单细胞生物体产生。

23.如权利要求1所述的制剂，其中所述制剂提供蛋白质的参考每日摄入值的至少约2％的营养益处或另外以足够提供人受试者消耗时饱腹感的量存在。

24.如权利要求1所述的制剂，其中所述制剂提供一种或多种必需氨基酸的参考每日摄入值的至少约2％的营养益处。

25.如权利要求1所述的制剂，其中所述制剂提供总必需氨基酸的参考每日摄入值的至少约2％的营养益处。

26.如权利要求1所述的制剂，其中所述制剂提供至少10克营养多肽。

27.如权利要求1所述的制剂，其配制用于经肠施用。

28.如权利要求1所述的制剂，其中i)在所述营养多肽或所述参考分泌蛋白质全长上，所述营养多肽包含与所述参考分泌蛋白质至少约98％或99％或99.5％或99.9％整体序列同一性，或ii)所述营养多肽包含所述参考分泌蛋白质的直系同源物，其中在所述营养多肽或所述参考分泌蛋白质的全长上，所述直系同源物包含与所述参考分泌蛋白质至少约70％整体序列同一性。

29.一种食品，其包含至少约1克如权利要求1所述的制剂。

30.如权利要求1所述的制剂，其中所述制剂提供每100g等于或大于蛋白质的参考每日摄入值的至少约2％的营养益处。

31.如权利要求1所述的制剂，其中当向人受试者施用时所述营养多肽的有效量低于所述参考分泌蛋白质的有效量。

32.如权利要求1所述的制剂，其基本上不含表面活性剂、聚乙烯醇、丙二醇、聚乙酸乙烯酯、聚乙烯吡咯烷酮、非食用多元酸或多元醇、脂肪醇、磺酸烷基苯甲基酯、烷基葡糖苷或对羟基苯甲酸甲酯。

33.如权利要求1所述的制剂，其进一步包含促味剂、维生素、矿物质或其组合。

34.如权利要求1所述的制剂，其进一步包含调味剂或非营养多元醇。

35.如权利要求1所述的制剂，其进一步包含营养碳水化合物和/或营养脂质。

36.一种重组单细胞生物体，其包含编码分离的营养多肽的重组核酸序列，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。

37.如权利要求36所述的重组单细胞生物体，其中营养多肽从所述单细胞生物体分泌。

38.一种配制营养产品的方法，其包括以下步骤：提供包含有效量的分离的营养多肽的组合物，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率，其中所述营养多肽以每克所述组合物至少1mg营养多肽的浓度存在于所述组合物中；并将所述组合物与至少一种食物组分组合，由此配制所述营养产品。

39.如权利要求38所述的方法，其中所述食物组分包括调味剂、促味剂、农业来源的食品、维生素、矿物质、营养碳水化合物、营养脂质、粘合剂、填充剂或其组合，其中所述营养产品可食用，且其中所述营养产品以每1kg营养产品至少100g的浓度包含至少1.0g营养多肽，且其中所述营养产品作为液体、半液体或凝胶以不大于约500ml的体积存在，或作为固体或半固体以不大于约200g的质量存在。

40.一种选择营养组合物以供向可以得益于所述营养组合物的人受试者施用的方法，所述方法包括：鉴别所述受试者中最低必需氨基酸营养需要；计算满足所述最低必需氨基酸营养需要所需的必需氨基酸含量评分；以及提供包含有效量的营养多肽的营养组合物，其中所述营养组合物具有至少所述所需的必需氨基酸含量评分。

41.一种选择营养组合物以供向可以得益于所述营养组合物的人受试者施用的方法，所述方法包括：鉴别所述受试者中最大必需氨基酸营养需要；计算不超过所述最大必需氨基酸营养需要所需的必需氨基酸含量评分；以及提供包含有效量的营养多肽的营养组合物，其中所述营养组合物具有至多所述所需的必需氨基酸含量评分。

42.一种治疗有需要的人受试者的特征为蛋白质营养失调或由蛋白质营养失调加重的疾病、病症或病状的方法，其包括以下步骤：向所述人受试者施用足够治疗此类疾病、病症或病状的量的营养制剂，其中所述营养制剂包含营养多肽和农业来源的食品，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。

43.如权利要求42所述的方法，其中所述人受试者是年老受试者。

44.如权利要求42所述的方法，其中所述人受试者是18岁以下的儿童。

45.如权利要求42所述的方法，其中所述人受试者是怀孕受试者或哺乳期女性受试者。

46.如权利要求42所述的方法，其中所述人受试者是18岁与约65岁之间的成年人。

47.如权利要求42所述的方法，其中所述人受试者是罹患肥胖症、糖尿病或心血管疾病或处于发展肥胖症、糖尿病或心血管疾病的风险的成年人。

48.一种改善人受试者的营养状况的方法，其包括向所述受试者施用有效量的包含农业来源的食品和分离的营养多肽的营养制剂，其中所述营养多肽的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。

49.一种工程化蛋白质，其包含：至少20个氨基酸的序列，所述序列包含与参考分泌蛋白质的氨基酸序列相比改变的氨基酸序列，且所述工程化蛋白质中存在的必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中存在的所述必需氨基酸与总氨基酸的比率。

50.如权利要求49所述的工程化蛋白质，其包含所述参考分泌蛋白质中非必需氨基酸残基的至少一个必需氨基酸残基取代。

51.如权利要求49所述的工程化蛋白质，其包含i)所述参考分泌蛋白质中非精氨酸(Arg)或非谷氨酰胺(Glu)氨基酸残基的至少一个精氨酸(Arg)或谷氨酰胺(Glu)氨基酸残基取代；ii)所述参考分泌蛋白质中非苯丙氨酸(Phe)氨基酸残基的至少一个Phe氨基酸残基取代；或iii)其组合。

52.如权利要求49所述的工程化蛋白质，其包含i)所述参考分泌蛋白质中非亮氨酸(Leu)氨基酸残基的至少一个Leu氨基酸残基取代；ii)所述参考分泌蛋白质中非异亮氨酸(Ile)氨基酸残基的至少一个Ile氨基酸残基取代；或iii)其组合。

53.如权利要求49所述的工程化蛋白质，其包含所述参考分泌蛋白质中非缬氨酸(Val)氨基酸残基的至少一个Val氨基酸残基取代。

54.如权利要求49所述的工程化蛋白质，其包含所述参考分泌蛋白质中非苏氨酸(Thr)氨基酸残基的至少一个Thr氨基酸残基取代。

55.如权利要求49所述的工程化蛋白质，其包含所述参考分泌蛋白质中非赖氨酸(Lys)氨基酸残基的至少一个Lys氨基酸残基取代。

56.如权利要求49所述的工程化蛋白质，其包含所述参考分泌蛋白质中非甲硫氨酸(Met)氨基酸残基的至少一个Met氨基酸残基取代。

57.如权利要求49所述的工程化蛋白质，其包含所述参考分泌蛋白质中非组氨酸(His)氨基酸残基的至少一个His氨基酸残基取代。

58.如权利要求49所述的工程化蛋白质，其中所述氨基酸残基取代在每个氨基酸位置熵为至少1.5的氨基酸位置上。

59.如权利要求49所述的工程化蛋白质，其中所述参考分泌蛋白质与所述工程化蛋白质之间的总折叠自由能差异小于或等于0.5。

60.一种工程化蛋白质，其在位置熵为至少1.5的位置包含参考分泌蛋白质中非必需氨基酸残基的至少一个必需氨基酸残基取代。

61.如权利要求49所述的工程化蛋白质，其中所述参考分泌蛋白质是天然存在的蛋白质。

62.如权利要求49所述的工程化蛋白质，其中所述工程化蛋白质当在相容微生物中表达时从其分泌。

63.如权利要求62所述的工程化蛋白质，其中所述微生物是与其中所述参考分泌蛋白质天然存在的微生物相同的属。

64.如权利要求62所述的工程化蛋白质，其中所述微生物是异养生物。

65.如权利要求62所述的工程化蛋白质，其中所述微生物是光合的。

66.如权利要求65所述的工程化蛋白质，其中所述光合微生物是蓝细菌。

67.一种分离的工程化蛋白质，其包含至少20个氨基酸的序列，所述序列包含与参考分泌蛋白质的氨基酸序列相比改变的氨基酸序列，且所述工程化蛋白质中存在的必需氨基酸与总氨基酸的比率高于所述参考分泌蛋白质中存在的所述必需氨基酸与总氨基酸的比率。

68.一种制剂，其包含营养量的如权利要求67所述的分离的工程化蛋白质。

69.如权利要求68所述的制剂，其中所述制剂基本上不含非食用产品。

70.如权利要求68所述的制剂，其中所述工程化蛋白质的所述氨基酸序列与所述参考分泌蛋白质至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％同源。

71.如权利要求68所述的制剂，其中所述工程化蛋白质的所述氨基酸序列与所述参考分泌蛋白质具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％同一性。

72.如权利要求68所述的制剂，其中所述参考分泌蛋白质中至少2个非必需氨基酸残基被必需氨基酸残基取代。

73.如权利要求68所述的制剂，其中所述参考分泌蛋白质中约5至约50个非必需氨基酸残基被必需氨基酸残基取代。

74.如权利要求68所述的制剂，其中所述参考分泌蛋白质中一种或多种非必需氨基酸残基的至少约1％被一种或多种必需氨基酸残基取代。

75.如权利要求68所述的制剂，其中所述参考分泌蛋白质中一种或多种非必需氨基酸残基的至少约1.5％被一种或多种必需氨基酸残基取代。

76.如权利要求68所述的制剂，其中所述参考分泌蛋白质中一种或多种非必需氨基酸残基的至少约2％被一种或多种必需氨基酸残基取代。

77.如权利要求68所述的制剂，其中所述参考分泌蛋白质中一种或多种非必需氨基酸残基的至少约3％一种或多种必需氨基酸残基取代。

78.如权利要求68所述的制剂，其中所述参考分泌蛋白质中一种或多种非必需氨基酸残基的至少约4％被一种或多种必需氨基酸残基取代。

79.如权利要求68所述的制剂，其中所述参考分泌蛋白质源于选自以下的属的生物体：曲霉属、木霉属、青霉属、嗜热丝孢菌属、克卢费氏酵母属、金孢霉属、毁丝霉属、枝顶孢属、镰刀菌属、栓菌属和根霉属。

80.如权利要求68所述的制剂，其中所述参考分泌蛋白质源于于选自以下的微生物：大肠杆菌、枯草杆菌、酿酒酵母、巴斯德毕赤氏酵母、棒状杆菌属的种、解淀粉芽孢杆菌、地衣芽孢杆菌、集胞藻属的种和聚球藻属的种。

81.如权利要求68所述的制剂，其中所述参考分泌蛋白质是选自附录A中列出的蛋白质的蛋白质。

82.如权利要求68所述的制剂，其中所述参考分泌蛋白质选自SEQ ID NO:1-9。

83.如权利要求68所述的制剂，其中所述参考分泌蛋白质包含选自纤维素结合结构域、碳水化合物结合模块、纤连蛋白III型结构域和疏水蛋白的折叠共同序列。

84.如权利要求68所述的制剂，其中所述参考分泌蛋白质是选自通过以下UniProt登录号鉴别的蛋白质的蛋白质：Q4WBW4,Q99034,A1DBP9,Q8NJP6,A1CU44,B0Y8K2,Q4WM08,Q0CMT2,Q8NK02,A1DNL0,A1CCN4,B0XWL3,Q4WFK4,A2QYR9,Q0CFP1,Q5B2E8,A1DJQ7,A1C4H2,B0Y9G4,B8MXJ7,Q4WBU0,Q96WQ9,A2R5N0,Q2US83,Q0CEU4,Q5BCX8,A1DBS6,Q9HE18,O14405,P62694,Q06886,P13860,Q9P8P3,P62695,P07987,A1C8U0,B0Y9E7,B8NIV9,Q4WBS1,Q2U2I3,Q5AR04,A1DBV1,B0YEK2,B8N7Z0,A4DA70,A2R2S6,Q2UI87,Q0CVX4,Q5AX28,A1D9S3,A1CC12,B0Y2K1,Q4WW45,Q5AQZ4,Q99024,P29026,P29027,P69328,P69327,P36914,P23176,P22832,A2QHE1,A1CR85,B0XPE1,B8NRX2,Q4WJJ3,P87076,A2RAL4,Q2UUD6,D0VKF5,Q0CTD7,Q5B5S8,A1D451,B8NJF4,A2QPK4,Q2UNR0,Q5AUW5,B0Y7Q8,B8NP65,Q4WMU3,Q2UN12,Q0CI67,Q5B6C6,A1DMR8,B8NMR5,Q2U325,Q0CUC1,Q5B0F4,A1DC16,A1CUR8,B0XM94,B8NPL7,Q4WL79,Q2U9M7,Q5B6C7,A1DPG0,A1CA51,B0Y3M6,B8NDE2,Q4WU49,A2R989,Q2U8Y5,Q0CAF5,Q5BB53,A1DFA8,B0Y8M8,Q4WLY1,Q5AV15,A1DNN8,Q5BA18,B0YB65,Q4WGT3,Q0CEF3,Q5B9F2,A1DCV5,B0XPB8,B8N5S6,Q4WR62,A5ABF5,Q2UDK7,Q0C7L4,Q5AWD4,A1D122,Q5B681,Q5BG51,A1CCL9,Q0CB82,Q5ATH9,Q4AEG8,B0XP71,B8MYV0,Q4WRB0,A2QA27,O00089,Q2UR38,Q0CMH8,Q5BAS1,P29026,P29027,P48827,A1CIA7,B0Y708,P35211,B8N106,P28296,P12547,Q00208,A1CWF3,P52750,P52754,P79073,P52755,P41746和P28346。

85.如权利要求49所述的工程化蛋白质，其中所述工程化蛋白质进一步包含用于亲和力纯化的多肽标签。

86.如权利要求85所述的工程化蛋白质，其中用于亲和力纯化的所述标签包括聚组氨酸标签。

87.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有至少0.05的每个氨基酸净绝对电荷。

88.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有至少0.10的每个氨基酸净绝对电荷。

89.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有至少0.15的每个氨基酸净绝对电荷。

90.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有至少0.20的每个氨基酸净绝对电荷。

91.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有至少0.25的每个氨基酸净绝对电荷。

92.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有净正电荷。

93.如权利要求68所述的制剂，其中所述工程化蛋白质在pH7下具有净负电荷。

94.如权利要求68所述的制剂，其中所述工程化蛋白质是可消化的。

95.如权利要求68所述的制剂，其中所述工程化蛋白质包含选自胃蛋白酶识别位点、胰蛋白酶识别位点和胰凝乳蛋白酶识别位点的蛋白酶识别位点，或其中相对于参考分泌蛋白质，所述工程化蛋白质包含增加的选自胃蛋白酶识别位点、胰蛋白酶识别位点和胰凝乳蛋白酶识别位点的蛋白酶识别位点的比率。

96.一种分离的核酸，其包含编码如权利要求49所述的工程化蛋白质的核酸序列。

97.根据权利要求96所述的分离的核酸，其进一步包含可操作地连接于编码工程化蛋白质的核酸序列的表达控制序列。

98.一种载体，其包含编码如权利要求49所述的工程化蛋白质的核酸序列。

99.如权利要求98所述的载体，其进一步包含可操作地连接于编码工程化蛋白质的核酸序列的表达控制序列。

100.一种重组微生物，其包含以下中的至少一者：a)根据权利要求96和97中任一项所述的核酸和b)根据权利要求98和99中任一项所述的载体。

101.一种制备工程化蛋白质的方法，其包括在足够由所述重组微生物产生所述工程化蛋白质的条件下培养如权利要求100所述的重组微生物。

102.如权利要求101所述的方法，其进一步包括从所述培养物分离所述工程化蛋白质。

103.如权利要求101所述的方法，其中所述工程化蛋白质是可溶的。

104.如权利要求101所述的方法，其中所述工程化蛋白质由所述培养的重组微生物分泌且从所述培养基分离所述工程化蛋白质。

105.一种营养组合物，其包含如权利要求49所述的工程化蛋白质和至少一种第二组分。

106.如权利要求105所述的营养组合物，其中所述第二组分选自蛋白质、多肽、肽、游离氨基酸、碳水化合物、脂肪、矿物质或矿物质来源、维生素和赋形剂。

107.根据权利要求105所述的营养组合物，其中所述第二组分是蛋白质。

108.根据权利要求107所述的营养组合物，其中所述蛋白质是工程化蛋白质。

109.根据权利要求105所述的营养组合物，其中所述第二组分是选自所述必需氨基酸的一种或多种游离氨基酸。

110.根据权利要求105所述的营养组合物，其中所述第二组分是选自支链氨基酸的一种或多种游离氨基酸。

111.根据权利要求110所述的营养组合物，其中所述第二组分是Leu。

112.根据权利要求105所述的营养组合物，其中所述第二组分是赋形剂。

113.根据权利要求112所述的营养组合物，其中所述赋形剂选自缓冲剂、防腐剂、稳定剂、粘合剂、压缩剂、润滑剂、分散增强剂、崩解剂、调味剂、甜味剂和着色剂。

114.根据权利要求105所述的营养组合物，其中所述营养组合物被配制为液体溶液、浆液、悬浮液、凝胶、糊剂、粉剂或固体。

115.一种制备营养组合物的方法，其包括提供根据权利要求49所述的工程化蛋白质并将所述工程化蛋白质与第二组分组合。

116.根据权利要求115所述的方法，其中所述第二组分选自蛋白质、多肽、肽、游离氨基酸、碳水化合物、脂肪、矿物质或矿物质来源、维生素和赋形剂。

117.根据权利要求115所述的方法，其中所述第二组分是蛋白质。

118.根据权利要求117所述的方法，其中所述蛋白质是工程化蛋白质。

119.一种维持或增加受试者中的肌肉质量、肌肉强度和功能性能的方法，所述方法包括向所述受试者提供足够量的如权利要求49所述的工程化蛋白质、根据权利要求105所述的营养组合物或通过根据权利要求115所述的方法制备的营养组合物。

120.一种维持或实现受试者的合乎需要的体重指数的方法，所述方法包括向所述受试者提供足够量的如权利要求49所述的工程化蛋白质、根据权利要求105所述的营养组合物或通过根据权利要求115所述的方法制备的营养组合物。

121.如权利要求119或120所述的方法，其中所述受试者年老、病情危急或罹患蛋白质-能量营养不良症。

122.如权利要求119或120所述的方法，其中所述受试者配合运动，消耗如权利要求49所述的工程化蛋白质、根据权利要求105所述的营养组合物或通过根据权利要求115所述的方法制备的营养组合物。

123.一种向患有蛋白质-能量营养不良症的受试者提供蛋白质的方法，所述方法包括向所述受试者提供足够量的如权利要求49所述的工程化蛋白质、根据权利要求105所述的营养组合物或通过根据权利要求115所述的方法制备的营养组合物。

124.如权利要求123所述的方法，其中如权利要求49所述的工程化蛋白质、如权利要求105所述的营养组合物或通过如权利要求115所述的方法制备的营养组合物被所述受试者通过口腔、肠或肠胃外途径消耗。

125.一种制备工程化蛋白质的方法，其包括：

a)提供参考分泌蛋白质；b)鉴别所述参考分泌蛋白质的一组氨基酸位置来进行突变以提高所述蛋白质的营养含量；以及c)合成包含所述靶氨基酸取代的所述工程化蛋白质。

126.如权利要求125所述的方法，其中所述氨基酸取代由i)能够编码多种所需氨基酸或ii)不能编码一种或多种非所需氨基酸的简并密码子编码。

127.如权利要求126所述的方法，其中使所述多种所需氨基酸针对一种或多种氨基酸富集。

128.如权利要求127所述的方法，其进一步包括d)选择包含所述氨基酸取代的工程化蛋白质。

129.如权利要求125所述的方法，其中所述参考分泌蛋白质是i)源于选自以下属的一员：曲霉属、木霉属、青霉属、金孢霉属、毁丝霉属、枝顶孢属、镰刀菌属、栓菌属和根霉属，ii)源于选自以下的微生物：大肠杆菌、枯草杆菌、酿酒酵母、巴斯德毕赤氏酵母、棒状杆菌属的种、集胞藻属的种和聚球藻属的种，或iii)是附录A中列出的蛋白质。

130.如权利要求125所述的方法，其中所述参考分泌蛋白质包含选自纤维素结合结构域、碳水化合物结合模块、纤连蛋白III型结构域和疏水蛋白的折叠共同序列。

131.如权利要求125所述的方法，其中鉴别所述参考分泌蛋白质的所述氨基酸位置组进行突变以提高所述蛋白质的营养含量包括确定选自以下的至少一个参数：所述参考分泌蛋白质的多个氨基酸位置的氨基酸可能性(AALike)、氨基酸类型可能性(AATLike)、位置熵(S_pos)、氨基酸类型位置熵(S_AATpos)、相对折叠自由能(ΔΔG_fold)和二级结构同一性(LoopID)。

132.如权利要求125所述的方法，其中确定所述参考分泌蛋白质的多个氨基酸位置的选自以下的参数组合：

(A)AAlike和ΔΔG_fold；(B)AATlike和ΔΔG_fold；(C)AAlike、AATlike和ΔΔG_fold；(D)S_pos和ΔΔG_fold；(E)S_AATpos和ΔΔG_fold；(F)LoopID和ΔΔG_fold；(G)AAlike、ΔΔG_fold和LoopID；(H)AAlike、AATlike、ΔΔG_fold和LoopID；(I)AATlike、ΔΔG_fold和LoopID；(J)S_pos、ΔΔG_fold和LoopID；以及(K)S_AATpos、ΔΔG_fold和LoopID。

133.如权利要求125所述的方法，其进一步包括基于所述参数将所述参考分泌蛋白质的所述多个氨基酸位置排序并使具有至少一个阈值参数值的位置上的氨基酸突变。

134.如权利要求125所述的方法，其中所述工程化蛋白质在体内合成。

135.一种文库，其包含多个编码营养多肽变体的重组核酸序列，其中每个营养多肽变体的一种或多种必需氨基酸与总氨基酸的比率高于至少50个氨基酸长的参考分泌蛋白质中所述一种或多种必需氨基酸与总氨基酸的比率。

136.一种重组单细胞生物体群体，其包含如权利要求135所述的文库。

137.一种分离的营养多肽变体，其从如权利要求136所述的群体分泌。

138.如权利要求137所述的营养多肽变体的分离的片段，其中所述片段适合于通过质谱分析法来分析。

139.一种装置，其包含如权利要求136所述的群体，其中两个或更多个含有独特多肽变体的个别重组单细胞生物体在空间上分开。

140.如权利要求139所述的装置，其中分泌营养多肽变体能够被鉴别。