“32分。一家做互联网金融的公司,招股书写得花团锦簇,但星海读出了几个问题——核心业务依赖关联交易,研发投入占比不到5%,实控人曾有P2P从业经历。”
陈默盯着那个32分,沉默了几秒。“看起来不错。问题在哪?”
陆方放下马克笔,走过来。他从抽屉里拿出一叠打印纸,上面是星海的错误案例记录。第一页用红色马克笔标注了几个大字:误判率约30%。
“问题在这。”陆方把记录本摊在桌上,“初版模型对文本的理解能力很差。招股书里有些句子,人一眼就能看懂,星海会读错。比如——”
他翻到第二页,指着一行被红圈标出的原文:“‘公司核心技术涉及多项授权专利,相关授权协议有效期至2025年。’星海读成了‘核心技术依赖外部授权’,扣了分。但仔细看,只是部分专利是授权的,核心是自己的。这是语义理解错误。”
周寻补充道:“还有更离谱的。某家公司说‘研发费用资本化比例为30%’,星海读成了‘研发费用资本化比例过高’,扣了分。实际上30%在行业里是正常水平。它把‘资本化’和‘激进’自动关联了,这是训练数据的问题。”
陈默翻着那叠错误记录,一页一页,越看越沉默。有的错误是语义层面的,有的是常识层面的,有的是数据源本身的错漏。一家公司明明在招股书里写了“国内市场占有率15%”,星海却因为没找到第三方验证数据,给了“市场地位不明确”的扣分。
“也就是说,”陈默合上记录本,“现在这个版本,还不能直接用来做投资决策?”
陆方和周寻对视了一眼。陆方先开口:“不能。用它筛一遍,人再过一遍,可以。完全信任它,不行。”
周寻补充道:“它的价值在于快。一百多家受理企业,人工读一遍招股书至少一个月。星海一个晚上就能跑完,把明显有问题的筛掉,把值得深入研究的标记出来。但最终的判断,必须由人来完成。”
本章未完,请点击"下一页"继续阅读! 第2页 / 共5页