千千絕對掌控!
當然股神僅僅有分析模塊和收集模塊是不夠的,它還需要有一個數據處理模塊,如果說分析模塊是大腦,收集模塊是手腳的話,那么處理模塊就是消化系統。
當海量的數據信息被從數據海洋中抽取出來,需要對這些信息進行加工處理,將它們處理成數據分析模塊能夠利用的數據模式。
比如某個上市公司一個年度財報,里面的內容非常之多,從人事變更到企業戰略,并購行為,利潤營收等方面都會涉及到,而這些東西又是關鍵性信息。一個數萬字外加各種圖標的財報,其中各種關鍵信息必須能夠被分析模塊理解并進行加工,這就是處理模塊的主要工作了。
這個數據處理模塊主要的功能部分其實是自然語言處理,程序本身是無法理解語言內涵的,它肯定無法理解“定向增發100萬限售股”是什么意思,這時候就需要認為給這句話進行賦值,讓它變成機器能夠理解的數據信息。
比如首先進行意義分割,將定向設定為一個意義單元,將增發設定為另外一個單元,以這種方式將整個句子按照意義單元分割開來,分別進行賦值。
這一套加工手段里面就牽扯到人機交互的語言處理問題,需要人為的幫助計算機去理解和處理人類的語言,讓機器能夠看懂語法、語意單元,能夠聯系上下文,能夠處理不同語境下同一個詞組的不同含義。
簡單來說,讓機器能夠理解人類語言,這就是自然語言的主要目標,同時也是這個處理模塊的主要功能。
分析、收集、處理,這三大模塊是股神的主要功能結構,但是僅僅如此還是不夠的,股神還需要很多的輔助模塊。
比如它需要有存儲模塊,所有的數據信息搜集回來,必須整理加工好,然后分類存儲起來,它就像一個超級圖書館一樣,必須有自己的分類和存儲規則。如果沒有這些,你只是簡單的將它們堆放在一起,你就可以想象,當你需要從數千萬本書籍當中,找出某一頁特定內容時,那將會是怎樣一個痛苦而又恐怖的過程。
另外股神還需要相應的展示和交互模塊,股神作為一個軟件,它需要有自己的操作界面,需要能夠將處理結果或者過程展現出來,需要能夠接收指令,進行人機交互。
這五個模塊組合在一起,并且能夠順暢的相互配合了,股神系統才算基本成型,而中間肯定會有各式各類的問題不停冒出來,這都需要莫回逐個解決掉。在使用的過程中,肯定還涉及到不停的跟新和改良,所有這些都將是莫回的工作。
按照莫回的估算,整個股神的體量不太可能低于100萬行代碼,如果想要讓股神盡可能的完美而準確,那它的體量絕對會翻著跟頭的往上翻。想要實現什么功能,你就必須付出相應的代價,如果你想要讓股神的預測盡可能精確,那么不停的往里投入肯定是必不可少的。
這還僅僅是股神本身,如果想要股神運作起來,那么莫回必然還將面臨著帶寬的問題,爬蟲一旦跑起來,海量數據就會被傳回,這些數據至少也是t級的。
在計算機領域,數據大小的單位是1024進制的,一個字節為byte,1024字節為kb,1024k為m,1024m為g,1024g為
比如我們手機的存儲容量可能是4g,筆記本的存儲容量可能是400g,而一臺筆記本的400g大概相當于一千部電影。
而股神通過爬蟲搜集來的數據肯定是海量的,至少是t級別的,就是跑到p級別也不算是什么大事。比如1p的數據,它大概相當于250萬部電影。人的一生也不過3萬天,每天看十部電影,也足夠看十輩子的了。
在如此大量的數據面前,莫回必然面臨一個帶寬問題,很容易想象,出租屋里的小區寬帶肯定是不好使的。
現在超級本的運算能力已經獲得驗證了,應該是比較超常的,但是它的存儲能力還未測試,如果存儲能力不成的話,莫回還必須為這海量數據尋找一個存儲空間。
諸如此類的問題還有很多,如果莫回想要把股神完成,并且上線運行,那么他必須像是老黃牛一樣,勤勤懇懇的往前走,把這些擋路石一個個的全部處理掉。
本來這些事就是交給一個公司處理,一個成熟的團隊來處理,都未必能夠處理得很好,現在莫回需要一個人搞定,并且很可能必須不顯山不漏水的一個人搞定,這里面的難度就可想而知了。
想想未來的前路,莫回感覺好像是登珠峰一樣,好高啊
好在莫回多少算是業內人士,這些事基本算得上是本職工作,無非就是項目經理、產品經理、主程、架構一肩挑了。難是難了點,工作量大是大了點,但是好歹還算有解決辦法,只要沿著道路一步步走,總會有完成的那一天。
工作量不小,不過也不是沒有捷徑可走,莫回點開網頁,開始搜集他需要的開源軟件。他去開源之家搜了一下,開源的爬蟲就有有一百多個,里面估計會有合用的。
五大模塊他都簡單的搜了一下,大多數都還有類似的可替代軟件,現在他需要做的就是在里面找到最合適的哪一款,然后修改后進行組裝。
首先需要選擇開發語言,各種語言都有自己的適用范圍和優缺點,一旦選定了,那么五大模塊都需要是同一個語言開發出來的才行,這樣也方便組裝和拓展開發。
莫回想了想,他最終選定了c++,因為這種語言更加靠近底層和匯編,整體執行效率和速度比較好。
莫回開始在網上尋找和篩選合用的開源軟件,將那些基本符合要求的c++開發的軟件全部下載下來,各自先歸類存儲起來。
等莫回將合用的三十多個各類爬蟲全部下載下來的時候夜已經深了,莫回揉揉僵硬的脖頸,伸伸懶腰,不由得為今后的日子哀嘆:要拼老命了啊,上班拼命回家也要拼命,這是要把自己當驢使喚啊~~~
書友正在讀: 太古吞噬訣 女曹操 我的前世今生被曝光,全網淚崩了 穿成極品老婦之后只想當咸魚 火影玲蛇傳 至尊透視 女配總是被穿越 我的系統聊天群 異世畫魂 洪荒:開局投影圣人天賦 我離線掛機十億年 成神的一百種方式[快穿] 武俠第一門徒 兵甲三國 仗劍當空 鄉野小春醫 入肉記(H) 寵物店的男人們(NP) 燉肉計+番外 國運:開局扮演二哈,我震驚了全世界 我死后渣攻們都瘋魔了 被迫嫁給執政官我成了全星際團寵 NBA:神級后衛 國師,您的人設有點崩了 我的師妹是劍仙 修仙:說,誰還要搶我的主角光環 繾綣 嬌縱 偏執寵愛 火影之殘火太刀 反派的超級英雄培養計劃 霸道老公,強勢寵 我靠發刀拯救世界 相親走錯房間,卻被對方表白了 鳳女謀嫁 入蠱 摯野 假天真 (斗羅大陸bl)酒方初醒 我,胖頭魚,超兇! 后宮獵艷 重生后,萬人嫌王妃被王爺狠狠偏愛 我在星際開動物園 我有美顏盛世[快穿] 春天精選 真愛囚籠 懷著竹馬的球跑了 冷酷警察的小嬌妻 人魚之公主成雙 吃掉一顆小櫻桃(校園 1v1) 終極一班之我的萬人迷女友 絕色校花的超級狂少 鎮仙封神蕭逸方清竹 綜瓊瑤之永璣 秦子衿孟闕 銀鎖金鈴記gl 生活在明朝 仁義不成買賣在 寵妾滅妻 蒼天饒過誰 重生香港之娛樂后宮 和宿敵綁定之后 傾戀寵妃 有生之年不相遇喻色墨靖堯 我只想讓我的面癱師傅笑一下 千金裘 再世為人+番外 穿書之謙絕 太宰的廢土之旅 一胎二寶:億萬首席的天價萌妻 BOSS纏上身:白少的千億寵兒 溫玥傅夜宸 校園式隱婚 工藤家的養崽日常 脈脈情深終陌路 絕天玄帝 重生綠茶成長記 洪荒:殺敵升級,屠殺八億血神子 故園春 純愛拯救咒回 唯有套路得人心 蠻荒小村的風流韻事 誰說冰山和邪魅不能征服世界 港片:從奪帥開始 我對象靠腦補談戀愛 錦明儀玉 星際重生記事 茍在修仙世界肝熟練度 穿越之點酥娘 婚牢 我真不是大佬(羅亮林清清) 四爺,夫人馬甲又掉了! 遇虎(古言,1v1h) 我在吏部當面試官 我不是真想秀恩愛 綜武:簽到十年,出關是張三豐百歲壽誕 人在尸兄,成狂魔了 被離婚后我撬了前夫的墻角 霍格沃茨的古代術士 我的趕山日常,開局遇到狐貍娶親 隨身仙田農莊 穿越時空之只為遇見你 重生最強逆襲:帝尊,心尖寵! 龍婿葉凡 從遮天開始萬界抽獎 嬌妾為寵 折翼追日 掉毛小貓,在線求打包 過婚不候 小狗誘捕手冊(1v1 h) 第3者關系【出軌合集】 假面騎士暗黑zio 重生之因果不循環 女俠白仙塵與四位女友 [紅樓]放妾有子 圣旨賜死當天,我入陸地神仙 偽裝薄情 福寶小嬌妾 大佬是我養的那只喵 蘇子宣顧凌洛 立夏宮銘玨 八零大佬的美艷嬌氣包 改嫁后冷傲王爺獨寵她 穿成癡戀溫柔男二的女炮灰 軍門梟寵:溺愛紈绔妻 寵妾滅妻?這宅斗文炮灰我罩了 狼少,晚上好! 葉秋思歐陽雪曾柔 快穿之宿主她成天不干人事 豐年不負人GL 楚辭夜瑾 自以為1后被清冷美人攻了 中蠱后和病弱摯友HE了 穿到六零當恩人的后媽 御史大夫和他的小跟班 不搭 快穿之都是我的踏腳石 狐娘 矜貴師叔在線搞事情 難逃夫君勾勾纏 我有特殊小藥房[九零] 三年又三年 重生七零,美又颯知青從撕渣開始 圣心雙雄 小師妹她總想殺我 九福晉鬧和離日常(清穿) 魔主她不要我了 論推倒鏟屎官的正確姿勢 網游炫舞之踮起腳尖說愛你 面具