統計学メモ

的に矢を射つ操作をイメージすると分かりやすい。

「不偏性」とは、矢を何回も射つとその分布が的の中央(これが θ を表します)を中心に広がることを意味する。

「有効性」は、そのバラツキ方が小さいこと。

「一致性」は、操作を繰り返していくほど同じ位置に当たる確率が増えていくこと。

定量の目的は θ をよく近似する代わりの値を求めることなので、不偏性は最も重要な性質。

 

一致性に近い性質として「漸近的正規性(Asymptotic Normality)」がある。これは、推定量の分布が正規分布に近似できる性質を意味する。

 

5個 の電球の無作為標本の寿命の平均が 1170時 間を超える確率

(以下の例題3)

http://www.math.s.chiba-u.ac.jp/~yasuda/statEN2/89to106.pdf

 

 F値計算(数式と使い方)

https://bellcurve.jp/statistics/course/10035.html

 

t検定の数式まとめ

•½‹Ï’l‚ÌŒŸ’è

 

カイ二乗検定: 母分散の信頼区間を求める。 (標本数-1)×不偏分散/X^2上側値

株価分析システムの運用参考サイト

Jenkinsを指定ユーザーで実行

pythonコマンドがシステムユーザーでは実行できない)

iyemon018.hatenablog.com

 

株価分析で参考にしたサイト

 

matplotlibで2軸描画

ukichang.hatenablog.com

 

 

SCIKIT-LEARNで最適なパラメータを決めるためにGRID SEARCHを使う

http://blog.tatsushim.com/?p=63

 

散布図作成

http://pythondatascience.plavox.info/matplotlib/%E6%95%A3%E5%B8%83%E5%9B%B3

 

matplotlibの文字化け

matplotlibで日本語 - Qiita

 

 

 

 

SQLメモ

 

SQLの実行順序イメージ図

blogs.itmedia.co.jp

 

Posgreの内部的なSQL読解順序

https://www.slideshare.net/MikiShimogai/postgre-sql-explain

 

 

PythonのTuple

 

タプルの列に対して処理

Series、DataFrameなど

sinhrks.hatenablog.com

 

DataFrameの概念イメージ

algorithm.joho.info

 

タプルの基本操作一覧

Pythonの数値計算ライブラリ NumPy入門 « Rest Term

 

ローソク足チャート作成時の参考(下記に入れるDataFrame作成はnp.arrayが元)

http://qiita.com/u1and0/items/1d9afdb7216c3d2320ef

 

DataFrameのテーブル結合

pandasの使い方(merge、join、concat編) - abcdefg.....

 

DataFrameのインデックスで行抽出

http://pythondatascience.plavox.info/pandas/%E8%A1%8C%E3%83%BB%E5%88%97%E3%81%AE%E6%8A%BD%E5%87%BA

 

 

 

SQLメモ

 

SQLの実行順序イメージ図

blogs.itmedia.co.jp

 

Posgreの内部的なSQL読解順序

https://www.slideshare.net/MikiShimogai/postgre-sql-explain

 

 

PythonからのTwitterAPI利用

参考にしたサイト

 

・基本的な使い方

・データフォーマットあり

TwitterAPI でツイートを大量に取得。サーバー側エラーも考慮(pythonで) | コード7区

 

必要ライブラリ

OAuth認証

・MysqlDB

 

日付のフォーマット変換(TwitterAPIからdatetime型に変換してmysqldbでinsert)

http://qiita.com/kenmatsu4/items/23768cbe32fe381d54a2

 

 

re.compile()

文字列の前にrを付けるのが普通。そうすると、文字列中のバックスラッシュ文字をそのままバックスラッシュとして扱えるので、パターンの書き方が煩雑にならない。

import re
pattern = re.compile(r'3.*?7') # 3で始まり7で終わる最短の文字列

 

TwitterAPI仕様。過去Tweetは3200件までしか取れないらしい(頑張れば可能)

dx.24-7.co.jp

 

日付は厄介なので必ずJSTに統一して比較する

import datetime
from pytz import timezone
from dateutil import parser

tweetCreatedAt = parser.parse(tweet['created_at']).astimezone(timezone('Asia/Tokyo'))

 

フォローユーザーの取得

osa030.hatenablog.com

 

 

Posgre設定

C:\Program Files\PostgreSQL\9.6\dataのpg_hba.confに以下を追記(他ホストからの接続を許可。posgresql.conf内の設定(listen_address、port)は修正不要だった)

host all all 192.168.0.0/24 md5

http://rina.jpn.ph/~rance/linux/postgresql/connect.html

 

Python Windowsの統合環境 Anaconda PyCharm

http://pythondatascience.plavox.info/python%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB/python%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB-windows/